二分类问题之企业精准营销场景落地实例(上篇)——数据探索与数据卸载

一、创作介绍

在机器学习落地的诸多场景中，二分类问题堪称”万金油”——从垃圾邮件识别、欺诈交易检测到医疗诊断辅助，二分类的触角无处不在。今天我们要深入剖析的，是一个极具代表性的企业级落地案例：利用二分类算法识别精准营销场景中的目标客户。

业务背景

某企业运营侧有一项硬性指标——AUM（Asset Under Management，可简单理解为用户在企业平台的充值资金） 需要持续提升。企业客群类别繁多，经过前期分析发现，dfx客群是体量最大的客群，因此团队决定围绕dfx客群进行精细化建模，核心目标锁定为：

预测dfx客群中AUM易流失的客户群体，实现提前预警与精准营销干预。

这是一个典型的二分类监督学习问题——target=1 表示”易流失客户”，target=0 表示”稳定客户”。看似简单的问题定义，背后的数据探索、特征工程、模型选型与工程落地却处处暗藏玄机。

本文是该系列的上篇，聚焦于企业数据探索与数据卸载两个核心环节。

二、企业数据探索

数据分析的第一步，永远是 “把数据看懂” 。在这个项目中，我们从五个维度展开系统性的数据探索。

2.1 企业AUM值客群分布分析

首先需要对全量客群的AUM值进行分布分析。常见做法包括：

按客群类别统计AUM总量与占比，绘制帕累托图；
计算各客群的人均AUM、AUM中位数，判断客群质量；
分析各客群的AUM波动趋势，识别增长/下降的客群。

通过这一轮分析，我们得以锁定dfx客群——它的AUM占比最大，且用户基数最广，是精细化运营的首选目标。

数据探索工具推荐：Python 的 pandas + matplotlib/seaborn 组合足以胜任大部分探索性数据分析（EDA）工作。

2.2 营销三条路线

企业触达客户的路线通常有三条：

营销路线	触达方式	特点
客户经理触达	一对一电话/微信	转化率高，成本高，适合高价值客户
互联网推广	广告投放/搜索引擎	覆盖广，精准度有限，适合拉新
企业APP推广	Push消息/站内信/Banner	成本低，触达快，适合存量客户激活

对于dfx客群的AUM防流失场景，客户经理触达是最核心的路线——因为dfx客群已经与企业建立了资金关系，个性化的客户经理干预效果最好。模型预测结果将直接对接CRM系统，为客户经理提供每日待跟进清单。

2.3 dfx客群按每月充值额度分层分析

有了目标客群，下一步是分层。按每月充值额度对dfx客群进行分层，常见的分位点包括：

高充值层（Top 10%）：月充值 > P90分位值
中充值层（20%-90%）：月充值在 P20-P90 之间
低充值层（Bottom 20%）：月充值 < P20分位值

分层的目的在于：不同层次客户的流失行为模式可能完全不同。高充值客户的流失往往伴随着大额提现，而低充值客户可能只是”静默流失”。后续建模中需要将分层信息作为重要特征入模。

2.4 每月充值后N天余额变化分析

这是整个数据探索中最关键的环节之一。

我们需要绘制dfx客群每月充值后第1天、第2天……第N天的平均余额变化曲线。核心观察点是：

找到余额变化曲线的”平滑收敛点”——即余额变化趋于稳定的天数N。

实际操作中：

以每个用户每月首次充值日为T+0；
计算T+1、T+2……T+30每天的账户余额；
按充值分层分别绘制余额变化曲线；
通过曲线斜率变化定位收敛点N。

这个N值的确定，直接影响target的定义——N天后的余额变化幅度，就是判断客户是否流失的核心依据。

2.5 定义Target：N天流失率LSR

基于上一步确定的N值，计算每个充值分层的N天流失率（LSR, Loss Rate）：

LSR = (充值金额 - N天后余额) / 充值金额

设定一个合理的LSR阈值（如分层LSR的中位数或P75分位值），超过该阈值即标记为target=1（易流失），反之为target=0（稳定）。

⚠️ 注意：LSR阈值的设定需要结合业务容忍度。阈值过低会导致大量误报（False Positive），浪费客户经理精力；阈值过高则漏报（False Negative）严重，错失干预窗口。

三、数据卸载

3.1 生产环境与开发环境

企业生产数据通常存放在内网生产环境（如Oracle、Hive等），安全等级较高。算法建模需要在开发环境（本例使用 PostgreSQL）中进行，因此需要将数据从生产环境安全卸载到开发环境。

这一步至关重要——数据部门会严格审查以下内容：

卸载了哪些字段？（敏感字段必须脱敏）
卸载的数据量级？（是否合理）
是否有越权访问？（权限管控）

3.2 需要卸载的核心数据

经过审慎梳理，至少需要以下数据：

数据类别	具体字段	说明
用户标识	用户脱敏ID	必须脱敏，不可泄露真实身份
人口属性	年龄、地域、受教育程度	基础画像特征
充值行为	每月充值金额、充值次数、充值渠道	核心行为数据
余额变化	每月底余额、充值后N天余额	target定义依据
企业业务留痕	所有相关业务操作记录（登录、浏览、点击、客服交互等）	行为特征富矿
客群标签	dfx客群标识、充值分层标签	建模筛选条件

3.3 数据卸载的工程实践

实际操作中需要注意：

数据脱敏：用户ID使用MD5或SHA256哈希处理，确保无法反推真实身份；
时间窗口：抽取过去一年的数据，按月切片，确保数据完整性；
增量更新：建立T+1的增量卸载机制，确保后续模型上线后有持续的数据供给；
权限审批：提前走完数据卸载审批流程，避免项目延期。

PostgreSQL 是开发环境的数据库选型，其窗口函数能力强大，非常适合后续的特征衍生工作。

小结

本文作为系列的上篇，从业务背景出发，详细拆解了数据探索的五个关键步骤——从客群分析到target定义，并梳理了数据卸载的完整方案。下一篇（中篇），我们将进入整个项目最具技术含量的环节——特征工程，详解如何利用窗口函数进行特征衍生，以及如何规避”特征穿越”这一经典陷阱。

📌 阅读提醒：本文收录于《一个算法工程师的自我修养》系列合集，聚焦机器学习在工业界的实际应用，不纸上谈兵，只讲落地经验。

喜欢的朋友麻烦动一下发财的小手，点一下关注，关注”白云和黑土泛舟”后续更新不迷路。

下一篇预告：《二分类问题之企业精准营销场景落地实例（中篇）——特征工程详解》敬请期待！