二分类问题之企业精准营销场景落地实例(上篇)——数据探索与数据卸载
一、创作介绍
在机器学习落地的诸多场景中,二分类问题堪称”万金油”——从垃圾邮件识别、欺诈交易检测到医疗诊断辅助,二分类的触角无处不在。今天我们要深入剖析的,是一个极具代表性的企业级落地案例:利用二分类算法识别精准营销场景中的目标客户。
业务背景
某企业运营侧有一项硬性指标——AUM(Asset Under Management,可简单理解为用户在企业平台的充值资金) 需要持续提升。企业客群类别繁多,经过前期分析发现,dfx客群是体量最大的客群,因此团队决定围绕dfx客群进行精细化建模,核心目标锁定为:
预测dfx客群中AUM易流失的客户群体,实现提前预警与精准营销干预。
这是一个典型的二分类监督学习问题——target=1 表示”易流失客户”,target=0 表示”稳定客户”。看似简单的问题定义,背后的数据探索、特征工程、模型选型与工程落地却处处暗藏玄机。
本文是该系列的上篇,聚焦于企业数据探索与数据卸载两个核心环节。
二、企业数据探索
数据分析的第一步,永远是 “把数据看懂” 。在这个项目中,我们从五个维度展开系统性的数据探索。
2.1 企业AUM值客群分布分析
首先需要对全量客群的AUM值进行分布分析。常见做法包括:
-
按客群类别统计AUM总量与占比,绘制帕累托图; -
计算各客群的人均AUM、AUM中位数,判断客群质量; -
分析各客群的AUM波动趋势,识别增长/下降的客群。
通过这一轮分析,我们得以锁定dfx客群——它的AUM占比最大,且用户基数最广,是精细化运营的首选目标。
数据探索工具推荐:Python 的
pandas+matplotlib/seaborn组合足以胜任大部分探索性数据分析(EDA)工作。
2.2 营销三条路线
企业触达客户的路线通常有三条:
| 营销路线 | 触达方式 | 特点 |
|---|---|---|
| 客户经理触达 | 一对一电话/微信 | 转化率高,成本高,适合高价值客户 |
| 互联网推广 | 广告投放/搜索引擎 | 覆盖广,精准度有限,适合拉新 |
| 企业APP推广 | Push消息/站内信/Banner | 成本低,触达快,适合存量客户激活 |
对于dfx客群的AUM防流失场景,客户经理触达是最核心的路线——因为dfx客群已经与企业建立了资金关系,个性化的客户经理干预效果最好。模型预测结果将直接对接CRM系统,为客户经理提供每日待跟进清单。
2.3 dfx客群按每月充值额度分层分析
有了目标客群,下一步是分层。按每月充值额度对dfx客群进行分层,常见的分位点包括:
-
高充值层(Top 10%):月充值 > P90分位值 -
中充值层(20%-90%):月充值在 P20-P90 之间 -
低充值层(Bottom 20%):月充值 < P20分位值
分层的目的在于:不同层次客户的流失行为模式可能完全不同。高充值客户的流失往往伴随着大额提现,而低充值客户可能只是”静默流失”。后续建模中需要将分层信息作为重要特征入模。
2.4 每月充值后N天余额变化分析
这是整个数据探索中最关键的环节之一。
我们需要绘制dfx客群每月充值后第1天、第2天……第N天的平均余额变化曲线。核心观察点是:
找到余额变化曲线的”平滑收敛点”——即余额变化趋于稳定的天数N。
实际操作中:
-
以每个用户每月首次充值日为T+0; -
计算T+1、T+2……T+30每天的账户余额; -
按充值分层分别绘制余额变化曲线; -
通过曲线斜率变化定位收敛点N。
这个N值的确定,直接影响target的定义——N天后的余额变化幅度,就是判断客户是否流失的核心依据。
2.5 定义Target:N天流失率LSR
基于上一步确定的N值,计算每个充值分层的N天流失率(LSR, Loss Rate):
LSR = (充值金额 - N天后余额) / 充值金额
设定一个合理的LSR阈值(如分层LSR的中位数或P75分位值),超过该阈值即标记为target=1(易流失),反之为target=0(稳定)。
⚠️ 注意:LSR阈值的设定需要结合业务容忍度。阈值过低会导致大量误报(False Positive),浪费客户经理精力;阈值过高则漏报(False Negative)严重,错失干预窗口。
三、数据卸载
3.1 生产环境与开发环境
企业生产数据通常存放在内网生产环境(如Oracle、Hive等),安全等级较高。算法建模需要在开发环境(本例使用 PostgreSQL)中进行,因此需要将数据从生产环境安全卸载到开发环境。
这一步至关重要——数据部门会严格审查以下内容:
-
卸载了哪些字段?(敏感字段必须脱敏) -
卸载的数据量级?(是否合理) -
是否有越权访问?(权限管控)
3.2 需要卸载的核心数据
经过审慎梳理,至少需要以下数据:
| 数据类别 | 具体字段 | 说明 |
|---|---|---|
| 用户标识 | 用户脱敏ID | 必须脱敏,不可泄露真实身份 |
| 人口属性 | 年龄、地域、受教育程度 | 基础画像特征 |
| 充值行为 | 每月充值金额、充值次数、充值渠道 | 核心行为数据 |
| 余额变化 | 每月底余额、充值后N天余额 | target定义依据 |
| 企业业务留痕 | 所有相关业务操作记录(登录、浏览、点击、客服交互等) | 行为特征富矿 |
| 客群标签 | dfx客群标识、充值分层标签 | 建模筛选条件 |
3.3 数据卸载的工程实践
实际操作中需要注意:
-
数据脱敏:用户ID使用MD5或SHA256哈希处理,确保无法反推真实身份; -
时间窗口:抽取过去一年的数据,按月切片,确保数据完整性; -
增量更新:建立T+1的增量卸载机制,确保后续模型上线后有持续的数据供给; -
权限审批:提前走完数据卸载审批流程,避免项目延期。
PostgreSQL 是开发环境的数据库选型,其窗口函数能力强大,非常适合后续的特征衍生工作。
小结
本文作为系列的上篇,从业务背景出发,详细拆解了数据探索的五个关键步骤——从客群分析到target定义,并梳理了数据卸载的完整方案。下一篇(中篇),我们将进入整个项目最具技术含量的环节——特征工程,详解如何利用窗口函数进行特征衍生,以及如何规避”特征穿越”这一经典陷阱。
📌 阅读提醒:本文收录于《一个算法工程师的自我修养》系列合集,聚焦机器学习在工业界的实际应用,不纸上谈兵,只讲落地经验。
喜欢的朋友麻烦动一下发财的小手,点一下关注,关注”白云和黑土泛舟”后续更新不迷路。
下一篇预告:《二分类问题之企业精准营销场景落地实例(中篇)——特征工程详解》敬请期待!