二分类问题之企业精准营销场景落地实例(上篇)——数据探索与数据卸载


二分类问题之企业精准营销场景落地实例(上篇)——数据探索与数据卸载

一、创作介绍

在机器学习落地的诸多场景中,二分类问题堪称”万金油”——从垃圾邮件识别、欺诈交易检测到医疗诊断辅助,二分类的触角无处不在。今天我们要深入剖析的,是一个极具代表性的企业级落地案例:利用二分类算法识别精准营销场景中的目标客户

业务背景

某企业运营侧有一项硬性指标——AUM(Asset Under Management,可简单理解为用户在企业平台的充值资金) 需要持续提升。企业客群类别繁多,经过前期分析发现,dfx客群是体量最大的客群,因此团队决定围绕dfx客群进行精细化建模,核心目标锁定为:

预测dfx客群中AUM易流失的客户群体,实现提前预警与精准营销干预。

这是一个典型的二分类监督学习问题——target=1 表示”易流失客户”,target=0 表示”稳定客户”。看似简单的问题定义,背后的数据探索、特征工程、模型选型与工程落地却处处暗藏玄机。

本文是该系列的上篇,聚焦于企业数据探索与数据卸载两个核心环节。


二、企业数据探索

数据分析的第一步,永远是 “把数据看懂” 。在这个项目中,我们从五个维度展开系统性的数据探索。

2.1 企业AUM值客群分布分析

首先需要对全量客群的AUM值进行分布分析。常见做法包括:

  • 按客群类别统计AUM总量与占比,绘制帕累托图;
  • 计算各客群的人均AUM、AUM中位数,判断客群质量;
  • 分析各客群的AUM波动趋势,识别增长/下降的客群。

通过这一轮分析,我们得以锁定dfx客群——它的AUM占比最大,且用户基数最广,是精细化运营的首选目标。

数据探索工具推荐:Python 的 pandas + matplotlib/seaborn 组合足以胜任大部分探索性数据分析(EDA)工作。

2.2 营销三条路线

企业触达客户的路线通常有三条:

营销路线 触达方式 特点
客户经理触达 一对一电话/微信 转化率高,成本高,适合高价值客户
互联网推广 广告投放/搜索引擎 覆盖广,精准度有限,适合拉新
企业APP推广 Push消息/站内信/Banner 成本低,触达快,适合存量客户激活

对于dfx客群的AUM防流失场景,客户经理触达是最核心的路线——因为dfx客群已经与企业建立了资金关系,个性化的客户经理干预效果最好。模型预测结果将直接对接CRM系统,为客户经理提供每日待跟进清单。

2.3 dfx客群按每月充值额度分层分析

有了目标客群,下一步是分层。按每月充值额度对dfx客群进行分层,常见的分位点包括:

  • 高充值层(Top 10%):月充值 > P90分位值
  • 中充值层(20%-90%):月充值在 P20-P90 之间
  • 低充值层(Bottom 20%):月充值 < P20分位值

分层的目的在于:不同层次客户的流失行为模式可能完全不同。高充值客户的流失往往伴随着大额提现,而低充值客户可能只是”静默流失”。后续建模中需要将分层信息作为重要特征入模。

2.4 每月充值后N天余额变化分析

这是整个数据探索中最关键的环节之一

我们需要绘制dfx客群每月充值后第1天、第2天……第N天的平均余额变化曲线。核心观察点是:

找到余额变化曲线的”平滑收敛点”——即余额变化趋于稳定的天数N。

实际操作中:

  1. 以每个用户每月首次充值日为T+0;
  2. 计算T+1、T+2……T+30每天的账户余额;
  3. 按充值分层分别绘制余额变化曲线;
  4. 通过曲线斜率变化定位收敛点N。

这个N值的确定,直接影响target的定义——N天后的余额变化幅度,就是判断客户是否流失的核心依据

2.5 定义Target:N天流失率LSR

基于上一步确定的N值,计算每个充值分层的N天流失率(LSR, Loss Rate)

LSR = (充值金额 - N天后余额) / 充值金额

设定一个合理的LSR阈值(如分层LSR的中位数或P75分位值),超过该阈值即标记为target=1(易流失),反之为target=0(稳定)

⚠️ 注意:LSR阈值的设定需要结合业务容忍度。阈值过低会导致大量误报(False Positive),浪费客户经理精力;阈值过高则漏报(False Negative)严重,错失干预窗口。


三、数据卸载

3.1 生产环境与开发环境

企业生产数据通常存放在内网生产环境(如Oracle、Hive等),安全等级较高。算法建模需要在开发环境(本例使用 PostgreSQL)中进行,因此需要将数据从生产环境安全卸载到开发环境

这一步至关重要——数据部门会严格审查以下内容:

  • 卸载了哪些字段?(敏感字段必须脱敏)
  • 卸载的数据量级?(是否合理)
  • 是否有越权访问?(权限管控)

3.2 需要卸载的核心数据

经过审慎梳理,至少需要以下数据:

数据类别 具体字段 说明
用户标识 用户脱敏ID 必须脱敏,不可泄露真实身份
人口属性 年龄、地域、受教育程度 基础画像特征
充值行为 每月充值金额、充值次数、充值渠道 核心行为数据
余额变化 每月底余额、充值后N天余额 target定义依据
企业业务留痕 所有相关业务操作记录(登录、浏览、点击、客服交互等) 行为特征富矿
客群标签 dfx客群标识、充值分层标签 建模筛选条件

3.3 数据卸载的工程实践

实际操作中需要注意:

  1. 数据脱敏:用户ID使用MD5或SHA256哈希处理,确保无法反推真实身份;
  2. 时间窗口:抽取过去一年的数据,按月切片,确保数据完整性;
  3. 增量更新:建立T+1的增量卸载机制,确保后续模型上线后有持续的数据供给;
  4. 权限审批:提前走完数据卸载审批流程,避免项目延期。

PostgreSQL 是开发环境的数据库选型,其窗口函数能力强大,非常适合后续的特征衍生工作。


小结

本文作为系列的上篇,从业务背景出发,详细拆解了数据探索的五个关键步骤——从客群分析到target定义,并梳理了数据卸载的完整方案。下一篇(中篇),我们将进入整个项目最具技术含量的环节——特征工程,详解如何利用窗口函数进行特征衍生,以及如何规避”特征穿越”这一经典陷阱。

📌 阅读提醒:本文收录于《一个算法工程师的自我修养》系列合集,聚焦机器学习在工业界的实际应用,不纸上谈兵,只讲落地经验。


喜欢的朋友麻烦动一下发财的小手,点一下关注,关注”白云和黑土泛舟”后续更新不迷路。

下一篇预告:《二分类问题之企业精准营销场景落地实例(中篇)——特征工程详解》敬请期待!