中国期货市场高频交易样本不平衡问题

文章核心:用"区间不确定"战胜"数据不平衡"
一、问题背景:高频期货预测的"大海捞针"
|
|
|
|---|---|
|
|
|
传统方法的困境:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
二、核心创新:给概率"留余地"
2.1 关键洞察
|
|
|
|---|---|
|
|
|
2.2 "安全垫"机制图解
传统LR/SVM预测流程:输入x → [模型计算] → 得分z → σ(z) → 概率p → 与0.5比较 → 输出类别 ↑ 精确但"头铁"均值不确定性方法:输入x → [模型计算] → 得分z → σ(z+μ̄) → 上概率P̄ → 与0.5比较 → 输出类别 ↑ 加安全垫μ̄,更"保守"
三、两种具体方法详解
3.1 均值不确定性逻辑回归 (Mean-Uncertainty LR)
|
|
|
|---|---|
| 第一步
|
Step 1
|
关键公式对比:
|
|
|
|
|---|---|---|
|
|
||
|
|
|
|
|
|
|
|
3.2 均值不确定性支持向量机 (Mean-Uncertainty SVM) ⭐本文创新
|
|
|
|---|---|
|
|
传统SVM决策函数
|
核函数选择(高斯核):
四、"安全垫"怎么算?—— 次线性期望(SLE)框架
4.1 核心思想:一族分布,而非一个分布
|
|
|
|---|---|
|
|
|
4.2 最大分布:刻画"均值不确定"的利器
|
|
|
|---|---|
|
|
|
4.3 从理论到算法:φ-max-min方法
|
|
|
|---|---|
|
|
定理A.3
|
五、实证结果:数字说话
5.1 实验设置
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
5.2 分类性能对比
Recall(少数类识别率)提升最显著:
|
|
|
|
均值不确定性LR |
|
|
均值不确定性SVM |
|---|---|---|---|---|---|---|
|
|
|
|
69.7% |
|
|
81.7% |
|
|
|
|
61.5% |
|
|
86.6% |
|
|
|
|
62.9% |
|
|
73.8% |
|
|
|
|
61.0% |
|
|
67.9% |
数学解读:
-
传统方法:,即 ,模型几乎不预测少数类 -
新方法:,即 ,成功识别大部分少数类
5.3 投资策略收益
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
80% |
|
|
|
80% |
|
|
|
67% |
六、方法论总结:一张图看懂
┌─────────────────────────────────────────────────────────────┐│ 数据不平衡问题 ││ (95%噪音,5%信号) │└─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────┼─────────────────────┐ ↓ ↓ ↓ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ 采样方法 │ │ 权重调整 │ │ 本文方法 │ │(SMOTE等)│ │(代价敏感)│ │(SLE框架)│ └────┬────┘ └────┬────┘ └────┬────┘ │ │ │ ↓ ↓ ↓ 修改数据分布 修改损失函数 修改概率解释 (外部干预) (强制学习) (内在不确定性) │ │ │ └─────────────────────┴─────────────────────┘ ↓ ┌─────────────────────────────────────────┐ │ 本文核心:承认预测不确定性,保守决策 │ │ │ │ 点估计 p = 0.6 → 区间估计 [0.5, 0.7] │ │ │ │ 决策规则:max([0.5, 0.7]) = 0.7 > 0.5 │ │ → 判为少数类(更积极) │ └─────────────────────────────────────────┘
七、一句话精髓
🎯 通俗版:与其在数据上"造假"(合成样本)或"硬逼"模型(调权重),不如诚实承认"我看不准",然后用最保守的估计做决策,反而能抓住更多真正的机会。
📐 数学版:通过次线性期望 将点估计扩展为区间估计,利用最大分布 刻画均值不确定性,以 作为保守决策依据,在不平衡数据分类中实现Recall与Bacc的显著提升。
加入星球,一起讨论这篇文章



评论