❌ 简单概率公式
P(优惠) = 包含"优惠"的邮件数 / 总邮件数
计算过程:
P(优惠) = 30/100 = 0.30 = 30%
问题分析:
- 只看总体频率,忽略类别信息
- 无法区分不同类别中的分布差异
- 对分类决策帮助有限
简单结果:30%的邮件包含"优惠"
但这对分类没有直接帮助!
✅ 全概率公式
P(优惠) = P(优惠|垃圾)×P(垃圾) + P(优惠|正常)×P(正常)
计算过程:
步骤1:计算条件概率
- P(优惠|垃圾) = 24/40 = 0.60 = 60%
- P(优惠|正常) = 6/60 = 0.10 = 10%
步骤2:计算先验概率
- P(垃圾) = 40/100 = 40%
- P(正常) = 60/100 = 60%
步骤3:应用全概率公式
P(优惠) = 0.60×0.40 + 0.10×0.60
= 0.24 + 0.06 = 30%
优势分析:
- 揭示了类别间的显著差异
- 垃圾邮件中60%包含"优惠"
- 正常邮件中仅10%包含"优惠"
- 为贝叶斯分类提供了有用信息
全概率结果:同样是30%,但提供了
垃圾邮件(60%)和正常邮件(10%)的分布信息!