贝叶斯定理

@[toc]

条件概率

假设有两个事件,一个A一个B,在B发生的情况下A发生的概率是多少,这称为条件概率。记为p(A|B)。

边缘概率

如上假设有两个概率A,B。单独考虑A或者B的概率称为边缘概率。

联合概率

如上假设有两个概率A,B。A,B同时发生的概率则称为联合概率。记为<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>p</mi><mo stretchy="false">(</mo><mi>A</mi><mo>∩</mo><mi>B</mi><mo stretchy="false">)</mo></math>

贝叶斯定理

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>p</mi><mo stretchy="false">(</mo><mi>B</mi><mrow><mo stretchy="false">|</mo></mrow><mi>A</mi><mo stretchy="false">)</mo><mo>=</mo><mfrac><mrow><mi>p</mi><mo stretchy="false">(</mo><mi>A</mi><mrow><mo stretchy="false">|</mo></mrow><mi>B</mi><mo stretchy="false">)</mo><mi>p</mi><mo stretchy="false">(</mo><mi>B</mi><mo stretchy="false">)</mo></mrow><mrow><mi>p</mi><mo stretchy="false">(</mo><mi>A</mi><mo stretchy="false">)</mo></mrow></mfrac></math>
P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。
P(B)是 B 的先验概率,也作标淮化常量(normalizing constant)。
P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。
P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。
举个例子:
垃圾邮件的分类,通常将邮件可以识别划分成垃圾与非垃圾邮件。
P(A)=含有“广告 创新”的词通常为垃圾邮件
P(B)=是否是垃圾邮件
P(B|A)=需要求解的目标
P(A|B)=垃圾邮件里面是否有“广告,创新”词

参考链接

实例讲解:基于贝叶斯分类的垃圾邮件识别
机器学习——朴素贝叶斯算法(垃圾邮件分类)