朴素贝叶斯案例、原理、应用和拉普拉斯修正
今天探讨朴素贝叶斯分类原理,使用案例帮助大家尽快理解原理是专栏的宗旨,今天也不例外。
小美买苹果
小美比较喜欢吃苹果,所以去超市买水果时,苹果往往是必买的。长年累月,摸索出一套挑选苹果的方法,一般红润而圆滑的果子都是好苹果,泛青无规则的一般质量比较一般。
根据之前几次买过的苹果,已经验证过 10 个苹果,主要根据大小、颜色和形状这三个特征,来区分苹果是好果子是坏果子,如下:
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红色 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红色 | 圆形 | 是 |
假如现在小美在超市正要买的一个苹果特征如下:
大小 | 颜色 | 形状 | 好果 |
---|---|---|---|
大 | 红色 | 圆形 | ? |
问这是好果还是一般的苹果?
假定,苹果的三个特征:大小、颜色、形状是相互独立的,言外之意它们之间没有相关关系。这就是朴素贝叶斯中朴素的含义所在。
好还是一般
根据学习经验,我们先以第一节案例提出的问题为线索,从具体的求解问题中摸索出朴素贝叶斯模型的基本原理,这样有助于大家迅速掌握朴素贝叶斯模型。
定义苹果的情况为事件 c,事件 c 取值为好果或一般,概率 P(c)P(c),求解方法:每类样本的个数除以所有样本个数,因此:
P(c=好果)=410P(c=好果)=410
P(c=一般)=610P(c=一般)=610
每个特征的条件概率等于此类别和特征下样本个数除以此类别的样本个数,因此:
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红色 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红色 | 圆形 | 是 |
P(大小=大|c=好果)=34P(大小=大|c=好果)=34
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红色 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红色 | 圆形 | 是 |
P(颜色=红色|c=好果)=44P(颜色=红色|c=好果)=44
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红色 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红色 | 圆形 | 是 |
P(形状=圆形|c=好果)=34P(形状=圆形|c=好果)=34
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红 | 圆形 | 是 |
P(大小=大|c=一般)=36P(大小=大|c=一般)=36
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红 | 圆形 | 是 |
P(颜色=红色|c=一般)=16P(颜色=红色|c=一般)=16
编号 | 大小 | 颜色 | 形状 | 好果 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红 | 圆形 | 是 |
P(形状=圆形|c=一般)=26P(形状=圆形|c=一般)=26
因此根据朴素贝叶斯分类原理可得:
P(c=好果)×P(大小=大|c=好果)×P(颜色=红色|c=好果)×P(形状=圆形|c=好果)=410×34×44×34=0.225P(c=好果)×P(大小=大|c=好果)×P(颜色=红色|c=好果)×P(形状=圆形|c=好果)=410×34×44×34=0.225
P(c=一般)×P(大小=大|c=一般)×P(颜色=红色|c=一般)×P(形状=圆形|c=一般)=610×36×16×26=0.0167P(c=一般)×P(大小=大|c=一般)×P(颜色=红色|c=一般)×P(形状=圆形|c=一般)=610×36×16×26=0.0167
因为 0.225 > 0.0167,所以得出结论:此苹果为好果。
朴素贝叶斯模型原理
根据贝叶斯公式可得:
P(c|x)=P(c)×P(x|c)P(x)P(c|x)=P(c)×P(x|c)P(x)
上式中概率 P(c)P(c) 和 P(x)P(x) 比较容易求出。关键是求解概率 P(x|c)P(x|c)。
朴素贝叶斯模型假定所有特征间都相互独立,英文名称为:naive bayesian model。
因此在各个特征间相互独立的前提假定下,P(x|c)P(x|c) 计算公式便可进一步推导为如下:
P(x|c)=d∏i=0P(xi|c)P(x|c)=∏i=0dP(xi|c)
其中,dd 是样本的所有特征个数,在上面案例中特征数为 3。
因为各个属性间相互独立,所以 P(x|c)P(x|c) 的概率等于每个特征的类条件概率 P(xi|c)P(xi|c) 的乘积。
因此,联立上面两个公式,可以得到如下公式:
P(c|x)=P(c)×∏di=0P(xi|c)P(x)P(c|x)=P(c)×∏i=0dP(xi|c)P(x)
由于对所有类别来说,P(x)P(x) 是相同的,因此贝叶斯分类器的目标函数进一步化简为如下:
h(x)=max(P(c)d∏i=0P(xi|c))h(x)=max(P(c)∏i=0dP(xi|c))
其中 cc 为某个类别,比如以上苹果案例中一共有两个类别:好果、坏果。
称上式为朴素贝叶斯分类器的目标函数。
朴素贝叶斯分类器的训练学习的过程便是基于训练数据,求得概率 P(c)P(c),并且为每个属性求得概率 P(xi)|cP(xi)|c,然后相乘取最大值的过程。
特殊处理
值得注意,如果要预测如下苹果是否为好苹果:
大小 | 颜色 | 形状 | 好果 |
---|---|---|---|
大 | 青色 | 圆形 | ? |
通过已知的数据集发现:
P(颜色=青色|c=好果)=0P(颜色=青色|c=好果)=0
那么无论 P(其他属性取值|c=好果)P(其他属性取值|c=好果) 取值为多大,哪怕在其他属性上取值多么像好果,相乘后都为 0,这显然不太合理。
通常解决这个问题的方法是要进行平滑处理,常用拉普拉斯修正。
拉普拉斯修正的含义,总共的分类数用 NN 表示;didi 属性可能的取值数用 NiNi 表示,因此原概率 P(c)P(c) 的计算公式由:
P(C)=DcDP(C)=DcD
其中,DcDc 表示数据集中第 cc 类样本的总个数,DD 表示数据集中样本总个数,被拉普拉斯修正后 P(c)P(c) 为:
P(C)=Dc+1D+NP(C)=Dc+1D+N
而概率 P(xi|c)P(xi|c) 的计算公式由:
P(xi|c)=Dc,xiDcP(xi|c)=Dc,xiDc
其中,Dc,xiDc,xi 表示第 cc 类样本中第 ii 个属性取值等于 xixi 的样本个数。
被拉普拉斯修正后变为:
P(xi|c)=Dc,xi+1Dc+NiP(xi|c)=Dc,xi+1Dc+Ni
小结
今天以小美买苹果判断好坏为案例引入朴素贝叶斯模型,以及使用一个极简 10 个样本的数据集,演示朴素贝叶斯分类的整个过程,进而提取归纳出朴素贝叶斯的模型原理,最后解决朴素贝叶斯问题可能遇到的特殊情况,某个分类中某个属性值的样本个数为 0 的问题,一般使用拉普拉斯平滑修正问题。示意图如下:
