简单贝叶斯分类器和回归分析
李明辉
简单贝叶斯分类器和回归分析的关系
回归分析(Logistic Regression)直接估计其参数P(Y|X),而简单贝叶斯(Naïve Bayes)直接估计参数P(Y)和P(X|Y)。我们经常称前者为辨别式分类器(Discriminative classifier),后者为生成式分类器(Generative classifier)。
高斯简单贝叶斯分类器(GNB)的假设隐含着回归分析中参数P(Y|X)的形式,而且回归分析中的参数wi可以用高斯贝叶斯的参数来表示。事实上,如果GNB中的假设成立,那么GNB和回归分析就会向着相同的分类器收敛(随着训练样本的数量增加到无穷大)。
简单贝叶斯分类器和回归分析的区别
Ÿ 当GNB模型的假设不成立时,回归分析和GNB会学到不同的分类器函数,在这种情况下,回归分析的分类精度常常会比GNB的分类精度高。尽管回归分析和简单贝叶斯的假设一致,即输入特征Xi在给定Y的条件下是独立的,但是回归分析的假设不如简单贝叶斯的严格。如果给定的数据不严格遵守这个假设,那么回归分析的条件似然最大化算法将会自动调节自己的参数来最大化地拟合数据,即使参数结果和简单贝叶斯估计的参数不一致。
Ÿ GNB和回归分析以不同的速率向它们的精度渐近线收敛,GNB的参数估计以log n个样本收敛,n是X的维数;回归分析的参数估计的速率较慢,以n个样本收敛。在几个数据集上的测试表明,当训练样本的数量很多时回归分析优于GNB,但是当训练样本很稀少时,GNB则优于回归分析。
应该知道的知识
Ÿ 我们可以把贝叶斯规则作为设计学习算法(函数逼近)的一个基础:我们想学到一个目标函数f:XàY或者学到P(Y|X),我们使用训练数据来学习P(X|Y)和P(Y)的估计,然后可以用这些估计到的概率分布和贝叶斯法则来分类新的样本X。因为我们可以把分布P(X|Y)看作是在目标属性Y的条件下描述如何生成随机变量实例X,所以这种分类器叫生成式分类器。
Ÿ 学习贝叶斯分类器需要不切合实际数量的训练样本(比如大于|X|个训练样本,X是实例空间),除非作一些先验的假设。简单贝叶斯分类器假设描述X的所有的属性在给定Y的条件下是条件独立的。这个假设大大地减少了需要估计的参数的数目。简单贝叶斯是一个广泛使用的学习算法,而无论X是离散的还是连续的。
Ÿ 当X是由离散属性值组成的向量时,简单贝叶斯学习算法可以被看作是先线性分类器,即每个简单的贝叶斯分类器都对应着一个X空间中的决策超平面。对于高斯简单贝叶斯分类器,如果每个特征的方差对于类别是条件独立的(即σik=σi),那么也有前面的结论。
Ÿ 回归分析是一个函数逼近算法,和贝叶斯不同的是它用训练数据直接估计P(Y|X)。在这个意义上,回归分析常常被称为辨别式分类器,因为我们可以把分布P(Y|X)看作是对实例X的直接辨别分类。
Ÿ 回归分析是对X的一个线性分类器。在训练样本的数目趋于无穷时以及简单贝叶斯假设成立的条件下,由回归分析和高斯简单贝叶斯产生的线性分类器是相同的。然而,如果这些假设不成立,简单贝叶斯的偏差导致它的精度要比回归分析差一些。换句话说,和回归分析相比,简单贝叶斯是一个具有较大偏差、较小方差的学习算法。如果这个偏差对于给定的真实数据是适当的,简单贝叶斯是首选的,否则,回归分析是首选的。
Ÿ 我们可以把函数逼近学习算法看作是对函数或者条件分布P(Y|X)的统计估计。他们从训练数据中的一个样本估计P(Y|X)。和其他的统计估计一样,这对于通过他们的偏差和期望方差(在不同的训练数据样本上)来刻画学习算法是很有用的。
Reference:
[1] Generative and discriminative classifiers: naive bayes and logistic regression