:: 信息 公告 ::
:: 时间 记忆 ::
:: 最新 发表 ::
:: 最新 回复 ::
:: 最新 留言 ::
:: 用户 登入 ::
:: 日志 搜索 ::
:: 友情 链接 ::
:: 博客 信息 ::
 
简单贝叶斯分类器和回归分析 
[ 2005-12-13 15:03:24 | By: Bright ]
 

简单贝叶斯分类器和回归分析

李明辉

简单贝叶斯分类器和回归分析的关系

回归分析(Logistic Regression)直接估计其参数P(Y|X),而简单贝叶斯(Naïve Bayes)直接估计参数P(Y)和P(X|Y)。我们经常称前者为辨别式分类器(Discriminative classifier),后者为生成式分类器(Generative classifier)。

高斯简单贝叶斯分类器(GNB)的假设隐含着回归分析中参数P(Y|X)的形式,而且回归分析中的参数wi可以用高斯贝叶斯的参数来表示。事实上,如果GNB中的假设成立,那么GNB和回归分析就会向着相同的分类器收敛(随着训练样本的数量增加到无穷大)。

简单贝叶斯分类器和回归分析的区别

Ÿ           GNB模型的假设不成立时,回归分析和GNB会学到不同的分类器函数,在这种情况下,回归分析的分类精度常常会比GNB的分类精度高。尽管回归分析和简单贝叶斯的假设一致,即输入特征Xi在给定Y的条件下是独立的,但是回归分析的假设不如简单贝叶斯的严格。如果给定的数据不严格遵守这个假设,那么回归分析的条件似然最大化算法将会自动调节自己的参数来最大化地拟合数据,即使参数结果和简单贝叶斯估计的参数不一致。

Ÿ           GNB和回归分析以不同的速率向它们的精度渐近线收敛,GNB的参数估计以log n个样本收敛,nX的维数;回归分析的参数估计的速率较慢,以n个样本收敛。在几个数据集上的测试表明,当训练样本的数量很多时回归分析优于GNB,但是当训练样本很稀少时,GNB则优于回归分析。

应该知道的知识

Ÿ           我们可以把贝叶斯规则作为设计学习算法(函数逼近)的一个基础:我们想学到一个目标函数f:XàY或者学到P(Y|X),我们使用训练数据来学习P(X|Y)P(Y)的估计,然后可以用这些估计到的概率分布和贝叶斯法则来分类新的样本X。因为我们可以把分布P(X|Y)看作是在目标属性Y的条件下描述如何生成随机变量实例X,所以这种分类器叫生成式分类器。

Ÿ           学习贝叶斯分类器需要不切合实际数量的训练样本(比如大于|X|个训练样本,X是实例空间),除非作一些先验的假设。简单贝叶斯分类器假设描述X的所有的属性在给定Y的条件下是条件独立的。这个假设大大地减少了需要估计的参数的数目。简单贝叶斯是一个广泛使用的学习算法,而无论X是离散的还是连续的。

Ÿ           X是由离散属性值组成的向量时,简单贝叶斯学习算法可以被看作是先线性分类器,即每个简单的贝叶斯分类器都对应着一个X空间中的决策超平面。对于高斯简单贝叶斯分类器,如果每个特征的方差对于类别是条件独立的(即σik=σi),那么也有前面的结论。

Ÿ           回归分析是一个函数逼近算法,和贝叶斯不同的是它用训练数据直接估计P(Y|X)。在这个意义上,回归分析常常被称为辨别式分类器,因为我们可以把分布P(Y|X)看作是对实例X的直接辨别分类。

Ÿ           回归分析是对X的一个线性分类器。在训练样本的数目趋于无穷时以及简单贝叶斯假设成立的条件下,由回归分析和高斯简单贝叶斯产生的线性分类器是相同的。然而,如果这些假设不成立,简单贝叶斯的偏差导致它的精度要比回归分析差一些。换句话说,和回归分析相比,简单贝叶斯是一个具有较大偏差、较小方差的学习算法。如果这个偏差对于给定的真实数据是适当的,简单贝叶斯是首选的,否则,回归分析是首选的。

Ÿ           我们可以把函数逼近学习算法看作是对函数或者条件分布P(Y|X)的统计估计。他们从训练数据中的一个样本估计P(Y|X)。和其他的统计估计一样,这对于通过他们的偏差和期望方差(在不同的训练数据样本上)来刻画学习算法是很有用的。

Reference:

[1] Generative and discriminative classifiers: naive bayes and logistic regression

 
 
 
THX
[ 2008-1-13 7:16:18 | By: xiexie(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
THX
[ 2007-9-27 16:19:45 | By: xiexie(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
Ding
[ 2007-9-18 21:24:10 | By: luguo(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
Ding
[ 2007-9-7 17:37:06 | By: luguo(游客) ]
 
fx 初心者通过搬家公司引越し弱电公司购买エステ化粧品,安利福彩以及美容機器エステ用品,咨询翻译公司关于会社設立群馬 塗装发布求人 情報 転職結婚情報进行記帳代行wow gold,warcraft goldrunescape moneypower leveling占いand占い传递出産祝い开创自宅副業
 
 
 
Re
[ 2007-8-28 0:22:05 | By: bin(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
Re
[ 2007-8-10 17:03:37 | By: ano(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
Re
[ 2007-8-4 2:20:30 | By: ano(游客) ]
 
以下内容含脚本,或可能导致页面不正常的代码

说明:上面显示的是代码内容。您可以先检查过代码没问题,或修改之后再运行。
 
 
 
Re:简单贝叶斯分类器和回归分析
[ 2007-3-8 21:52:58 | By: bright(游客) ]
 

to 林旭:不好意思了,今天才看到您的留言,不知道你还会回来看吗?您没有留下联系方式,我只能写道这里了!
贝叶斯分类器应该是最简单的分类器之一了,但不代表它的效果不好。针对你的问题,贝叶斯的训练比较简单,就是简单的统计特征词语X和文本类别Y的共现次数,然后计算出(X|Y)的概率,在分类的时候,如果一个文本中的特征词语是X1、X2、...、Xk,那么
计算P(X1|Yi)*P(X2|Yi)*...*P(Xk|Yi),Yi来自于你的文本的所有可能类别,需要一一计算,那个概率乘积大,那么就分到那个类别。这点程序对于一个硕士生来说应该不难编写。当然也有现成的工具包,我知道的有weka,它里面包含很多工具,是用java写的并且公开源代码。

 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
Re:简单贝叶斯分类器和回归分析
[ 2007-2-18 22:17:34 | By: 林旭(游客) ]
 

我是工程硕士,做贝叶斯对网页的分类研究论文,但从没搞过这方面的东西,不知道有没有现成的贝叶斯分类器可以让我做实验,最好有源码让我参考,能不能指点一下

 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
Re:简单贝叶斯分类器和回归分析
[ 2006-11-17 8:57:44 | By: Bright(游客) ]
 
没错,就是这篇paper。
 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
Re:简单贝叶斯分类器和回归分析
[ 2006-11-17 5:35:20 | By: Tom(游客) ]
 

是这篇论文么?

On Discriminative vs. Generative classifier: A comparison of logistic regression and naive Bayes

 

Adrew Y. Ng,  Michael I. Jordan


以下为blog主人的回复:

 搞错了,我看得不是这篇paper,我把参考文献加到文后的参考文献中了。不过,您这篇也可以作为参考。

 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
Re:简单贝叶斯分类器和回归分析
[ 2006-10-6 19:31:21 | By: Bright ]
 

首先要感谢你(随便逛逛)能留下宝贵的留言,这些其实也不是我自己写的,是根据国外的某篇paper经过翻译总结的,具体标题即不清楚了,我有时间查一下。

个人感觉,这里将回归分析和简单贝叶斯分别称为辨别式和生成式分类其还是比较恰当的,尽管辨别式和生成式学习不仅仅局限于这两个方法,比如辨别式学习还有神经网络、支持向量机、最大熵等,生成式学习还有隐马尔科夫模型等方法。

个人理解辨别式和生成式的区别是(对于分类问题):

  • 辨别式学习从训练样本中直接学出条件概率P(Y|X):给定某些特征(取值)的条件下,该样本被分为类别Y的概率;
  • 生成式学习是从样本中估计两种概率:P(Y)和P(X|Y),然后用二者相乘所得到的联合概率作为分类的标准。

那么为什么要二者称为辨别式和生成式分类方法呢?我个人理解如下:

  • 辨别式学习:由于估计的概率是条件概率P(Y|X)——给定样本特征(值)的条件下,被分为某个类别的概率,形象地说,这是要学习到某种辨别/辨识的概率,因此称为辨别式学习;
  • 生成式学习:由于估计的概率是(X|Y)——给定某个类别,取得某种特征(值)的概率,换句话说是给定某个类别,取得某个样本的概率,形象地说,这是在某个类别下,生成样本的概率,故称之为生成式学习。

至于采用的参数估计方法,生成式学习多数采用ML估计,而辨别式学习则采用MAP估计。

欢迎广大网友排砖!

 
 
 
Re:简单贝叶斯分类器和回归分析
[ 2006-10-6 17:55:57 | By: 随便逛逛(游客) ]
 

感觉你的理解有不少错误。比如

首先Logistic Regression是回归分析(Regression)的一种,各种回归分析的差别之一就是目标函数定义的不同。

你这儿的所谓生成式或者辨别式更严格的来说应该是基于MAP或者ML的估计。

 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
回复:简单贝叶斯分类器和回归分析
[ 2006-7-13 19:32:21 | By: Jason(游客) ]
 

你好啊,我是做搜索引擎的,多多讨论,luolinjian@163.com


以下为blog主人的回复:

 好啊,我们这边有很多人在做搜索。我们马上要改版网站了,以后可以再我们的论坛上讨论。

 
 
 
回复:简单贝叶斯分类器和回归分析
[ 2006-2-16 9:54:16 | By: GeneCat(游客) ]
 

王翰轮,你好!今天才看见你的留言,真是抱歉!

我的文章还差很多呢!毕业还早呢,呵呵!

我们这边的搜索引擎主要是关老师负责,当然也有几个博士生。

你现在在哪个单位工作呢?

 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
回复:简单贝叶斯分类器和回归分析
[ 2005-12-19 22:14:53 | By: Jason(游客) ]
 

李明辉,我是和你一届的校友,我叫王瀚轮,和毛涌泉是一个寝室的。

你最近不错啊,呵呵。文章怎么样了?什么时候能毕业?

你或者你们老板有没有好的创业意向?

你们这边谁搞搜索引擎?能介绍一下么?

 

 
个人主页 | 引用 | 返回 | 删除 | 回复
 

发表评论:

    昵称:
    密码: (游客无须输入密码)
    主页:
    标题:
合作伙伴:传奇外挂 英语作文 卡巴斯基 传奇外传外挂 传奇外传外挂 传奇外传外挂 传奇外挂 火狐浏览器 健康常识 windows7
Powered by Oblog.