Board logo

标题: 判别模型、生成模型与朴素贝叶斯方法(2) [打印本页]

作者: yuyang911220    时间: 2016-7-11 10:01     标题: 判别模型、生成模型与朴素贝叶斯方法(2)

3) 高斯判别分析(GDA)与logistic回归的关系  
将GDA用条件概率方式来表述的话,如下:  
  
y是x的函数,其中都是参数。  
进一步推导出  
  
这里的的函数。  
这个形式就是logistic回归的形式。  
也就是说如果p(x|y)符合多元高斯分布,那么p(y|x)符合logistic回归模型。反之,不成立。为什么反过来不成立呢?因为GDA有着更强的假设条件和约束。  
如果认定训练数据满足多元高斯分布,那么GDA能够在训练集上是最好的模型。然而,我们往往事先不知道训练数据满足什么样的分布,不能做很强的假设。Logistic回归的条件假设要弱于GDA,因此更多的时候采用logistic回归的方法。  
例如,训练数据满足泊松分布,  
,那么p(y|x)也是logistic回归的。这个时候如果采用GDA,那么效果会比较差,因为训练数据特征的分布不是多元高斯分布,而是泊松分布。  
这也是logistic回归用的更多的原因。  
3朴素贝叶斯模型在GDA中,我们要求特征向量x是连续实数向量。如果x是离散值的话,可以考虑采用朴素贝叶斯的分类方法。  
假如要分类垃圾邮件和正常邮件。分类邮件是文本分类的一种应用。  
假设采用最简单的特征描述方法,首先找一部英语词典,将里面的单词全部列出来。然后将每封邮件表示成一个向量,向量中每一维都是字典中的一个词的0/1值,1表示该词在邮件中出现,0表示未出现。  
比如一封邮件中出现了“a”和“buy”,没有出现“aardvark”、“aardwolf”和“zygmurgy”,那么可以形式化表示为:  
  
假设字典中总共有5000个词,那么x是5000维的。这时候如果要建立多项式分布模型(二项分布的扩展)。  
多项式分布(multinomial distribution)  
某随机实验如果有k个可能结局A1,A2,…,Ak,它们的概率分布分别是p1,p2,…,pk,那么在N次采样的总结果中,A1出现n1次,A2出现n2次,…,Ak出现nk次的这种事件的出现概率P有下面公式:(Xi代表出现ni次)  

对应到上面的问题上来,把每封邮件当做一次随机试验,那么结果的可能性有种。意味着pi有个,参数太多,不可能用来建模。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0