贝叶斯与向量机的了解

发布时间：2011-06-18 12:17:24 文章来源：www.iduyao.cn 采编人员：星星草

贝叶斯与向量机的理解

Bayes法

Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。另外，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。

先验概率和后验概率
用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率。机器学习中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率。

(1) 朴素贝叶斯算法

设每个数据样本用一个n维特征向量来描述n个属性的值，即：X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是

P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i

根据贝叶斯定理

由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组，计算P(X|Ci)的开销可能非常大，为此，通常假设各属性的取值互相独立，这样

先验概率P(x1|Ci)，P(x2|Ci)，…，P(xn|Ci)可以从训练数据集求得。

根据此方法，对一个未知类别的样本X，可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci)，然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高，否则可能较低。另外，该算法没有分类规则输出

========================================================================

向量机

支持向量机(Support Vector Machine)是Cortes 和Vapnik 于1995年首先提出的，它在解决

小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其

他机器学习问题中[10]。

VC 维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC 维越高，一个问

题就越复杂

结构风险 近似模型与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）

泛化能力 亦是推广能力真实风险应该由两部分内容刻画，一是经

验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以

信任分类器在未知文本上分类的结果

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可

能正确，此时置信风险越小；二是分类函数的VC 维，显然VC 维越大，推广能力越差，置信

风险会变大。

泛化误差界的公式为：

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习的目标

从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

SVM 正是这样一种努力最小化结构风险的算法。

线性可分概念，在一个二维平面中它们的样本可以被中间的一条直线分类函数分成两类，并且样本完全分开。就称这些数据是线性可分的，否则称为非线性可分的。

线性函数 在一维空间里就是一个点，在二维空

间里就是一条直线，三维空间里就是一个平面，可以如此想象下去，如果不关注空间的维数，这种线性函数还有一个统一的名称——超平面（Hyper Plane）！

g(x)=wx+b

关于g(x)=wx+b 这个表达式要注意三点：一，式中的x 不是二维坐标系中的横轴，而是样本

的向量表示，例如一个样本点的坐标是(3,8)，则xT=(3,8)，而不是x=3（一般说向量都是

说列向量，因此以行向量形式来表示时，就加上转置）。二，这个形式并不局限于二维的情

况，在n 维空间中仍然可以使用这个表达式，只是式中的w 成为了n 维向量（在二维的这个

例子中，w 是二维向量，为了表示起来方便简洁，以下均不区别列向量和它的转置，聪明的

读者一看便知）；三，g(x)不是中间那条直线的表达式，中间那条直线的表达式是g(x)=0，

即wx+b=0，我们也把这个函数叫做分类面。

分类间隔实际上很容易看出来，中间那条分界线并不是唯一的，我们把它稍微旋转一下，只要不把两

类数据分错，仍然可以达到上面说的效果，稍微平移一下，也可以。

总之浅显点说向量机模型算法就是通过核函数把线性不可分割的数据进行高维度化使得分割间距明显然后在通过惩罚因子剔除脏数据

上一篇：hooks-pre-revpop-change.bat资料设置修改log权限
下一篇：EJB开发治理

友情提示：
信息收集于互联网，如果您发现错误或造成侵权，请及时通知本站更正或删除，具体联系方式见页面底部联系我们，谢谢。

其他相似内容：

SigMOD2012感兴趣的论文（时空数据处理）——记下缓缓看

SigMOD2012感兴趣的论文（时空数据处理）——记下慢慢看图中联合做距离数据处理： Efficient Processing of Distance Queries in Larg...
怎的控制你的情绪在项目中，释放压力

怎样控制你的情绪在项目中，释放压力在项目中由于甲方，乙方的关系，涉及到彼此的利益，所以争吵是在所难免的；客户要求你把功能，字段...
ISTQB AL-TM连载系列14：处置缺陷的严重程度与优先级

ISTQB AL-TM连载系列14：处理缺陷的严重程度与优先级正确处理和区分缺陷的严重程度和优先级是所有的软件开发和测试相关人员的重要...
ISTQB AL-TM连载系列11：基于对话的探索性测试管理

ISTQB AL-TM连载系列11：基于会话的探索性测试管理探索性测试是一个特殊的测试过程，它的测试活动和测试内容是动态变化的，更多的是通...
【在线探讨】《用户故事分类与组织结构（一期）》2012-06-26（周二）

【在线研讨】《用户故事分类与组织结构（一期）》2012-06-26（周二）主题：《用户故事分类与组织结构——火星人的需求管理理念（一期）》日期：2...
探索流程的奥秘之三，怎么梳理业务流程

探索流程的奥秘之三，如何梳理业务流程软件开发的难点之一是如何了解客户的需求，现实工作中，开发者们就像瞎子摸象一样从用...
ISTQB AL-TM连载系列13：筹建有效的缺陷管理过程

ISTQB AL-TM连载系列13：搭建有效的缺陷管理过程缺陷是测试过程中的重要输出和工作产品。缺陷的生命周期是一系列的活动和状态所组...
项目经理考虑什么是团队

项目经理思考什么是团队在软件项目实施过程中大家谈的最多的可能是“需求”这个词，之后谈的较多的是“团队”相关的话题。求职者...
通过robbin的管理有关问题谈自己遇到的管理有关问题

通过robbin的管理问题谈自己遇到的管理问题首先澄清每个公司，每个管理团队都有着不同的背景和状况。很多事情都不能一概而论，就和...
loadrunner、QTP、TestDirector学习札记

loadrunner、QTP、TestDirector学习笔记在Windows XP下安装了loadrunner 8.1、QTP 9.2、TestDirector 8.0 运行菜单Samples Set...

贝叶斯与向量机的了解

其他相似内容：

热门推荐：