- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理常用模型方法总结.doc
自然语言处理常用模型使用方法总结 一、N元模型如果用变量W代表一个文本中顺序排列的n个词,即W = 1W2…Wn ,则统计语言模型的任务商业智能组*t!V/q)^tc)u是给出任意词序列W 在文本中出现的概率P(W)利用概率的乘积公式,P(W)可展开为:P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)商业智能组@X$[!a5e vv不难看出,为了预测词n的出现概率,必须已知它前面所有词的出现概率。从计算上来看m){`$q(S*kb0,这太复杂了。如果任意一个词i的出现概率只同它前面的N-1个词有关,问题就可以得到;Zi1ktP/m0很大的简化。 这时的语言模型叫做N元模型 (N-gram),即2Z8I!n.H(Y1g0P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是N=2 或N=3的二元模型s)az oq to0(bi-gram)或三元模型(tri-gram)。以三元模型为例,近似认为任意词i的出现概率只同它紧前面的两个词有关重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有0bA(y FyZF0P(wi|wi-2wi-1) ≈ count(wi-2 wi-1… wi) / count(wi-2 wi-1)U*FN2YH?0式中count(…) 表示一个特定词序列在整个语料库中出现的累计次数。}pk5lkZ0统计语言模型有点像天气预报的方法。用来估计概率参数的大规模语料库好商业智能组z,c`2nE商业智能组IXh-hT;D7Y比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预报,就像是根据前两天商业智能组 p*{ el-n?i~的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方商业智能组jY!fD:|_法的一个特点吧。中文信息处理的主流技术是什么?该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。中, n越大约束力越强,但由于计算机容量和速度的限制及数据的稀疏,很难进行大n的统计。马尔可夫模型实际上是个有限状态机,两两状态间有转移概率;隐马尔可夫模型中状态不可见,我们只能看到输出序列,也就是每次状态转移会抛出个观测值;当我们观察到观测序列后,要找到最佳的状态序列。 HMM有 5个组成部分,通{S,K, π,A,B},有时简写为一个三元组{ ,A,B},其中:①S是模型的状态集,模型共有 N个状态,记为 S={s1,s, ?,sN};②K是模型中状态输出符号的集合,符号数为 M,K={k1,k2,?,kM};③是初始状态概率分布,记为 ={ 1, 2,,其中 i是状态 Si作为初始状态的概率;④A是状A={aij},1≤i≤N,1≤j≤N。其中 aij是从 Si转移到状态 Sj的概率;⑤B是符号输出概率矩阵,记为B={bik},1≤i≤N,1≤k≤M。其中 bik是状态 Si输出 Vk的概率。HMM解决实际问题,首先需要解决如下 3个基本问=O1O2?OT和模型{ ,A,B},如何高P(O|λ),也就是在给定模型的情况下观察序列O的概率;②给定一个观察序列 O=O1O2和模型{ ,A,B},如Q=q1q2?qT,使得 O=O1O2?OT,以及可能的模型空间,如何来估计模型参数,也就是{π,A,B}的参数,使得 P(O|)最大。隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。 其中,为归一化因子 ,是对应特征的权重,表示一个特征。每个特征对词性选择的影响大小由特征权重决定,而这些权值可由GIS或IIS学习算法自动得到。 四、支持向量机 原理: 支持向量机的主要思想可以概括为两点: (1) 它是针对线性可分情况进行分析,对于线性不可分的情况,?通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能; (2) 它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来, 通常分为两类情况来讨论,(1) 线性可分(2) 线性不可分。线性可分
文档评论(0)