- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言无关的贝叶斯集成分类模型.pdf
语言无关的贝叶斯集成分类模型
古平 朱征宇 朱庆生 沈一栋
重庆大学计算机学院,重庆(400030)
E-mail :guping2k@
摘 要:现有文档分类模型主要针对特定语言的文档,缺乏对多种语言的适应能力。本文提
出将N-Gram 与贝叶斯模型相结合的思想,使得模型独立于文档语言成为可能。在此基础上,
利用不同阶次N-Gram 增强贝叶斯模型的结构差异性和对不同语言文档的适应性,提出一种
新的集成框架和自适应集成方法,以提高模型在不同语言文档中的性能稳定性。实验证明,
贝叶斯集成模型完全能适应跨语言的文档分类需求。
关键词:贝叶斯,集成,语言模型,Dempster-Shafer
1.引言
随着 Internet 上可用信息资源的日益增多,文档自动分类的需求也日益迫切,目前,已
有很多基于统计学和机器学习的方法被应用到文档分类中,且取得了较好的效果。但这些模
型大多只针对特定语言的文档,缺乏对多种语言的适应能力,甚至出现分类性能的较大差异。
新的研究显示,借助自然语言模型,如 N-Gram 模型[1]可以解决这一问题。Peng[2]最早
将其应用于朴素贝叶斯模型,提出一种 CAN(Chain Augmented Naïve Bayesian)模型,部分解
决了朴素贝叶斯模型的条件独立假设问题,同时为实现语言独立的文档分类提供了可能。但
我们的实验同时显示,CAN 模型在不同语言文档中的性能很不一致,这与 CAN 中所采用
N-Gram 模型的阶次有关。一般来说,不同语言对N 值的依赖是不同的。如中文文档中,部
分字单独成词,而词的组合也有两字词,三字或四字短语等,因此N 最大可以为 5,而在英
文中短语通常较短,一般N 不超过 3 。因此,要真正实现语言无关的文档分类,仅使用单一
的N-Gram 模型增强是不够的。本章,我们综合运用多分类器集成技术以及 N-Gram 语言模
型,提出一种新的贝叶斯集成分类模型,利用集成中成员间的性能差异,实现对不同语言文
档的精确分类。
2.语言无关的贝叶斯分量模型
2.1 N-Gram 语言模型
N-Gram 模型是自然语言处理中应用最广的一种语言模型,它基于这样一种假设:第N
个词的出现只与前面N −1个词相关,而与其它任何词均不相关,因此整个语句的概率就是
各个词出现概率的乘积。给定文档d {w w ...w } ,根据链式规则我们可将任意词序的概
1 2 n
率记为:
n
P (w w ...w ) ∏P (w | w ,...w ) (1)
c 1 2 n c i 1 i−1
i 1
其中P (w | w ,...w ) 表示在给定词序 w ,...w 的前提下,词w 与类别c 的共现概率。
c i 1 i−1 1 i−1 i
如果词序w ,...w 较长,计算概率P (w | w ,...w ) 将会非常复杂。但给定 N-Gram 模型后,
1 i−1 c i 1 i−1
由于只有近邻词条之间存在相关性,因此概率P (w | w ,...w ) 的计算可以近似为:
c i 1 i−1
P (w | w ,..., w ) P (w | w ...w ) (2 )
c i 1 i−1 c i i−n+1 i−1
本课题得
您可能关注的文档
- 科学观转向与科学教育的和谐向度.pdf
- 第2章 随机变量及其分布(复习).ppt
- 第一章教育科学研究概述.doc
- 第七章 机械量检测仪表.pdf
- 第二章 研究过程:如何进行心理与教育研究.pdf
- 第八讲 教育实验研究2.pdf
- 纸凳子结构设计理论方案.doc
- 绿色与有机农产品直营的10大销售策略.doc
- 美国_国家科学教育标准_中的探究_徐学福.pdf
- 美国加州伯克利大学非学术类事务决策的制度化探析.pdf
- 白天晚上教学课件.ppt
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题带答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解一套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及完整答案详解1套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解1套.docx
- 2025年山东菏泽市事业单位招聘急需紧缺岗位目录(第一批)笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及答案详解1套.docx
- 画西瓜教学课件.ppt
最近下载
- JB-T7752-2005_滚动轴承密封深沟球轴承技术条件.pdf VIP
- 装配式混凝土结构部品部件吊装监理实施细则(标准化格式文本).doc VIP
- 萧山区地图杭州市萧山区乡镇街道地图高清矢量可填充编辑地图PPT模板.pptx
- 全国初中物理竞赛试题专项(力)精编(2024版)(附答案).pdf VIP
- 人教版七年级数学上册试题 第6章 几何图形初步 章节检测卷 (含详解).docx VIP
- 装配式混凝土结构施工监理实施细则(标准化格式).doc VIP
- 绿色智能船舶制造基地项目可行性研究报告.pptx VIP
- 船舶制造基地可行性研究报告.doc VIP
- 第八节 伏安法测电动势内阻-2024-2025学年高二上学期物理专项训练.pdf VIP
- 节能分部工程监理研究细则.doc VIP
文档评论(0)