- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究宋艳1,何嘉1,舒红平2,郑皎凌2,梁繁荣2,任玉兰3,文立玉3(1.成都信息工程学院计算机系,四川成都610225;2.成都信息工程学院软件工程系,四川成都610225;3.成都中医药大学,四川成都610075)摘要:词频反文档频率是文档特征权值表示的常用方法,用以评估单词对于语料库中的其中一份文件的重要程度。通过合理映射病例库与语料库的词汇关系,对词频反文档频率模型进行改进,并将改进后的词频反文档频率模型应用到针灸处方疾病症状权重挖掘中,计算出疾病所对应的各种症状权重。实验统计了106种疾病,其中与临床诊疗经验相符合的有84种,准确率达79.2%,实验表明改进的模型能得到较好的疾病症状权重鉴别效果。关 键 词:计算机应用技术;词频;反文档频率;疾病症状;症状权重中图分类号:TP311.13文献标志码:A0引言中医讲求辨证论治1-2,也称辨证施治,是中医学对疾病的一种特殊的研究和处理方法。辨证是决定治疗的前提和依据,不同的证(症状与体征)在辨证过程中所起作用大小是不同的3,半身不遂、瘫痪、口噤不开、恶 风、疼痛、头昏的重要性就不同4,其中半身不遂、瘫痪、口噤不开的重要性就比其余几个症状大。如果见到半身不遂、瘫痪,病人患中风的可能性就很大;而见到头昏、疼痛则不然。因而,考虑各症状5的权重问题在制定中医疾病诊断标准方面也起到极大作用6。1基于文本挖掘TF2IDF词频统计模型1.1TF2IDF简介TF2IDF7-8(Term Frequency2Inverse Document Frequency)是一种用于资讯检索与资讯探勘的常用加权9-10技术。TF2IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。提出采用此文本挖掘算法11来解决疾病症状的权重问题。文本分类12时常用词频(Term Frequency, TF)和反文档频率(InverseDocument Frequency, IDF) 的乘积来表示特征向量的权重, TF指的是某一个给定的词语在该文件中出现的次数,出现次数越多说明该词语越重 要,反映了词语的灵敏度。IDF是一个词语普遍重要性的度量,反映了词语的特异度13。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以 及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF2IDF,它倾向于保留文档中较为特别的词语, 过滤常用词14。TF2IDF数学模型:W=TF3IDF=(i/m) 3log(N/n)其中,i指某个字词在某一文件中出现的次数,m指该文件的总词数,N指语料库的文件总数,n指包含某字词的文件总数。收稿日期:2013206206基金项目:国家重点基础研究(973)计划子课题资助项目(2012CB518500);国家自然科学基金资助项目61203172);四川省教育厅青年基金资助项目(11ZB088);四川省应用基础计划资助项目(2012JY0112);四川省科技支撑计划资助项目(2011SZZ027)1.2病例库与语料库的TF2IDF映射关系病例库记录了疾病及其对应的症状在一段时间内的分布情况,利用TF2IDF文本挖掘算法对病例库进行挖 掘,目的就是找出每一种疾病中各个症状所占的权重分布。不仅考虑症状在某种疾病的所有症状中所占的比重大小,同时还要考虑在病例库的所有疾病中这一症状对这种疾病的辨别能力。因此,将病例库中的疾病、症状与文本语料库中的文件、字词形成正确合理的映射关系则显得尤为重要。映射关系是否合理直接决定了后期的实验效果,图1、图2分别展示了改进前和改进后的病例库语料库映射图。图1基于原始TF2IDF模型的病例语料库映射关系图2基于改进的病例语料库映射关系下面分别从IDF、TF的角度论证了改进后模型的病例语料库映射关系要优于基于原始TF2IDF模型的病例语料库映射关系。(1)从IDF角度考虑图1中,改进前考虑将每个症状映射为一个字词,将每条病例映射为一个文件。假如某个症状只在某个疾病中出现较频繁(n较大) ,说明该症状对该疾病有很高的权重。但在计算IDF时,n越大,IDF越小,说明该症状权重越小,这与实际情况不符。简单举例如下:一共有1000条病例,其中感冒有800条,在800条感冒病例中发热出现790次(也即790条病例包含发热,若某病例中出现某症状,则该病例与该症状是一对一的关系)。根据上文提出的TF2IDF数学模型计算IDF(感冒,发热) =log(1000/790)数值很小,不能很好地反应发热在感冒中应
文档评论(0)