- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于中图分类法的关键词标引研究 同方知网研究院 罗思明 2010.05.22 Contents 问题提出 同方知网技术有限公司(CNKI),是国内著名的电子学术文献出版商。提供了国内最全的库中文期刊、报纸、博硕士论文等全文数据,为中国的学术研究与科学发展提供了优良的海量学术文献资源。 为满足用户的文献检索需求,我们需要为学术文献标注各种信息。例如:需要对文献进行中图分类,为文献提供关键词、主题词、摘要等信息,便于用户检索。 问题提出 关键词定义:指文章中最能反映文献主题信息的特征词汇、词组或短语。 目前问题: (1)很多文献(报纸)没有关键词,人工标引分类号存在主观性强的问题,且费时费力。 (2)由于很多人对关键词的作用和意义认识不足,即使是作者亲自标引的关键词,也存在着许多问题。 任务:为CNKI学术文献自动标引关键词。 解决思路 传统方法: 以往的关键词标引方法多采用TF/IDF特征以及词语长度、位置等特征,本文设想加入语义信息,提高关键词标引正确率。 中图分类法: 《中国图书馆分类法》是国内学术文献通用的分类体系,中图分类法是一个完整的知识分类体系。中图分类号(分类号)在一定程度上反映了文献的主题语义信息。 解决思路 关键词与分类号的作用: 关键词和分类号在某种程度上作用一致,他们都表现了文献的主题。因此可以建立词语与分类号的联系,计算他们之间的相关程度,借助词语分类号信息帮助标引反映文章主题的关键词。 研究应用基础: CNKI拥有专家标引分类号的海量学术文献,为本文的研究提供了摘要基础。 思路实现 A.候选词信息词典 确定候选词集合 以CNKI海量文献中获取的200万词条为基础,通过CHI特征选择算法选取可表征文献主题的基础词语库180万。并经过后续规则过滤获取175万的候选关键词集合。 训练候选词的分类号并计算相关度 定义候选词与分类号间的相关度,相关度越大,则两者相关程度越强。我们通过海量的已标注分类号的文献训练候选词的分类号并计算相关度。 思路实现 (1)训练候选词的分类号 对每篇文献采用候选词词典分词,若分词结果中有词语W,则将该篇文献的分类号作为词语W的分类号。 遍历f篇文献,设其中有n(n=f)篇文献包含词语W,且n篇文献对应m个不同的分类号Ci{i=1,…,m}。可见,我们通过训练,词语W得到了m个不同分类号。 思路实现 (2)相关度计算 由于文献中不同位置的词语与文章主题的相关程度不同,同一分类号在文献中不同位置的权重可设为:篇名:P1=4;作者关键词:P2=2;中文摘要:P3=1.5;全文:P4=1。通过下列公式计算一个分类号与候选词的相关度 思路实现 记录词语的文献频度DF和词语的训练文献总数D,最后得到下列信息 思路实现 B.文献关键词计算 对待标引文献DOC,采用候选关键词词典进行分词,获取候选关键词集合S,设该集合大小为n(n=0),设集合包含词语Wi,i取值{1,…,n},设词语Wi在文献中的位置为POSj,j的取值为{1,标题;2,作者关键词;3,中文摘要;4,全文第一段;5,全文第一段外位置;};每个词语对应的分类号为Ck,k的取值为{1,…,m}。词语在文章中的频度为TFi。 思路实现 (1)计算候选词的权值 1结合词语的位置特征、词语长度计算词语的TF/IDF权值 其中,propi指词语Wi的TF/IDF权值。L表示词语长度,αj表示词语在位置j下的权值。各位置的权值设置为:α1=60,α2=30,α3=20,α4=2,α5=1。D表示训练文档总数,DFi表示词语的文档频度 思路实现 2TF/IDF*相关度得到词语的m个分类号下权值,这里k属于{1,…,m} 思路实现 (2)文献分类号计算 对分类号的权值进行排序,相同的分类号的权值相加,对分类号权值排序,取前100个分类号的权值的60%作为可信分类号,得到对应集合S1。将权值最大的分类号作为文献分类号。 (3)依据分类号一致性调整词语权值 在S1的词语集合中,依据词语分类号与文献分类号重合度对权值进行加权调整。 a= F416.3,b=F416.471。那么Sameleval(a, b)=4 (4)依据词语的词语相似性合并词语,调整权值,得到S2.最后词语依据权值降序排序,获取排序结果前N个词作为结果 基本结果 对同方知网一个月中的期刊文献进行关键词标引实验,采用参数调整和筛选前的实验结果进行对比,每篇文章取前十个结果进行测试。 同方知网(北京)技术有限公司 CNKI 1. 问题提出 2. 解决思路 3. 思路实现 4. 基本结果 同
您可能关注的文档
- 世界总部印象.ppt
- 世家简介.ppt
- 民用飞机几大辅助系统.ppt
- 旅游市场营销学作业 丹霞山广告语设计.ppt
- 莫伯治—中国现代建筑大师.ppt
- 小学英语课堂的导入方法.ppt
- 议价逼定.ppt
- 文言文中官职的任免升降常用词语.ppt
- 四级核心词汇详解.ppt
- 小学英语4-6年级教材培训 - 厦门市教育局.ppt
- 城市公园改造项目2025年社会稳定风险评估与社区治理创新实践.docx
- 中国康复医疗产业白皮书:2025年康复医疗产业政策环境与市场前景.docx
- 快消品品牌下沉市场渠道策略与品牌影响力研究报告.docx
- 城市地下空间综合开发利用项目经济效益评价与可行性研究报告.docx
- [39837143]2022-2023学年人教版八年级数学下册《第19章一次函数》暑假巩固提升培优训练题+.docx
- 2025年浙江宁波九年级强基计划数学试卷真题(含答案详解).pdf
- 医疗设备采购决策因素分析与供应商评估体系创新报告.docx
- 银发消费市场2025年老年用品行业机遇与挑战分析报告.docx
- 2025年文化创意产业园区产业创新与产业生态构建报告.docx
- 工业大数据平台建设项目在工业大数据产业生态建设中的应用可行性研究报告.docx
最近下载
- 2025年辽宁省锦州市中考作文猜题及范文分析.docx VIP
- 2025年不动产登记代理人考试《不动产登记法律制度政策》试卷真题和答案.docx VIP
- 2021年度机动车检验机构管理评审资料汇编 .pdf VIP
- 肿瘤康复管理项目实施方案.docx VIP
- TB-T2075-2002《电气化铁道接触网零部件》.pdf VIP
- 高甘油三酯血症性急性胰腺炎诊治急诊专家共识2021解读.pptx
- 15J401 钢梯(建筑图集).docx
- 《精神分裂症治疗前后烟酸皮肤反应的变化及其与症状功能的关系》.docx
- 2023年厦门大学嘉庚学院软件工程专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
- 2025年机动车检测站管理评审.doc VIP
文档评论(0)