- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文献关键词链接标引方法研究-北京玛格泰克科技发展有限公司
总第262 期 2015 年 第9 期 文献关键词链接标引方法研究* 许德山 1 李 辉 2 张运良 1 1( 中国科学技术信息研究所 北京 100038) 2(北京市科学技术情报研究所 北京 100048) 摘要: 【目的 】以本体管理与服务平台为基础, 利用三元组获取和自然语言处理技术实现中文科技文献的自动标 引。【方法 】通过Web Services 接口将本体知识库和词汇资源集成到标注模块中, 利用词典匹配和分词组合方法 分别获取文献中的领域词和未登录词, 并与本体知识库中的三元组建立链接, 形成领域概念关系网络。【结果 】 通过语料测试, 系统能以86篇/秒的较快速度进行文献标引和词汇链接, 并达到65%的全面率和69%的准确率。 【局限 】词典加载后未做索引, 匹配计算耗时过多, 空格、断行等噪声数据对文本的分词处理和词性判断产生影 响。【结论 】数据清洗流程和关键词筛选算法改善后, 可以进一步提高标引效率, 为深度挖掘文本提供支撑。 关键词: Web 服务 文本标注 关键词标引 三元组链接 分类号: TP391.1 1 引 言 发展为文献关键词标注研究带来新的思路, 陆续开发 了自动、半自动的语义标注工具, 如 Ontotext 研究室 关键词是表达文献主题意义的最小单位, 是实现 开发的 Semantic Platform[4] 系统、IBM 公司开发的 文献检索和主题定位的基础。关键词的标引工作已成 SemTag[5]系统以及AKT 项目成果Armadillo[6]系统, 采 为文献加工流程中的重要环节, 自动摘要、自动分类 用本体和机器学习完成领域文本的自动标注。此外, 以及知识发现等应用, 都必须在关键词提取的基础上 英国谢菲尔德大学开发的 GATE[7], 德国卡尔斯鲁厄 进行。文献关键词标引通常采用人工方式从主题词表 大学开发的Text2Onto[8]等工具集合了词汇发现、关系 中选择词汇进行标引, 这种方式能够较为精确地反映 挖掘、本体构建以及语义标注等功能, 为英文关键词 文献的主题内容。国外的一些机构、组织和高校开展 提取和标引提供了技术手段, 在英文文本的深度挖掘 了广泛的研究工作, 并开发了一些实用的标注工具, 如英国开放大学研制的Magpie[1]、德国卡尔斯鲁厄大 和内容分析领域得到广泛应用。 学开发的 CREAM[2]以及由W3C 研究开发 Annotea[3] 由于中文和英文在句子结构和词汇使用上的差异 等系统为人工标引提供了方便, 但其自动化程度不高, 性, 这些标注工具无法直接用于中文关键词的标注。 只能辅助标引人员完成一些标签的选择。人工标引系 为此, 国内科研人员在分析英文系统的基础上开展了 统受标引人员自身领域知识结构的影响较大, 面对领 中文关键词标注研究。马颖华等[9]提出以“汉字”为基 域广泛的海量网络文本, 人工标引系统无法满足应用 本处理单位, 利用不同汉字的共现频率筛选文本主题 需求。随着学科的细化和研究的深入, 新产生的科技 词。耿焕同等[10] 以词频统计为基础, 利用词共现形成 文献越来越多, 依靠传统的标注方法仅能以篇章为单 的主题信息以及不同主题间的连接特征对词汇进行标 位进行文献检索, 使得用户从文献中获取所需的信息 注, 提取一些频率适中但对主题贡献较大的词表达作 越来越困难。近年来,
有哪些信誉好的足球投注网站
文档评论(0)