- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文地名数据清洗中的重复字段匹配-应用科学学报
第 31 卷 第 2 期 应 用 科 学 学 报 Vol. 31 No. 2 2013年3月 JOURNAL OF APPLIED SCIENCES — Electronics and Information Engineering Mar. 2013 DOI: 10.3969/j.issn.0255-8297.2013.02.017 中文地名数据清洗中的重复字段匹配 1 1,2 1 叶 鸥 , 张 璟 , 李军怀 1. 西安理工大学 计算机科学与工程学院,西安 710048 2. 西安交通大学 机械制造系统工程 国家重点实验室,西安 710048 摘摘摘 要要要::: 为了提高中文地名字段匹配的准确度,提 出中文地名的相似重复检测与清洗策略和矩阵相似重复匹配方 法. 该清洗策略采用矩阵相似重复匹配方法,通过矩阵运算计算 中文地名数据之 间相 同字符或者词语 出现 的频率, 利用频率计算两者之 间的语义相似度和结构相似度,然后将语义和结构相似性有机结合,作为相似性判断和重复 数据清洗 的依据. 实验验证 了该方法的可行性和有效性. 结果表 明,该方法对于中文地名字段匹配在查准率和召回 率方面优于 已有的其他算法. 关键词:数据清洗 ;字段匹配;矩阵相似重复匹配;中文地名;语义相似度 ;结构相似度 中图分类号:TP311 文章编号:0255-8297(2013)02-0212-09 Duplicate Field Matching for Data Cleaning of Chinese Placenames YE Ou1 , ZHANG Jing1,2 , LI Jun-huai1 1. School of Computer Science and Engineering, Xi’an University of Technology, Xi’an 710048, China 2. State Key Laboratory for Manufacturing Systems Engineer, Xi’an Jiaotong University, Xi’an 710048, China Abstract: To improve accuracy of field matching of Chinese placenames, an approximate duplicate detection and cleaning strategy and a matrix approximate duplicate matching method are proposed. In the strategy, a matrix approximate duplicate matching method is used. Frequencies of the same Chinese characters or words between two Chinese placenames can first be calculated with a matrix operation. Semantic similarity and structure similarity can be calculated using the frequencies. By combining semantic and structure similarities, they are considered as the basis of duplicate detection and data cleaning. Simulation experiments are conducted to prov
您可能关注的文档
最近下载
- 形势与政策(2024春)超星尔雅学习通章节测试答案.docx VIP
- 必威体育精装版2023版知识产权贯标GBT29490 02知识产权法律法规及合规性评价控制程序(含表单)[知识产权合规管理体系文件].docx VIP
- 2025年山西政采专家培训后考试题库及答案必威体育精装版.docx VIP
- 《工程勘察设计收费标准》(2002年修订本)-完整版-1.pdf VIP
- 2025湖北襄阳粮油集团有限公司招聘通过人员笔试历年参考题库附带答案详解.pdf
- 免费颁奖典礼晚会PPT模板 (8).pptx VIP
- 人教部编版八年级语文上册《采桑子》示范公开课教学课件.pptx VIP
- 2025年贵州省贵阳市【辅警协警】笔试预测试题(附答案).docx VIP
- 2025年浙教版七年级数学上册第二单元测(含答案)试卷 .pdf VIP
- ACP云计算复习测试卷含答案.doc
文档评论(0)