一种基于模式的实体解析算法.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于模式的实体解析算法

第 卷 第 期 计 算 机 学 报 38 9               Vol.38 No.9 年 月 2015 9 Set.2015 CHINESEJOURNALOFCOMPUTERS p   一种基于模式的实体解析算法 刘辉平 金澈清 周傲英     (华东师范大学软件学院数据科学与工程研究院 上海 200062)     摘 要 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录 当前主 .     要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记 2 录,从而找到描述某一个实体的若干记录集合 然而,该方法的计算复杂度比较高( ( ),其中 表示数据集合的 . 犗 狀 狀 规模),难以处理大型数据集合 另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗 . 口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较 这种方法显著 . 降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中 文中提出了一种 . 基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的 两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个 实体 与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比 . 较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度 基于真实和模拟数据集合的实验结 . 果验证了新方法的执行效率和有效性. 关键词 数据融合;数据清洗;实体解析;编辑距离;字符串相似度   中图法分类号 号 / TP311 犇犗犐 10.11897SP.J.1016.2015.01796     犃犘犪狋狋犲狉狀犅犪狊犲犱犈狀狋犻狋犚犲狊狅犾狌狋犻狅狀犃犾狅狉犻狋犺犿 狔 犵 LIUHuiPin JINCheQin ZHOUAoYin

文档评论(0)

精华文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7111022151000002

1亿VIP精品文档

相关文档