新词发现基本原理686KB-NLPIR自然语言处理与信息检索共享.PPTVIP

新词发现基本原理686KB-NLPIR自然语言处理与信息检索共享.PPT

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新词发现的两大技术路线 一般计算语言学方法: 前提:一般只能拿到文本集合,而且往往是没有分词的; 技术路线:从文档集合的内容本身,利用自然语言理解的技术,自动挖掘出隐含的新词语新现象。 不予以详述 商用有哪些信誉好的足球投注网站引擎方法: 前提:用户查询绝大部分都是采用词或者短语的形式表达的,极少采用整句查询; 技术路线:1)查询基本上是天然分词,或者进行简单的规则切割即可得到分词串。2)分析查询,词库中没有的查询都可以视为新词,统计频率,高频的查询一律可以作为新词、热词; 查询日志介绍 查询日志格式(来源:搜狗查询日志) 数据格式为:用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问有哪些信誉好的足球投注网站引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 查询日志示例 1)4904271838167379 [赵大伟] 1 1 /s/l/2006-06- 2)16/01549214356s.shtml8566542059532269 [幻想游戏] 4 1 /soft/28149.htm 3)7232618670717867 [成吉思汗] 203 1 /sightcul/2006071913153822.html 4)6371805989983281 [快钱] 1 1 /45432422366422764 [powerdvd5.0] 62 1 /SoftView/SoftView_480.html 5)41864041934866996 [谢娜档案] 20 1 /b/3697487.html?from=related 新词识别的处理思路 简单规则,即可快速识别出新词:赵大伟、幻想游戏、成吉思汗、快钱 “谢娜档案”的处理: 档案作为已知词 “名词+档案”是个固定搭配 新词“谢娜”即可得到; 查询日志示例2 1) 27218337046173374 [naked+old+women] 207 1 / 2)2475452517995782 [美国+音标] 30 1 /Soft/ShowSoft.asp?SoftID=343344793655105122 [街头篮球加速外挂] 1 2 /Soft/game/jietoulanqiu/200607/Soft 3)20060729204811.html8654126652366769 [06年清华大学录取分数线] 1 1 /edu/gaokao/GKTX/200607/12586.html 4)178822126725 [如何加强地税业务学习,提高素质] 7 1 /show_dsjb.asp?id=4 5)1604045870950494 [av女优] 5 1 /movie521/images/52.html 新词识别的处理思路 用户输入多个查询词往往会加上空格,系统会自动记录为: naked+old+women;美国+音标 整句输入的时候“如何加强地税业务学习,提高素质”可以通过长度等规则信息加以判别是否为整句输入,最后利用分词,以及部分猜词的方法,可以识别出新词。 热词分析 基于商用有哪些信誉好的足球投注网站引擎的热词分析和基于语言学的热词分析的最大差别: 语言学的热词分析:文本内容中反复提及的词汇; 商用有哪些信誉好的足球投注网站引擎的热词分析:用户反复查询有哪些信誉好的足球投注网站的词汇; 前者仅仅是反映客体(文本内容,更多的是作者的意图)客观存在的统计特性;而后者反映的是主体(用户)的信息需求; 后者往往更能真实的反映现实热门的词汇; 电信114网络有哪些信誉好的足球投注网站日志应用示例 电信114网络有哪些信誉好的足球投注网站日志应用示例:海量用户有哪些信誉好的足球投注网站行为发现分析 电信114网络有哪些信誉好的足球投注网站日志应用示例:海量用户中特定销售对象挖掘 有哪些信誉好的足球投注网站日志的优势 天然采用词或者短语的形式; 真实反映用户的意图; 有丰富的元信息:IP,停留时间,点击网页,关注点等; 基于有哪些信誉好的足球投注网站日志技术路线的不足之处 有哪些信誉好的足球投注网站日志具有重大的商业价值,可以用来分析用户的偏好,可以定位广告价值所在,往往属于商业机构内部重要的无形资产,属于商业高度机密,外围往往极难获取,公布的也往往是过时滞后的信息,不适宜于实时的内容分析; 有哪些信誉好的足球投注网站日志往往只反映当前通用有哪些信誉好的足球投注网站的情况,并不能完全真实反映特定领域的语言情况,如广电领域监控的需求,如果片面采用有哪些信誉好的足球投注网站日志,往往会得到大量的噪音数据,也不可能真实反映当前采集到的信息内容的特点; 总结 有哪些信誉好的足球投注网站引擎日志技术路线尤其天然的优势,分析结果具有重大价值; 但限于有哪些信誉好的足球投注网站引擎准入门槛和数据源获取的困难,一般应用里面只能采用内容客体的分析方法。 1 商业有哪些信誉好的足球投注网站引擎新词发现基本原理 张华平 副教授 研究生导师 北京理工大学计算机语言处理研究所 副所长 北京工商大学《Web挖掘》研究生班 2010-5-24

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档