Panel:关于中文Web信息检索评测.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Panel:关于中文Web信息检索评测.doc

Panel:关于中文Web信息检索评测 2004.11.4,苏祺 记录 参加人员:35人(确切记录的有下面26人),来自21个单位 张刚(中科院计算所);赵立江(徐州师大);郑泽之(北京语言大学); 郑家恒(山西大学);王睿(上海交大);于满泉(中科院计算所); 林鸿飞(大连理工大学);卢娇丽(山西大学);张奇(复旦大学); 樊景超(中国农业科学院);石志伟(南开大学);黄列明(中科院自动化所); 陈荔聪(福建师大);刘奕群(清华大学);张敏(清华大学); 薛春香(南京农大);马少平(清华大学);吴友政(中科院自动化所); 杨忠伟(哈工大深圳研);王洪俊(TRS);章成智(南京大学); 王明文(江西师大);顾平(苏州大学);苏祺(北京大学计算语言学研究所) 主持人:吕学强 (北京大学计算语言学研究所) 主讲人:闫宏飞 (北京大学网络实验室) 题目:中文Web测试集——CWT100g 讲稿:请参看相应ppt,其中包含备注。 讲45分钟,然后开始讨论。 讨论纪录: 马少平q:1)“比赛”应称为“评测”。 2)保证CWT100g分布的均衡性/代表性? 闫a:1)接受“比赛”改为“评测”的建议。 2)写了文章投到JCST,大致思路是利用天网搜集到的网站域名以及其包含的网页数,统计分析出中国Web分布特征,采用启发式算法过滤噪音网站,然后均衡采样获得。 樊景超q:1)是否每年都举行? 2)有无硬件平台和时间的限制? 闫a:1)准备每年举行。 2)没有硬件平台和检索系统时间的限制,只要规定期限前提交结果即可。 张敏:1)支持马老师的观点。参与者不会作弊,TREC也是如此。 2)数据集的质量很重要,收集数据的说明需详细。希望提供统计数据。 3)是否对站点有限制? 4)重点考察IR的什么方面? 如TREC的各任务代表了IR的发展方向。 5)希望改进时间上的安排,TREC是6-10月,但973,863等也在11月,精力上顾不过来。 6)对judgment的安排有担心,10天太短,质量需要好好把握,judgment很重要,应该慎重评价,一个topic/query至少应两个人做。 闫a:1)回去后尽快修正所有“比赛”字眼的文字。 2)确实数据集的质量很重要,在参加队是用过程中,会逐渐的发现问题。CWT100g数据有重复url: 81567个 (原因:为了反映互联网镜像现象,在CWT100g的搜集过程中, 关闭了根据网页内容消重的功能,由于误操作,同时关闭了url重复的检查,幸好数量不大. 这些重复数据是多余的,请各使用单位在预处理中消除即可)。 3)限制了过大的站点,每个站点的搜集日志如果达到2GB,该站点的搜集工作停止。 4)Web检索主要查找3方面内容:information, navigation, transaction。其中各有哪些信誉好的足球投注网站引擎的information基本满足用户需求,所以重点考察后两方面。在TREC中就是考察Topic Distillation 和Home Page/ Named Page查找。今天我们同样考察TD, HP/NP这两项。明年具体任务可能会有所不同。 5)确实存在各种评测时间冲突的问题,回去后要考虑时间安排的问题。 6)Judgment确实重要,10天时间也仓促了些。这次我们安排了组内大约16个成员来做。在开始之前,专门讲解Modern Information Retrieval书的第3章评测,让大家了解TREC及评测方面的工作。此次中文Web检索评测中TD有70个问题,judgment需要人工从pool中选出,通过计算机程序辅助来尽量降低人工工作量。每个query采用pool后,有500个待选结果,平均每个人作4个query,需要看2000个网页。因为没有足够的人来保证每个query至少2人看pool,所以采用事后检查的方法,我们指定3个经验丰富的评测员抽查大家的结果。对于285个HP/NP query,因为在构造query的时候,就顺便记录下了答案,所以可以节省人工找judgment,只需要程序辅助找出与记录URL对应网页内容一样的URL即可。 于满泉q: 如何获得CWT100g数据集(天网数据)? 闫a:访问/ ,其中左下角有申请使用数据,其中有天网共享数据的介绍。 CWT100g数据免费提供。自己带硬盘,收400元人工处理费。或者我们提供盘(尽量购买质保3年的160GB的盘),收费2000元(包括介质费和人工处理费)。或者网络下载,收400元人工费。 张刚q:Google效果好(采用链接分析技术),但用于TREC难取得好的成绩。是数据集的问题。希望天网探讨数据集的构建。 闫a:数据集的构建要满足一定的应用需求,比如采样的网站内包含的网页数大于10个,来保证链接分析技术的实施效果。针对数据集,各家研究机构共

文档评论(0)

seym + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档