- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本中时序信息的抽取与描述 摘要 在互联网信息爆炸的时代,新闻资讯越来越便捷,更新的速度也越来越快。当重大事件发生时,大量的相关新闻报道以及追踪报道便会涌现。对用户而言,如何能找到感兴趣的事件并能迅速了解整件事所包含的信息,成为亟待解决的一个难题。事件一般是随着时间而变化的,其中包含了数个事件发展脉络,挖掘出事件的发展脉络有助于用户快速了解整件事的来龙去脉。在自然语言中,时间信息是一种重要的信息,它是一个事件的重要组成部分,研究表明,它在文本信息中所占的比重仅次子专有名词。在日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大的意义。本文首先对文本中时序信息的检索与描述的相关概念进行了学习和概括,主要对命名实体技术进行了分析,提出了基于规则的时间短语提取算法。在这基础上,以突发性网络新闻这个时间信息比较集中的背景,提出了基于时间戳的突发性网络新闻时序信息算法。实验证明了算法的有效性和优越性。 关键词:时序信息;信息检索;命名实体技术;突发性网络新闻 1 绪论 1.1研究背景及意义 尽管互联网行业相对于其他传统产业是一个1969年才诞生的新生事物,但是经过了40余年的高速发展,互联网俨然已经发展成为了一个庞然大物。人们的生活再也离不开互联网,从原来简单的信息获取、信息共享,发展到今天的娱乐、交友、购物、旅游、团购无所不能。互联网已经渗透到了我们生活的每一个方面、每一个细节,甚至在很多方面彻底改变了人们的生活方式。没有互联网的日子是不可想象的。伴随着互联网的快速发展,其存储的信息数据也在爆炸式地增长。今时今日互联网规模已经远远超出了海量数据的概念。在为其发展感到欣喜之余,同时也引发了另一个方面的思考:用户在互联网中寻找自己需要的信息,代价变得越来越大。没有有哪些信誉好的足球投注网站引擎的帮助,想要找到自己需要的信息似乎已经变成了不可能的任务,用户很容易在面对海量的信息数据时迷失自己。 中国互联网络信息中心(CNNIC)近期发布了《第35次中国互联网络发展状况调查统计报告》。报告显示截至2014年12月底,我国网民总数达到6.69亿,互联网普及率为47.9%。图1.1中国网民规模、增长率展示了从2005年到201 4年中国网民数的发展规模、普及率和半年增长率。虽然从分析来看增长率有所放缓,但由于基数的庞大,2014年仍然增加了5672万新网民[1]。 图1.1 中国网民规模、增长率 互联网时代,用户可以享受到各式各样的网络应用:信息获取、交流沟通、商务交易、网络娱乐等。在各式各样的网络应用中,网络新闻扮演着一个重要的角色。网络新闻在互联网发展的早期就己出现,并且一直是棵常青树。互联网快速传播、更新迅速的特性使得网络与新闻的结合得到了巨大的成功。网络新闻也一直是互联网受众最广的几大网络应用之一,据统计,截至2014年12月,网络新闻用户规模达5.62亿人,使用率74.7%,半年内用户增长926万人。庞大的用户基数,稳定的增长率,使得网络新闻成为了兵家必争之地。原本就是以门户网站起家的新浪、网易、搜狐,以及后来居上的腾讯、百度,这些互联网巨头都拥有自己的网络新闻业务。在信息爆炸的时代,网络新闻数量也跟着爆炸。传统媒体通过报刊、杂志等介质来进行新闻传播。从新闻稿的完成到界面的排版再到印刷、分发,人们从报纸上看到的新闻大都是昨天或前天发生的旧闻了。而且受限于版面大小的因素,往往只能选取有限的新闻进行发布。新闻的时效性、数量都受到了严重影响。而互联网的特性保证了网络新闻从新闻稿的完成到发布只需要几分钟甚至是几秒钟的时间。并且由于不受空间的限制,网络新闻的更替也非常迅速。新闻门户隔几个小时就能更换一批全新的新闻。 如此便导致了网络新闻数量的庞大以及更替速度的迅捷。而用户在浏览新闻的时候只喜欢浏览自己感兴趣的新闻,庞大的新闻量以及快速的新闻更替使得用户往往浏览不到自己感兴趣的新闻事件。某些新闻事件具有重大性、突发性、连续性等特征,如“沙特轰炸也门”、“一架空客A320在法国南部阿尔卑斯坠机”等。这些新闻事件由于受到社会各界的关注,往往会有大批的相关报道,以及随着事件发展的追踪报道。 图1-2 新浪新闻“空客A320撞毁”系列事件报道 这类事件的特性是事件比较重大、用户关注度高、事件发展有持续性、不可预知性。随着时间不断发展,单一的新闻方式难以充分挖掘利用新闻资源以实现新闻价值的最大化,于是便需要新闻事件连续报道。时间是信息空间的一个维度概念,时间是信息
文档评论(0)