- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络内容演化趋势影响因素分析木
洪娜2侯丽3吴思竹4钱庆5李亚子6
中国医学科学院医学信息研究所 北京 100020
【摘要】本文在细致调研相关研究的基础上,首先对文本流中词的生命周期和背景词簇环
境进行分析,提炼出词演化过程中的现象以及网络内容演化趋势的影响因素,然后提出网络
内容演化趋势预测的思路与方法,进一步设计了综合指标体系,为后续的实验研究打下基础。
【关键词】文本流,演化趋势,词频,词簇,支持向量机
1引言
在网络内容大规模涌现的当今,网络已经成为主要的媒体形式,内容传播的载体很大程
度上被网络取代,以网络为传播载体的文本内容丰富且多样,包括新闻,论坛,电子出版物
等,其传播内容具有动态性、及时性和新颖性的特点,内容更新加快,传播周期变短,动态
变化的过程更加明显,但是从较短时间周期上来看,这些以网络为载体的内容仍然存在着积
累性和变革性,存在一个主题内容的初生、生长、成熟、分化、消退等阶段。通过捕捉网络
内容中的演化趋势可以帮助发现重要事件发生的前兆,有助于及时跟踪和预警重要事件。因
此,面对更新快速的大规模网络文本内容,探索有效的方法模型监测文本流,捕捉特定目标
网络内容中的突发词和热点词并预测潜在的内容发展趋势,有助于跟踪目标企业的动态进
展、及时发现新兴趋势和热点内容、预警重要事件,对企业提高处理突发事件的能力和预警
能力均有重要的研究意义和现实意义.
2相关研究
2.1当前的主要研究方法
2.1.1词频和文档频统计分析
词是文本内容中承载概念的最小单位,文档是文本内容传播的最小载体单位,分析词和
文档所引发的相关变化,可以把握文本流发展的动态。针对词和文档两种分析对象,传统的
分析方法主要关注词的频次,文档的频次。因此,常用的频次统计分析主要包括词频统计及
’本文系中田医学科学院医学信息研究所基本科研业务费课题(项目编号tIIR0114)的研究成果之一.
2洪娜。女.博士,助理研究员.中国医学科学院医学信息研究所,研究方向z文本挖掘.
3侯丽。女,博士,助理研究员。中国医学科学院医学信息研究所。研究方向。数字资源建设.
4吴思竹.女.博士,助理研究员,中国医学科学院医学信息研究所.研究方向:文本挖掘.
’钱庆,男。硕士。研究员,中国医学科学院医学信息研究所。研究方向:医学信息管理技术.
6李亚子.男.博士.助理研究员,中国医学科学院医学信息研究所.研究方向t医学信息管理技术.
发展趋势分析,文档频统计及其发展趋势分析,以及相关的改进算法。如由美国哈佛大学语
言学家GeorgeKingsleyZipf发现的齐普夫定律【ll,对建立自然语言统计模型,揭示文本内
在规律,科学评价,热点发现等具有重要的指导意义;IRoberts等【2】采用词频统计法分析了
GRSP的道路安全政策文档。赵蓉英等[31使用词频统计法通过统计《中国图书馆学报》、
Trends}等6种中英文图书馆学核心期刊,分析了2007年中国图书馆学的研究热
(Library
点并作相应的趋势预测;此外,为跟踪词频的发展趋势,一些研究更加关注词频在时间线文
本流中的变化监测,如M.Charikar等【4l提出了一种算法不仅可以发现文本流中词频最高的对
象,还可以发现词频变化最大的对象。总体上看这种研究路线采用的方法相对简单,仅对一
段时间中词的状态进行简单统计,虽然能够反映词的规模和状态,凡是并不能敏感的反映词
的状态变化。
2.1.2突发词监测方法
Comnel大学的Jon
Kleinber915】认为突发是一种现象,表现为文本流中有关某个主题的
文档在短时期内的突然出现。随着主题的出现,一组特征词在频次上突然上升。Jon
Kleinberg
提出了一种应用在词的状态变换监测领域中的经典算法,即突发词监测的自动机模型。该模
型通过利用概率机对不同时间段上词出现的频次进行建模,概率机的状态确定了某时间点上
词出现频次的期望值,而概率机的状态改变由概率模型控制。词突发时,概率机处于高频状
态。该方法适用于文本流中的突发词及其突发时段的识别,研究者可以通过观测时间窗内文
档到达率大于平均水平的词来发现突发词。Kleinberg算法的理论实验已经在Email、BBS、
Kleinberg在
您可能关注的文档
最近下载
- 历史:第4课 经济大危机 课件(人教版九下) (13).ppt VIP
- 上海工程技术大学2020-2021学年度第1学期《概率论与数理统计》期末考试试卷(A卷)及参考答案.docx
- 大理石项目可行性研究报告(参考).docx
- 斜拉桥特大桥监理细则.pptx
- 短视频制作项目教程 课件全套 徐鉴 项目1--7 全面认识短视频 ---原创短视频制作.pptx
- 盆底重建术后护理查房.pptx VIP
- 1.医院社区卫生服务中心全员安全生产责任制(范本).pdf VIP
- 血液灌流采用甲磺酸萘莫司他的抗凝使用.docx VIP
- 原料物性表原料物性表.pdf VIP
- 1.社区卫生服务中心全员安全生产责任清单(完整版).pdf
文档评论(0)