微型内容微格式解决思路.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微型内容微格式解决思路

微型内容微格式解决思路   【摘要】基于微型内容的发展现状,文章分析了微格式的意义和作用,认为微格式体现和拓展了对信息内容分割、结构分块的思考和尝试。详细探讨了微格式的信息分割处理功能,指出微格式在微型内容的识别和提取过程中所处的地位,展望其应用于微型学习的发展前景。   【关键词】微格内容;微格式;信息识别;信息分割;信息提取   【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2011)03―0095―05      网络环境中微型的、片段化的内容,以其更易发布、更易流传、相对更高语义密度等特征,吸引了新一代网民的积极关注。如社会化网站和应用中的“状态栏”服务,专门推送短小内容的Twitter、微博等网络服务等,在短时间内就受到了热烈的追捧。仅微博一项,早在2010年9月,新浪发布《中国微博元年市场白皮书》引用DCCI网络调研数据预计:到2010年底,中国互联网微博累计活跃注册账户数将突破6500万,2011年中将突破1亿,2013年底这一数字有望突破4.6亿[1]。   为了更轻松更快捷地获得微型内容,除了提升终端设备的硬件性能外,微型内容获取和处理过程也越来越引起关注。在向用户推送微型化的内容之前,必须面对几个问题:如何便捷地进行信息分割?如何自动地从宏内容抽取微型内容?如何提高微型内容的语义密度?本文将简单介绍微格式这一概念,以及微格式在面对以上问题时的解决思路。      一 微型内容与宏内容      1998年Nielsen提出微型内容的概念时,将其定义为用来概括宏大内容的短小精要的东西[2]。一篇新闻的标题、网页的标题介绍、E-mail的主题等都可被看作是微型内容。在Web2.0的新媒介环境下,微型内容被认为是“小片段、松散连接、一直处于动态重组中”的信息单元,也称作微内容[3]。只要能够满足实用目标的某个自包含的知识组块即可看做是微内容,首先,这些知识组块可以来自任何一种信息,一则新闻、一段解释、一个小游戏,甚至一组微型测试题。其次,微型内容不限定信息呈现形式,可以是一小段文本、一个图片或图像、一小段音频或视频片段或者就是一个链接。微型内容的生产和传播过程表现出“自媒体”的特征,主要依靠用户自己创建发布。服务提供商是直接面对和处理用户产生的微型内容,而不是从非微型内容(即宏内容Macrocontent)中抽取微型内容。内容的微型化实际上由用户或者专门发布者完成,网络服务只负责微型化后的推送传播。宏内容和微内容之间的转化沟通过程依靠的是人类智能。如图1(a)所示。   微内容的提取最初是为了快速预览,在有哪些信誉好的足球投注网站引擎等信息检索领域得到发展。尽管新浪发布的《中国微薄元年白皮书》宣称以微博为代表的微内容服务呈现欣欣向荣的趋势,但宏内容的信息毕竟在积累上更深厚,从信息“重用(reuse)”的角度来看,“对宏内容进行分解或抽取”也值得为之努力[4]。像有哪些信誉好的足球投注网站引擎的优化趋势一样,微型内容的生成必然会越来越多地依靠机器智能从宏内容中自动生成,如图1(b)所示。      微内容兴盛于宏内容之后,两者的发展存在时间差距和结构差别。微内容向宏内容中整合似乎更易实现,反之则不然。目前宏内容信息向微内容站点嵌入采用引用链接跳转的方式,这种方式技术门槛低,但没经过信息识别和提取,只是全盘引址。要想通过机器读取方式从宏内容中获取微内容,并进一步进行移动终端的推送服务,需要解决一个最核心的问题:如何让机器读懂宏内容中不同类型不同结构的信息。      二 微格式及其解决思路      微格式(Microformats),简单地说是一种元数据,它是用来分割、标注信息内容的数据格式。微格式官网上对其的解释为“秉持着人类优先、机器次之的设计概念、建立在现有的且被广泛采用的标准之上的一系列简单、开放的数据格式。”[5]实际上,微格式是注入到Web页面中的小段信息,通过语义相关让信息块内容人机可读。微格式不是新的标记语言,它是在标准 XHTML代码中嵌入结构化数据[6]的一种新方法,其实质还是XML语言。微格式的技术体系如图2所示。      虽然将微格式看作是跨入语义网(Semantic Web)时代的标志还过于乐观,但其在语义结构化方面带来的极大影响是不可忽视的。微格式在分割信息和网页结构化方面存在巨大潜力,这正是抽取微型内容的立足点。   1 微格式对信息的分割标注   微格式是一种网页信息标记语言,对于浏览网站页面的用户来说是完全“透明的”,它的价值在于构建Web站点时,完成了对小片段信息的分类整理工作。用户并不能从网页上看到编写者在哪里运用了微格式,但当信息在网站的各个功能模块之间流通时,统一的、合理的微格式设计就能够更有针对性更高效地引导信息。   从普遍意义上来

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档