- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量RDF 数据的管理 邹磊, 陈跃国 1. 语义网和RDF 数据 语义网是万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee)在1998 年提出的概念,它提供了一种在不 同的应用和个体之间共享和重用数据的整体框架[1],其核心是构建以数据为中心的网络,即Web of Data 。我们将目前的万维网称之为Web of Pages 。众所周知,万维网是利用超链接技术将不同的文档 链接起来,从而方便用户的浏览和文档的共享。例如HTML 文档的语法在于告诉浏览器按照何种格 式来显示该文档,而并不是告诉计算机文档中的数据分别表示什么语义信息。语义网的核心是让计 算机能够理解文档中的数据, 以及数据和数据之间的语义关联关系,从而使得机器可以更加智能化地 处理这些信息。因此我们可以把语义网想象成是一个全球性的数据库系统,也就是我们通常所提到 的 Web of Data 。由于语义网技术涉及面较广,本文仅涉及语义网框架中的一项核心概念 RDF (Resource Description Framework ,资源描述框架)。 RDF 是一种数据模型,是由W3C 组织的 Resource Description Framework 工作组为了构建一个 综合性的框架来整合不同领域的元数据,实现Web 上互相交换元数据,促进网络资源的自动化处理 而提出的。随着因特网的发展和信息的丰富,对元数据的研究逐步深入,出现了多种元数据标准, 如DC[3](Dublin Core)、PICS[5](Platform of Internet Content Selection)等等。这些元数据描述、组织 和重新整理了网络信息,使得用户可以更方便地利用网络数据。RDF [6]是W3C 于1999 年提出的一 个解决方案,并于2004 年2 月正式成为W3C 推荐标准。RDF 的目标是为元数据在Web 上的各种应 用提供一个基础架构,使应用程序能够在Web 上互相交换元数据,促进网络资源的自动化处理。RDF 的基本数据模型包括了三个对象类型,资源(Resource)、属性(Property)及陈述(Statements) 。 资源:所有能够使用RDF 表示的对象都称之为资源,包括所有网络上的信息、虚拟概念、现实 事物等等。资源以唯一的URI(统一资源标识——Uniform Resource Identifiers,通常使用的URL 是它 的一个子集)来表示,不同的资源拥有不同的URI 。 属性:属性描述资源的特征或资源间的关系。每一个属性都有其意义,用于定义资源在属性上 的属性值(Property Value)、描述属性所属的资源形态、和其他属性或资源的关系。 陈述:一条陈述包含三个部分,通常称之为RDF 三元组主体,属性,客体 。其中主体一定是 一个被描述的资源,由 URI 来表示。客体表示主体在属性上的取值,它可以是另外一个资源(由 URI 来表示)或者是文本。 总的来说,RDF 是语义网框架中的基础数据模型。要实现从 Web of Pages 到语义网所提出的 Web of Data 的转变,构建海量和分布式的RDF 数据集是一项重要而且是不可或缺的步骤,为此 W3C 组织提出了Linked Open Data (LOD)项目[7]将各个零散的RDF 数据集链接起来从而构成未来语义网 6 的基础。目前的LOD 项目已经从2009 年的89 个数据集增长到20 12 年的325 个数据集,总规模超 过了 250 亿条三元组。RDF 数据的获取和构建目前有人工编辑,和基于信息抽取方法构建和基于 Web2.0 的协同编辑三种方法。传统的人工编辑只限定于单个领域的小规模RDF 数据的构建;基于 目前信息抽取技术,可以实现自动地从大规模非结构化数据中抽取和构建开放领域的RDF 数据。例 如Barton[8]抽取自MIT 图书馆数据,YAGO[9]和DBpeida[10]都是从维基百科上通过信息抽取的方 法来构建RDF 数据集合;另外利用类似于维基百科的协同编辑方法,由一个网络社区的用户共同构 建一个RDF 数据集也是构建高质量RDF 数据的一种可行的方法,典型的项目例如Freebase[11]等。 2. RDF 数据管理研究现状 目前海量RD
文档评论(0)