- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
科學数据与科学文献相关关系研究以生物信息学为例
科学数据与科学文献相关关系研究
——以生物信息学为例
韩涛
(中国科学院 北京 100080;中国科学院研究生院 北京 100049)realize the integrated, synchronized and coherent information services and knowledge discovery cross the heterogeneous database. Regarding Bioinformatics as example, two kinds of relationship between scientific data and literature are studied: exterior relationship and interior relationship. The former is focused on the cross-reference relation based on the exterior similarity. The latter achieves the realization of cluster and relevancy at the level of content and up to knowledge.
Keywords: scientific data, scientific literature, relationship, cross-reference, knowledge relevancy
1 引言
科学文献已经不是科学研究的唯一产出,许多学科在科研过程中会产出海量的科学数据。如何将科学数据与文献很好的结合在一起,如何使其共同服务于科学研究活动,是一个迫切需要解决的问题。本文将以生物信息学为例,分析该学科中科学数据与科学文献的相关关系,从而为科学数据与文献的进一步融合与综合应用提供基础和依据。
生物信息学产生基因序列、蛋白质结构等科学数据,各种数据呈指数增长,形成该学科丰富多样的科学数据库。除此之外,文献也是该学科的一个重要产出。两种产出并举,是生物信息学的一个重要特征。科学数据库中的信息是由生物学语言来表达,生物学语言的翻译由文献来完成的,相对于科学数据,科学文献包含的信息更易理解和接受。生物学家不仅需要基因本身的信息,还需要有关基因功能分析的文献,这种需求是生物信息学迫切需要综合科学数据与科学文献两种资源进行科学研究的重要推动力。
不仅生物信息学,还有很多其他学科都有类似的特征和需求:科学数据和科学文献是科研活动中不可或缺的重要资源;科学数据和科学文献的综合利用是学科发展的新的需求。为实现两者的综合应用,本文选取在这个方面发展比较成熟的生物信息学为例,重点分析科学数据和文献的相关关系,即:
(1)从外部关联的角度研究生物信息学领域科学数据与文献的相关关系,着重研究两者的交叉引用关系;
(2)从内部关联的角度研究生物信息学领域科学数据与文献的相关关系,分两个层次进行。浅层次,文献与科学数据从字面上依某一科学数据相关,即围绕某一科学数据,相关的文献集和科学数据集如何聚类。深层次,文献与科学数据从语义上依某一主题相关,即围绕某一主题,相关的科学数据集和文献集如何进行知识发现、知识关联。深层次的研究围绕主题展开,会涉及文献的关键词、摘要和科学数据的功能描述。本文研究的层次如图1所示。
图1 本文研究的内容和层次
2 外部关联
2.1 外部相似性
文献数据库用篇名、著者、机构、关键词、期刊名等描述文献记录。生物信息学采用类似的方法来描述各种数据,从而使得这些数据具备了与文献相类似的情报特征。表1列出科学数据(GenBank)和文献(PubMed)的部分描述信息的比对情况。
表1 数据与文献描述信息比对表
数据(Genbank) 文献(PubMed) 描述信息 信息来源 描述信息 信息来源 序列名称 LOCUS 文献题名 TITLE 序列最近提交时间 LOCUS 文献发表时间 PUBLICATION DATE 序列简要说明 DEFINITION 文献摘要 ABSTRACT 序列编号 ACCESSION PUBMED编号 PMID 与序列相关的关键词 KEYWOEDS 标引词(MeSH) MESH TERMS 相关文献 REFERENCE 参考文献 REFERENCE 序列提交者 AUTHORS 文献作者 AUTHOR 提交者所在单位 JOURNAL 文献作者所在单位 AUTHOR 观察科学数据与文献的描述信息可以发现,两者拥有许多相似性,它们之间可以以此建立关联,如一个作者既可以是序列提交者,也可以是文献作者,用作者名可以在序列库中检索此人所提交的所有序列数据,还可以在文献库中检索他的所有文章,由此这样
文档评论(0)