大数据技术之一“数据标识”.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术之一“数据标识”.doc

大数据技术之一“数据标识”   摘 要:DT时代,最重要的是“大数据”。目前,大数据开发和应用正如火如荼地开展,然而真正实现落地的项目并不多见。大数据现在只呈现的是一个研究热点,迫切需要一种技术实现大数据精准开发应用。该文通过导入大数据概念,解释大数据包含的二元概念,分析“大统计”与“大数据”的区别,引出大数据技术之一“数据标识”方法与应用,用以标识人类行为数据和医学大数据开发应用的方法,文章进一步阐明“数据标识”的科学性和准确性,为大数据开发应用指引道路。大数据是人类行为轨迹生产出来的数据资源,大数据是关于人的研究,由于物理人体的边界清晰,医学大数据应用或将早于人类行为数据应用的成功,未来的人工智能离人们不再遥远。   关键词:大数据 大数据技术 医学大数据 数据标识 精准营销   中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2016)09(a)-0011-02   大数据[1]一定是人类进入DT时代的关键技术,也将是人类实现人工智能的关键技术。自大数据概念[1]提出以来,大数据的重要性和大数据的开发与使用已经得到各国政府、各界人士的高度重视[2-3]。大数据研究也方兴未艾、如火如荼地开展起来。如何开发好和利用好大数据是摆在所有人面前的一个非常急迫和现实的问题,笔者在医科院信息所工作中有一些思考,也发表过一些论文阐述自己的观点,其中《互联网医学的未来:数据医学》指出的是医学大数据应用的未来及方向,《大数据及其应用前景研究》论述的是大数据的二元概念及更适合的应用方向;笔者认为大数据是个二元概念,一个是大量的数据,一个是大数据技术,文中除了特别强调外,写到的大数据都是包含以上二元概念。   1 大数据开发应用需要一项新技术   目前大数据应用还处在启蒙和探索阶段,能够成功落地的项目不多。大数据是一种以数据为资源的高科技,数据在大数据中的地位相当重要,其一,拥有资源数据本身就是不容易做到的事情;其二,拥有资源数据还要有使用数据的想法、数据目标和数据技术。能够拥有以上所述中的一点已经很难了,大数据项目落地则需要拥有以上两点,这可能也是大数据项目目前落地少的原因。需要第一点大数据资源数据的各单位有其各自的解决办法,这里不讨论获得数据的方法,只谈谈第二点中大数据准确应用的一些方法。   大数据是人类发展的第五个阶段,第一个阶段:农耕时代;第二个阶段:工业时代;第三个阶段:电汽时代;第四个阶段:IT时代;第五个阶段:DT时代;第六个阶段:AI时代-人工智能。梳理一下人类发展的进程可以看出,人类的发展是由人力的简单粗放开始,逐渐发展为机器代替体力,精细的电汽文明逐渐代替简单粗放工作,解放了人类的双手,随后计算机的发展代替了人脑部分功能,人类进入了IT时代。简单看以上人类发展进程:人类科技的发展是由简单粗放到精细准确,由机器代替人工的进程。进入DT时代的大数据技术应该是更精确、更高级的技术,数字是最精准的表达方式,数字集合出来的数据也应该是最精准的表达方式,事实上不是这样简单。   由大量数字或是数据进行运算,可以得到精确结果的方法是统计学,应该叫做大统计比较好,不是大数据。   2 大数据精准使用需要“数据标识”   2.1 “数据标识”的原理和方法   人类科技发展是向着更精准、更智能化的方向发展,DT时代的大数据是可以满足人类更精准和更智能化的需求。前面提到目前大数据落地项目少,尤其能够产生价值的项目少,归纳为不能很好地使用大数据是相当重要的原因,大数据是数据在模型中准确应用的科学技术。好的模型制作相当重要,但数据的理解也非常重要。理解好大数据中的数据才能很好地使用数据,才能做好大数据。在《大数据及其应用前景研究》中笔者写到过数据的理解是每个人的知识水平决定的。理解好大数据的数据还要掌握如何使用数据的技术,这种使用数据的技术是需要把数据精准地放入大数据模型上在计算机中运行,输入精准数据才能有精准运算结果,做到数据精准使用必须学会“数据标识”。   “数据标识”是笔者在做医信天下医学大数据医院排行榜的思考和心得,这里同大家分享和探讨。“数据标识”的方法是笔者在中国医学科学院医学信息所做医学数据库工作方法的延伸。查阅资料没有查到有关如何做好“数据标识”的文献。先介绍一下初期医学数据库建设的方法,这样可能有助于更好地理解“数据标识”原理、概念、依据和使用方法。   人类社会发展产生了大量文献,同样医学也产生了大量文献。在没有广泛使用计算机有哪些信誉好的足球投注网站以前,如何让学者快速查到需要的文献,需要对每一篇文章进行文献标引[4],标引方法是人工给每篇文章加上医学主题词,现在每篇论文由作者写好关键词,医学上叫做主题词。论文属性除了作者、题目、作品时间、作者单位不能改变之外,按照主题词查找更加重要,主题词是

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档