听课笔记大数据概论教程.docxVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
听课笔记大数据概论教程

大数据与社会科学概论 刘涛雄 大纲 大数据概论 大数据的主要技术手段 数据分析技术:机器学习概论 “大数据社会科学” 何为大数据?(Big Data) 特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。 但是,也不是简单地以规模论大,而是相对的复杂程度。 如果以现在计算机的能力: 针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。 针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。 大数据特性:4V Volume:体量巨大 Velocity:速度极快 Variety:模态多样 Veracity:真伪难辨 无所不在的数据生成源: 全社会(发言、网状结构)、 网络用户(浏览行为、有哪些信誉好的足球投注网站行为)、 管理者(发票、医院记录、交通检测)、 商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、 健康数据(电子医疗设备记录、医疗检测)、 卫星???息系统(物联网) 我们都有哪些数据? 文本信息 中文分词 多媒体 时间序列(高频数据) 空间数据 网页数据 社会网络 大数据与社会科学 第一层次:基于数据的知识发现(Knowledge Discover in Database, KDD) 有理论假设的好处:可以节省信息量,缩小搜寻范围。 当数据获取和处理能力足够强,KDD也能体现其优势。 例子:Hedonometrics and Twitter How Obama’s Data Crunchers helped him win 活跃领域: 数据挖掘(data mining) 政治学、经济学、社会学、心理学、管理学 如:price index 预测(forcasting)和现测(nowcasting) 如:对google trends的利用 社会计算(Computational Social Sciences) Computation about(of) the people:如社会情感 Computation for the people:如信任计算、风险计算 Computation by the people:如主体参与、群体智能 大数据的主要技术手段 关键技术 Hadoop:分布式管理平台 来自Google的设计思想: 一个分布式文件系统和并行执行环境(HDFS和MapReduce) 方便用户处理海量数据 云计算 机器学习 计算机针对特定任务(Tasks)和效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P) T:任务 P:效果评价 E:经验集(训练集) 训练和预测 最佳预测:Bias-Variance平衡 一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大 所以对于模型选择,一个很重要的准则是降维。 大数据对社会科学的机遇与挑战 机遇 数据来源极大拓展 获取信息速度大大加快 计算能力极大增强 核心:技术、数据+人 挑战 数据太多 维数灾难? 数据太乱 结构化与非结构化 生成机制难掌握(DGP, Data Generating Process) 谁是总体?谁在创造数据? 总体创造数据的动机和行为机制是什么? 官方统计还有存在必要吗? 结构化数据与非结构化数据 社会科学:因果与相关 社会科学的核心:因果解释 自然科学与社会科学:可控实验与自然实验 困难:反向因果与共因变量 统计学:从相关到因果 大数据:相关易于因果,相关重于因果? 大数据对研究还有意义吗? 大数据同样会促进“因果解释” 社会科学的研究范式:假设检验(演绎法) 大数据:寻找相关(归纳法) 信息增加与避免错误因果 政策:预测与因果 我们是不是过于重视“因果”? 关键:数据生成机制是否稳定? 两类政策问题:“降雨术问题”与“雨伞”问题 降雨术:因果(干预问题) 雨伞:预测(对策问题) 但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。 互联网金融简介对中国的贡献 征信 财富管理 P2P 大数据要和先进的方法一起使用 一、传统金融业务 传统方式(支付、个人理财)放在互联网上支付 二、互联网和金融的化学反应、 支付体系 互联网征信 P2P贷款 众筹 网络虚拟 支付功能 0.5%费率 资源分配 投融资渠道不畅,超过30%中国人储蓄率在20%以上 征信的分类 资产(个人企业) 是否诚信(个人) 中国征信市场的现状 人民银行的征信系统有8亿数据(活跃的有3亿) 25%的人有征信数据 美国有70%的人 电商有个人消费数据(大概有3亿) 征信与消费的结合 租车 4W+1H 5P 5C+1S 支付数据——财务关系 消费数据——消费习惯 金融数据——信用记录 社交数据——个人特征 行为数

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档