- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
听课笔记大数据概论教程
大数据与社会科学概论
刘涛雄
大纲
大数据概论
大数据的主要技术手段
数据分析技术:机器学习概论
“大数据社会科学”
何为大数据?(Big Data)
特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。
但是,也不是简单地以规模论大,而是相对的复杂程度。
如果以现在计算机的能力:
针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。
针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。
大数据特性:4V
Volume:体量巨大
Velocity:速度极快
Variety:模态多样
Veracity:真伪难辨
无所不在的数据生成源:
全社会(发言、网状结构)、
网络用户(浏览行为、有哪些信誉好的足球投注网站行为)、
管理者(发票、医院记录、交通检测)、
商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、
健康数据(电子医疗设备记录、医疗检测)、
卫星???息系统(物联网)
我们都有哪些数据?
文本信息
中文分词
多媒体
时间序列(高频数据)
空间数据
网页数据
社会网络
大数据与社会科学
第一层次:基于数据的知识发现(Knowledge Discover in Database, KDD)
有理论假设的好处:可以节省信息量,缩小搜寻范围。
当数据获取和处理能力足够强,KDD也能体现其优势。
例子:Hedonometrics and Twitter
How Obama’s Data Crunchers helped him win
活跃领域:
数据挖掘(data mining)
政治学、经济学、社会学、心理学、管理学
如:price index
预测(forcasting)和现测(nowcasting)
如:对google trends的利用
社会计算(Computational Social Sciences)
Computation about(of) the people:如社会情感
Computation for the people:如信任计算、风险计算
Computation by the people:如主体参与、群体智能
大数据的主要技术手段
关键技术
Hadoop:分布式管理平台
来自Google的设计思想:
一个分布式文件系统和并行执行环境(HDFS和MapReduce)
方便用户处理海量数据
云计算
机器学习
计算机针对特定任务(Tasks)和效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)
T:任务
P:效果评价
E:经验集(训练集)
训练和预测
最佳预测:Bias-Variance平衡
一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大
所以对于模型选择,一个很重要的准则是降维。
大数据对社会科学的机遇与挑战
机遇
数据来源极大拓展
获取信息速度大大加快
计算能力极大增强
核心:技术、数据+人
挑战
数据太多 维数灾难?
数据太乱 结构化与非结构化
生成机制难掌握(DGP, Data Generating Process)
谁是总体?谁在创造数据?
总体创造数据的动机和行为机制是什么?
官方统计还有存在必要吗?
结构化数据与非结构化数据
社会科学:因果与相关
社会科学的核心:因果解释
自然科学与社会科学:可控实验与自然实验
困难:反向因果与共因变量
统计学:从相关到因果
大数据:相关易于因果,相关重于因果?
大数据对研究还有意义吗?
大数据同样会促进“因果解释”
社会科学的研究范式:假设检验(演绎法)
大数据:寻找相关(归纳法)
信息增加与避免错误因果
政策:预测与因果
我们是不是过于重视“因果”?
关键:数据生成机制是否稳定?
两类政策问题:“降雨术问题”与“雨伞”问题
降雨术:因果(干预问题)
雨伞:预测(对策问题)
但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。
互联网金融简介对中国的贡献
征信
财富管理
P2P
大数据要和先进的方法一起使用
一、传统金融业务
传统方式(支付、个人理财)放在互联网上支付
二、互联网和金融的化学反应、
支付体系
互联网征信
P2P贷款
众筹
网络虚拟
支付功能
0.5%费率
资源分配
投融资渠道不畅,超过30%中国人储蓄率在20%以上
征信的分类
资产(个人企业)
是否诚信(个人)
中国征信市场的现状
人民银行的征信系统有8亿数据(活跃的有3亿)
25%的人有征信数据
美国有70%的人
电商有个人消费数据(大概有3亿)
征信与消费的结合
租车
4W+1H
5P
5C+1S
支付数据——财务关系
消费数据——消费习惯
金融数据——信用记录
社交数据——个人特征
行为数
您可能关注的文档
- 140103-从会计分录理解账务处理程序(抢先版)要点.doc
- 14.通识实务7要点.ppt
- 各种数控系统代码的用法你用过的所有系统都在教程.doc
- 各种结构的词语教程.doc
- 各种蔬菜水果汁制作方法及营养大全教程.doc
- 各种缺陷的分析及产生原因教程.doc
- 各级人员岗位职责教程.doc
- 各类通讯及音视频接口知识教程.docx
- 合同法不定项选择题教程.doc
- 合同管理复习知识总结教程.doc
- 2024特岗教师考试综合练习【必威体育精装版】附答案详解.docx
- 2024特岗教师考试综合练习及参考答案详解【必威体育精装版】.docx
- 2024特岗教师考试综合练习加答案详解.docx
- 2024特岗教师考试彩蛋押题(基础题)附答案详解.docx
- 2024特岗教师考试彩蛋押题附答案详解(轻巧夺冠).docx
- 2024特岗教师考试综合练习【实用】附答案详解.docx
- 2024特岗教师考试彩蛋押题(必刷)附答案详解.docx
- 2024特岗教师考试彩蛋押题附答案详解【精练】.docx
- 2024特岗教师考试彩蛋押题(预热题)附答案详解.docx
- 2024特岗教师考试彩蛋押题附完整答案详解(全国通用).docx
最近下载
- 基于大模型的生成式检索.pdf VIP
- 西门子伺服操作说明书-SINAMICS_V90_OPI.pdf VIP
- 电力工程施工安全与质量控制管理.docx VIP
- Packing List-装箱单表格模板.xls VIP
- 电力工程施工安全及质量控制管理.doc VIP
- 2025年必威体育精装版版硫化氢考试题库大全集.doc VIP
- [江西]发电厂2×600mw级机组“上大压小”土建工程施工组织设计.doc VIP
- 《护患沟通技巧》ppt课件.pptx VIP
- 县乡教师选调进城考试《教育心理学》题库及答案(各地真题).docx VIP
- 发电厂“上大压小”2×600MW超临界空冷机组工程土建专业主要施工方案.docx VIP
文档评论(0)