- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基础全面-天文学中的数据挖掘
回归分析(known uknowns) ? 定义 ? ? 将一个连续应变量建模为一个或多个预测元的函数。 这个规则是通过具有标签的数据进行监督学习获得的。 ? 应用 ? 恒星物理参数(Teff、g、[Fe/H])的测量, 星系和类星体的测光红移,等等 ? 方法 ? ? ? ? ? ? 神经网络 决策树 kNN 支持矢量机 核回归 ……. ? N 10 , 如何有效地排序、分类? 基本的天文问题 – 1 ? 聚类问题: ? ? ? ? 在数据集中查找聚类的天体 统计意义和科学意义上各个类别的重要性是什么? 找“朋友的朋友”或近邻的最优算法? 10 ? 维数 ~ 1000 – 因此, 若干子空间有哪些信誉好的足球投注网站问题 是否存在两点或更高阶的相关性? ? N 1010, N-point 相关怎么做? ? 与N2logN成正比的算法显然不能用 基本的天文问题 – 2 ? 离群探测: (未知的未知) ? 找到那些超出我们预期的天体或事件 (不属于 已知类别) ? 这些有可能是真正的科学发现或垃圾 ? 因此,离群探测可用于: ? 新奇发现 –Nobel prize? ? 异常探测 – 探测系统是否正常工作? ? 数据质量保证 – 数据流是否正常工作? ? 在1000维空间中或感兴趣的子空间(低维空间) 中,如何最优化地探测到离群? ? 怎样衡量“兴趣度”? ? 降维问题: ? 寻找相关性和参数的基平面 –维数成千上万 ? 维灾 ! –参数之间的相关性?线性或 非线性混合? –本征值或紧致表示是否可以 代表整个数据集的性质? 基本的天文问题 – 3 * 天文学中的数据挖掘 张彦霞 国家天文台 2014.2.24 概要 ? ? ? ? ? 必要性 概念 技术 问题 展望 天文学、天体物理学、天文统计学、天文学信息学 ? ? ? ? 天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天 体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射 ,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性 质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古 老的科学,自有人类文明史以来,天文学就有重要的地位。 天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密 度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用 物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起 源和许多跟宇宙学相关的问题。 天文统计学是用统计学的知识来解决天文问题. 天文信息学是用信息技术来解决天文学所面临的各种大数据问题. Astronomy facing “data avalanche” IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cmNVSS 20cm GB 6cm ROSAT ~keV Necessity Is the Mother of Invention DMKDD 大数据-巨信息量-全波段天文时代 大型巡天导致天文学步入 一个新的时代 ? ? ? ? ? ? 大多数数据大的人们无法看 这就需要存储技术、网络技术、数据库相关技术和标准等 许多知识被数据的复杂性所掩盖而难以获得 大多(不是所有的 )经验关系是建立在3维参数空间基础上的,如椭 圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见 ? 大部分数据人们是无法直接理解的 这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、 人工智能 / 机器帮助的发现 数据挖掘是帮助和加速科学发现过程的利器 ● 大数据 ● 机器学习 ● 可视化 ● 云服务 Credit:Tony Hey 天文数据的特点 ? ? ? ? ? ? ? ? ? ? 空间性 多波段性 海量性 非线性 异构性 缺值性或坏标记 分布性 高维性 时序性 开放性 海量数据 ? ? ? NVO (IVOA) 注册的数据资源有~14,000 一些大型的天文数据库包括NASA空间天文项目 已经完成或正在进行的大型天文巡天项目,如: ? MACHO 和相关的暗物质巡天: ~ 1 TB ? DPOSS: 3 TB ? 2MASS: 10 TB ? GALEX: 30 TB ? SDSS: 40 TB ? ? 将来的巨型巡天项目,如: ? PanSTARRS:每晚 10 TB,,预计最终40 PB ? SKA:2020年中期运行,每天约0.5-10PB LSST (Large Synoptic Survey Telescope):
您可能关注的文档
- 基于陀螺仪和加速度计的飞行机器人自平衡算法研究-曹珂杰-南京工程学院.doc
- 基于热释红外线传感器的教室人数统计系统.pptx
- 基于机器人的算法设计.ppt
- 基坑开挖、维护专项安全方案.doc
- 基因对生物性状的控制(27张PPT).ppt
- 基于雷达的测控技术_现代检测技术.ppt
- 基于西门子PLC控制的制砖机.doc
- 基于粒子群优化LS-WSVM的电机断条故障诊断.ppt
- 基本农田保护系统.doc
- 基于神经网络解耦的供热预测控制研究(答辩最终版).ppt
- 2025年金属波纹补偿器行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年可调谐激光器行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年建材用煤行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年车前子种植行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年果汁饮料电商行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年立柱生产设备行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年硫酸阿托品注射液行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年电化学储能材料行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年高压接地开关行业洞察报告及未来五至十年发展趋势预测报告.docx
- 2025年碱式氯化铝行业洞察报告及未来五至十年发展趋势预测报告.docx
文档评论(0)