- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
泰迪杯数据挖掘挑战赛张颖峰.ppt
问题及解读 问题四:按照数据中给出的时间、冷却负载、室外温度和湿度,试给出所有可控变量的最优控制策略,以及相应的系统总耗电量和系统效率。 约束条件:时间、室外温度和湿度、冷却负载 优化变量:设备状态和可控设备参数 * 中央空调高能耗问题分析 通常,中央空调系统设计时必须按天气最热、冷负荷最大时设计,且留有 10%~20%的设计余量。 在早、晚或在过渡季节的部分时间内空调不会在满负荷状态下运行,中央空调系统如果没有自控系统,则不能随着负荷的变化而变化,最多只能人工控制运行台数。 冷水、冷凝水系统在低负荷运行情况下,总是“定流量”运行,系统长期处于低效率状态,造成了能量的浪费。 给出满足制冷要求下的最佳设备控制策略 C 题 通用论坛正文提取 出题企业——广州互动派科技股份有限公司 题目背景 互联网产生的海量数据中蕴含着大量的信息,已成为政府和企业的一个重要数据来源。 互联网数据能帮助并指导我们进行商业决策(第三届泰迪杯A题)、舆论分析、社会调查、政策制定等工作。 互联网数据处理也已成为一个有重大需求的热门行业(八爪鱼、Gooseek、互动派)。 C 题 通用论坛正文提取 题目背景 互联网数据的获取相对容易,难在提取出感兴趣的内容 爬虫+正则表达式 大部分网页数据是以半结构化的数据格式呈现的,我们需要的信息在页面上往往淹没在大量的广告、图标、链接等“噪音”元素中。 如何从网页中有效提取所需要的信息,一直是互联网数据处理行业关注的重点问题之一。 目前大多采取人工的方式,提取成本高 C 题 背 景 网页通常采用超级文本标记语言(英文缩写:HTML)来编写,页面上的不同元素如作者、主题、发布日期等出现在一对特定的标记符之间。 例如当我们看到如下一个论坛网页: C 题 背 景 C 题 背 景 人工分析这个网页的源代码,找到特定内容对应的标签,然后通过关键字匹配(例如标签匹配)的方法就可以从网页源代码中获取到我们所关心的数据: 问题:不同网站甚至网页所使用的网页格式、网页结构和标签体系都可能是不一样的。 人工处理的方法对海量网页的处理是不可行的! C 题 问 题 对于任意 BBS 类型的网页,获取其 HTML 文本内容,设计一个智能提取该页面的主贴、所有回帖的算法。 提取主贴和回帖的区域,提取出相应数据字段(只需要提取文本, 图片、视频、音乐等媒体可以直接忽略),并按规定的数据格式(Json 格式)存储。 C 题 问 题 重要说明: 1. Json 数据字段说明: post :主题帖 author: 用户名 title:标题 content:帖子内容 publish_date:帖子的发布日期,格式: yyyy-MM-dd replys: 该页的回帖列表。每条回帖的主要字段同 post, 若回帖无 title 字段,可为空 C 题 问 题 2. 算法要求: 算法必须具有通用性,必须支持互联网的任意类型 BBS 网站,不得只针对附件所 给的样例网站、或特定类型的开源论坛(例如 discuz、phpwind) 规则: 不依赖于特定网站、或网页模板 简化场景,只考虑对静态HTML的渲染后的结果进行提取(降低对Ajax、js动态生成页面的处理难度) C 题 问 题 可能的方法: Graph searching 文件对象模型(DocumentObjectModel,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。 C 题 问 题 可能的方法: Deep learning 文本分析 联系方式 竞赛官网 “泰迪杯”组委会秘书长: 张颖峰 电话 邮箱:zhangyingfeng@ * * * * 主要内容 泰迪杯数据挖掘挑战赛 历史、赛制、发展、资源、合作 数据挖掘与数学建模 关系、示例 从一道竞赛题目的解答情况看当前数据挖掘教学的问题 2017年竞赛题目及背景解读 * A 题 基于市场资金流向分析的商品期货量化交易策略 出题单位——深圳数字动能信息技术有限公司 量化投资 借助现代统计学、数学的方法,从海量历史数据中寻找能够带来超额收益的多种“大概率”策略,并纪律严明地按照这些交易策略所构建的数量化模型来指导投资(减少投资者情绪波动的影响),力求取得稳定的、可持续的、高于平均的超额回报。 一个优秀的策略可以维持一个可观且稳定的收益,且承受相对较小的风险,收益曲线平滑向上 A 题 背 景 基于市场资金流向分析的商品期货量化交易策略 量化投资在海外已有30多年的历史,投资业绩稳定,市场规模和份额不断扩大,得到了越来越多投资者的认可 被誉为“最赚钱的基金经理”的西蒙斯,从1989年到2006年间,其量化投资年化收益率高达38.5%。 他依靠的是用数学模
文档评论(0)