基于MongoDB的大规模高频金融交易数据处理..docxVIP

下载本文档

2
0
约9.45千字
约 9页
2017-01-13 发布于重庆
举报
版权申诉

基于MongoDB的大规模高频金融交易数据处理..docx

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MongoDB的大规模高频金融交易数据处理.

巨建华：基于MongoDB的大规模高频金融交易数据处理发表于2011-11-26 12:00|?4760次阅读| 来源CSDN|?0?条评论| 作者CSDNmongodb应用服务器数据分析数据挖掘金融摘要：巨建华认为高频金融交易数据的主要特点是实时性和大规模，目前沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据，随着时间的积累数据规模非常可观，与一般日志数据不同的是这些数据在金融工程领域有较高的分析价值，金融投资研究机构需要经常对历史和实时数据进行挖掘创新，以创造...时至今日，“Big data”（大数据）时代的来临已经毋庸置疑，尤其是在电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。这种趋势已经让很多相信数据之力量的企业做出改变。恰逢此时，为了让更多的人了解和使用分析大数据，CSDN独家承办的大数据技术大会于今日在北京中旅大厦召开。本次大会汇集Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题。包括百度、淘宝、新浪等业界知名专家与参会者齐聚一堂，共同探讨大数据浪潮下的行业应对法则以及大数据时代的抉择。技术总监巨建华巨建华认为高频金融交易数据的主要特点是实时性和大规模，目前沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据，随着时间的积累数据规模非常可观，与一般日志数据不同的是这些数据在金融工程领域有较高的分析价值，金融投资研究机构需要经常对历史和实时数据进行挖掘创新，以创造和改进数量化交易模型，并将之应用在基于计算机模型的实时证券交易过程中，因此一般的数据库系统无法满足如此大规模和实时性，灵活性的要求。同时巨建华表示应用复杂性（包括高可用性、高性能，低延迟实时数据呈现、任意历史盘中实时数据挖掘和支持用户自定义脚本实现数据提取与运算）和数据规模（包括财务，金融+历史汇总交易数据、新闻资讯及研报以及每个交易日数据增量等）是数据存储方案面临的挑战。以下为文字实录非常荣幸今天能有机会站在这里跟大家分享一下，最近三年以来一直在做的一项工作，就是高频金融交易数据分析和处理。在这之前，跟刘工讲做的工作有点相似，我今天分享过程中不会讲我们如何去分析，如何去形成更好的模型来对数据做，拿着一些有用模型。如何高效对数据进行分析和处理存储，然后来解决大规模数据的挖掘问题。这是我今天主要给大家讲的，在开始之前大家会看到目前我从事主要是电子商务方面的工作，主要因为在前三年，主要是在做证券方面交易处理。可能在座如果是有做像这方面同仁，我们可能会认识。在开始之前，因为这个行业比较特殊，在我们之前CSDN有CTO俱乐部，我们在做相应活动的时候，实际上我们遇到的同事非常少。也就是说，这个领域如果我要向大家介绍如何使用MongoDB解决这个领域问题的时候，我需要给大家做一些关于这个行业背景的介绍。首先第一个证券，或者金融这个行业数据类型是非常复杂的，而且这个数据对于结构化，有些数据结构化是非常差的，大多数都是一些PDF，甚至是一些文本文档。但是有一部分数据结构还是非常强的，就是交易数据，也就是我们证券成交数据。大家炒股的时候都在用金融终端看我们股票数据变化等等情况，如果如果有一些高起点客户会用技术指标，来进行数据分析。在做数据分析的时候会接触，我们数据里面有资金持仓项目，有机构评级报告，还有新闻咨询，交易龙虎榜。如果我们平时接触少大家感觉不会很熟悉，所谓基金持仓，我们所有基金公司对市场上的股票持有情况，也就是说，每一个每个咨询公司手上拿着什么样股票进行发布，这样数据连续20多年沉淀下来，数据沉淀非常强。研究报告主要是机构，我们大家都知道很多分析师，每过一段时间就会编制一些研究报告，对每一支股票进行分析，这主要是文本类型的，主要以文本来展现。另外由于用户习惯不同，我们股票在变化过程当中，不同用户都采用不同周期K线数据来看盘，比如分钟，月，周年进行统计，形成所谓日K线数据，就是统计出来在某一个时间段第一个价格，也就是开盘价，最高价格，以及最低，收盘价，包括成交量，成交额等等。这样的数据之所以会形成这样统计的原因，一个是用户习惯，第二这个差异数据量实在太庞大了，如果我们不提前做统计的话，在形成这样大量交易，我们想在盘中持续拿到这样统计数据，系统都会很吃力，特别是在我们之前数据库系统，以及分布式运算方式没有根本性改变的时候，最佳解决方案当时也就是预先把这些数据统计出来，如果说我们突然想之前，我们假设没有提供33分钟的数据，我们想对历史数据进行回归，这是一个非常庞大，这个时间会非常长。也就是说，如果我们计算，甚至说这样认为是不可完成的，在我们没有引入更好计算机制和存储机制之前，也是这个行业一直以来面临的问题。关于盘口和成交明细不多说了，都是非常多数据。之前数据实际应用中会不会通过终端展现出来，我们可以