读懂海量数据股票行情有啥用？提升你的炒股胜率！

得，今天就来唠唠我捣鼓那个“海量数据股票行情”的事儿。起因挺简单，就是觉得市面上那些看盘软件，要么功能捆绑太多，要么就是想看点历史数据还得加钱，或者慢吞吞的，心里不爽快。我就琢磨着，咱自己能不能搞一套，至少基础的行情数据得抓手里，想怎么看就怎么看。

念头起来，就得动手

一开始想得美，不就是股票代码、价格、成交量这些嘛能有多复杂？找个财经网站，扒拉下来不就得？说干就干。找个看着还算顺眼的网站，打开开发者工具瞅瞅，找数据接口。刚开始还行，弄几个股票的数据下来，存成个小文件，美滋滋。

但问题很快就来。

第一，这网站它不傻，爬得勤快，直接给你禁IP，或者接口一变，我这边就抓瞎。不稳定，这路子不行。
第二，股票那么多，A股几千只，还有港股美股啥的。这数据量稍微一多，我那小脚本就跑不动，电脑风扇呜呜转。存成单个文件也不现实，找起来费劲，分析起来更慢。这哪是“海量”，连“中量”都算不上就卡壳。

换思路，找正规军（或者接近正规军）

读懂海量数据股票行情有啥用？提升你的炒股胜率！

碰壁之后，老实。知道直接扒网站不靠谱，就开始找正经的数据接口。市面上提供股票数据的公司还真不少，有免费的，有收费的。免费的，通常限制多，要么数据延迟，要么请求次数卡得死死的，要么就是数据不全乎。收费的，看看价格，嚯，对我这个人瞎捣鼓来说，有点肉疼。

找个折中的法子，用一个提供基础接口的平台，限制有，但勉强够用，至少比我自己瞎爬稳定点。它能提供实时（有延迟）和一些历史日线数据。

数据来，放哪儿？

数据源搞定，接下来就是存。一开始还是老想法，存文件？不行不行，之前试过。那就上数据库。电脑上装个MySQL，想着关系型数据库总够用。建个表，字段嘛无非就是股票代码、时间、开盘价、收盘价、最高、最低、成交量这些。

写个小程序（我比较熟Python，就用它），定时去调那个接口，拿到数据，然后一条条塞进MySQL里。跑起来！看着数据库里的数据蹭蹭涨，心里那个踏实。

好景不长，新的麻烦又来。

读懂海量数据股票行情有啥用？提升你的炒股胜率！

跑一段时间，几千只股票的日线数据还但要是想搞分钟线甚至tick级别的数据（虽然我那接口给不tick，但当时有这妄想），那数据量简直是指数级增长。MySQL开始有点顶不住，查询一慢，插入也慢。尤其是按时间范围查某个股票的数据，或者做点稍微复杂点的统计，那等待时间，够泡杯茶。

这时候才明白，“海量数据”这四个字真不是闹着玩的。人家专门搞出什么时间序列数据库（比如听过的InfluxDB、TimescaleDB啥的），确实是有道理的，专门治这时间相关的大数据。但我当时嫌麻烦，没去折腾那些新玩意儿，就想着怎么优化现有的。

缝缝补补又一年

咋优化？

批量插入： 不再一条条塞数据，改成攒一批数据，比如攒个几百条，再一次性插到数据库里，效率高点。

读懂海量数据股票行情有啥用？提升你的炒股胜率！

建索引： 给股票代码、时间这两个经常要查的字段加上索引。这玩意儿加上之后，查询速度确实快不少，立竿见影。
定期清理/归档： 太老的数据，或者不常用的分钟线数据，是不是可以考虑删掉，或者挪到别的便宜的存储地方去？不然硬盘也扛不住。这个我当时只是想想，没真干，因为数据还没到爆硬盘的地步。
程序健壮性： 网络一抖动，接口可能超时；数据格式偶尔不对，程序可能崩掉。所以得加上各种异常处理，保证程序能稳定跑下去，别动不动就停摆。还得加日志，出问题知道去哪儿查。

就这么修修改改，我的这套简陋的“海量数据股票行情”系统算是勉强能跑起来。虽然离真正意义上的“海量”还差得远，数据源也不完美，处理能力也一般，但好歹是把我想要的基础数据都抓下来，存好。

能干

读懂海量数据股票行情有啥用？提升你的炒股胜率！

有这些自己存的数据，总算能干点想干的事。

比如，写个小程序，连上我的数据库，就能查任意一个股票的历史日K线，画个简单的图出来。或者做点简单的筛选，比如找出最近几天创新高的股票，或者连续几天都在跌的股票。虽然功能简陋，但都是我自己一手一脚搭起来的，用着顺手，心里也得劲。

回顾整个过程， 从一开始的异想天开，到中间碰壁，再到后面老老实实找方案、解决问题，真是折腾。深刻体会到处理“海量数据”真不是嘴上说说那么简单，每一步都有坑。但这个过程也确实学到不少东西，对数据怎么来、怎么存、怎么用有更直观的认识。现在再看那些专业的金融数据服务，更能理解它们为什么值那个价。自己瞎捣鼓的乐趣，也是无可替代的。

基金163803今天实时行情查询入口，掌握一手基金动态信息

搞明白什么是原始股股票很重要，投资前必看的知识点！

读懂海量数据股票行情有啥用？提升你的炒股胜率！

念头起来，就得动手

换思路，找正规军（或者接近正规军）

数据来，放哪儿？

缝缝补补又一年

能干

相关阅读