为了搞清楚这几十年大盘到底是怎么走的,我前阵子专门抽了几个晚上,把上证综合指数从开市到现在的月度数据全给扒拉了下来。这件事听起来简单,真动起手来发现坑不少。我先是去几个大的财经网站翻看历史行情,结果发现有的网页只能看图,没法批量导出,有的网页数据虽然全,但稍微翻得久一点就跳出验证码,甚至直接封掉我的IP。折腾了半天,还是找了个以前搞金融的朋友,让他从终端里帮我倒了一份原始的文本出来。
拿到这堆乱七八糟的原始文本后,才是真正磨人的开始。我打开Excel,把这几万行数据全倒进去,发现格式全乱了。有的年份日期用的是斜杠,有的又是连字符,还有不少数据点是因为早年间休市或者系统故障导致的断档。我一拍大腿,干脆自己写个简单的脚本跑一下。我先剔除了那些重复的无效记录,然后统一了时间戳的格式,把开盘价、最高价、最低价还有最关键的收盘价全部按月对齐。最麻烦的是处理那种跨年分的月度变动,我得挨个核对,确保每一行数据都没跳格。
手动清洗和比对的过程
我这人有个强迫症,总觉得机器洗出来的东西不靠谱。所以我又对照着几个权威的统计年鉴,手动抽检了几个标志性的月份,比如九几年那几次大起大落,还有零七年和一五年的高点。结果发现脚本还真漏掉了几个非交易日的细微调整。我赶紧手动修改了这些偏差,又增加了一列“月涨跌幅”,这样看起来就直观多了。忙活到凌晨三点,看着表格里那一排排整齐的数字,心里的成就感比自己股票涨了还舒服。
- 数据覆盖:从1990年12月开始,一直更新到上个月底。
- 包含字段:月份、开盘点位、月最高、月最低、收盘点位、成交量。
- 特殊处理:已经把所有的异常值和断档日期补齐,格式清一色都是标准的表格形式。
为什么要费这么大劲搞这个?我之前也跟风买过不少基金,结果亏得一塌糊涂。后来我反思了一下,总听那些专家在这儿吹牛、在那儿分析,全是碎片化的信息。如果不把这几十年的历史数据摊开来看,根本看不出所谓的“周期”到底长啥样。我把这表格做成折线图后发现,很多时候咱们折腾来折腾去,都没跳出那个大的波动区间。看着那条起起伏伏的曲线,我这心里也踏实了不少,起码知道现在咱们到底是蹲在坑里,还是站在山顶上。
现在这个整理好的表格就在我电脑里躺着,一共也就几十KB,但这里面藏着的可是咱们A股几十年的“冷暖人生”。我把这些杂乱的数字梳理、分类、校对,整合成了一个干干净净的文件。如果你也想自己做个回测,或者单纯想看看以前那些牛市月度是怎么翻倍的,直接拿去用就行,省得你再去各个网站到处求爷爷告奶奶地找。这种笨工夫我替你们下了,大家多花点心思在分析上,总好过把时间浪费在复制粘贴里。我一直觉得,做投资不能光凭感觉,手头没点像样的数据底稿,心里终究是发虚的。现在这份表格拿在手里,起码复盘的时候底气足多了。

还没有评论,来说两句吧...