大家今天跟大家聊聊我之前捣鼓新浪大陆股市行情的事儿。就喜欢瞎琢磨,总想着能不能把一些常用信息给自动化弄出来,或者至少方便自己看。股市这玩意儿,牵动人心,我虽然不是啥大户,但也总爱瞅瞅。
最初的想法和尝试
我就是老老实实打开新浪财经的网站,或者手机App,看看上证指数、深证成指这些。但有时候,就想快速扫一眼,不想点那么多。我就琢磨着,这网页上的数据,我能不能自己想办法给它弄下来?
说干就干。我先是打开了新浪财经那个网页,主要看的就是大陆股市这块儿。比如那个上证指数,代码是 sh000001,这个大家都熟。我记得当时页面上很醒目地显示着指数,比如像是 3347.49 点,旁边可能还有个涨跌额,比如 -15.96,然后是个百分比,类似 -0.47% 这样。
动手分析网页数据
接着我就开始琢磨这数据是怎么嵌在网页里头的。咱也不是啥专业的爬虫工程师,就用浏览器自带的那个开发者工具,一般按F12就出来了。对着那个指数点一下右键,选“检查”或者“审查元素”,就能看到对应的网页代码了。
这一看,嚯,密密麻麻的都是代码。但咱有耐心,就一层一层地找,看那个数字“3347.49”到底藏在哪对标签里。通常这些数据都会在一些有特定名字或者规律的标签里,比如 `` 或者 ` 我发现,除了主要的指数点位,像什么 今开 3358.81、最高 3361.28、昨收 3363.45、最低 3341.65,还有成交量 385.60万手、成交额 4433.59亿 这些数据,也都是用类似的方式放在网页上的。找到一个,其他的就好办了,基本都在那一块儿。 找到了数据在网页代码里的位置,下一步我就寻思着怎么用程序自动把它读出来。我当时会一点点Python,就试着用它写了个小程序。大概的思路就是: 这个过程说起来简单,但实际操作起来还是费了点劲儿。有时候网页结构稍微一变,我写的那个小程序就抓瞎了,找不着数据了。所以还得经常调整,找那些相对稳定点儿的标记。我还记得有一次,它那个小数点后面的数字老是多一位少一位的,弄得我头大,后来发现是提取的时候没处理好格式。 捣鼓了几天,总算是能比较稳定地抓到我想要的上证指数、深证成指这些基本行情了。虽然这方法比较“土”,跟人家专业的数据接口没法比,但对我自己用用,快速看看大盘走势啥的,也够使了。后来我还用类似的方法试过去抓一些热门板块或者个股的信息,原理都大同小异。 通过这回实践,我感觉对网页数据怎么展示、怎么获取有了更直观的认识。虽然只是皮毛,但自己动手把一个想法变成现实,还是挺有成就感的。这就是我当时获取新浪大陆股市行情的一个小经历,分享给大家,希望对同样爱琢磨的朋友能有点儿启发。很多东西,只要你肯动手去试,总能搞出点名堂来。尝试获取数据
结果与后续
还没有评论,来说两句吧...