今天跟大家唠唠我折腾华工科技股票历史交易数据的事儿,纯属个人实践记录,大家随便看看就
起因:最近不是想稍微研究下股票嘛光看K线图感觉抓瞎,寻思着能不能搞点历史数据,自己扒拉扒拉,看看能不能看出点啥门道来。锁定华工科技(000988)主要是因为名字听着顺耳,而且感觉也算是个有点名气的公司,就它!
第一步:找数据源。这年头,数据就是金钱!一开始想着能不能直接从券商APP里导出,结果发现想多,人家才不给你这么方便。 后来一顿搜索,发现东方财富网好像能提供一些,还有一些财经网站也能扒到一点,不过都不太全,而且格式乱七八糟的。
第二步:数据抓取。既然没有现成的,那就自己动手丰衣足食!我用Python写个简单的爬虫,主要就是requests库和BeautifulSoup库,这两个简直是爬虫神器。目标网站就是那些财经网站,先是把历史交易数据的URL都爬下来,然后再一个一个的去抓取具体的数据,包括日期、开盘价、收盘价、最高价、最低价、成交量、成交额这些。
第三步:数据清洗。爬下来的数据那叫一个脏!各种HTML标签、空格、换行符,看着就头疼。还得处理一些缺失值,有些网站可能数据不全,有的日期就没有成交量,就得想办法补全或者剔除。 我用pandas库来进行数据清洗,先把数据读到DataFrame里,然后用正则表达式把那些乱七八糟的东西都替换掉,再把数据类型转换成数值型,方便后面分析。缺失值的话,我简单粗暴地用前一个交易日的数据填充。
第四步:数据存储。洗干净的数据总得找个地方放着,我选择存到MySQL数据库里。因为后续可能还会用到这些数据,而且数据库管理起来也方便。 用pymysql库连接数据库,然后写SQL语句把数据插入到表里。表结构也很简单,就几个字段:日期、开盘价、收盘价、最高价、最低价、成交量、成交额。
第五步:数据分析。数据有,接下来就是瞎折腾。我用matplotlib库画一些简单的图表,比如K线图、成交量柱状图,看看历史走势。 还算一些简单的指标,比如移动平均线、MACD等等,想看看能不能找到一些规律。结果嘛呵呵,看半天也没看出啥名堂,感觉还是随机性太强。
第六步:可视化展示。为更直观地看到数据,我还用echarts做一个简单的web页面,把K线图、成交量图、各种指标都展示在页面上。这样就不用每次都跑Python脚本,直接在浏览器里就能看数据。
这回折腾华工科技股票历史交易数据,虽然没赚到钱,但是也学到一些东西。比如,怎么写爬虫、怎么清洗数据、怎么用pandas、matplotlib、echarts等等。 感觉还是挺有意思的,以后有时间再折腾折腾其他的股票数据,说不定哪天就能发现财富密码!
- 抓取数据:用Python爬虫从财经网站获取历史交易数据。
- 清洗数据:用pandas处理HTML标签、空格、缺失值等。
- 存储数据:用MySQL数据库存储清洗后的数据。
- 分析数据:用matplotlib计算指标,绘制图表。
- 展示数据:用echarts做web页面,可视化展示数据。
心得体会
搞这些数据分析,真不是一蹴而就的事情,需要耐心和不断尝试。而且数据质量很重要,数据不准,分析出来的东西也是瞎扯淡。 光看数据也不行,还得结合一些基本面分析、行业分析,才能更好地理解股票走势。股票有风险,投资需谨慎!
还没有评论,来说两句吧...