今天跟大家唠唠我折腾《证券时报》的那些事儿。说起来,跟《证券时报》结缘也挺早的,那时候刚入行,啥也不懂,就想着多看看财经新闻,补补课。
我就是每天早上上班路上,在手机上刷刷证券时报网,看看最新的消息。后来发现,网页版的体验一般,广告也挺多的,就寻思着能不能搞个更方便的。
然后我就去应用市场搜搜,还真找到《证券时报》的APP。下下来,感觉还不错,界面挺简洁的,新闻也挺全的,就是有时候会有点卡。
我琢磨着,APP虽然方便,但是有时候想找点历史信息,或者想做点深度研究,就不太给力。于是我就开始研究怎么把《证券时报》的内容“搬”到本地。
我想着用爬虫自己写程序爬,但一想工作量太大,而且《证券时报》的反爬机制肯定也不弱,搞不好还会被封IP,就放弃。
后来我发现《证券时报》网也有提供一些数据接口,虽然不是完全开放,但是可以获取一些基本的数据。我就尝试着用下,发现还挺好用的。
我用Python写个小程序,每天定时从这些接口获取数据,然后存到本地的数据库里。这样,我就可以随时查阅历史新闻,还可以用SQL语句做各种分析。
但是,这些接口提供的数据毕竟有限,很多深度报道、评论之类的,都获取不到。我就又开始琢磨其他的办法。
我发现,《证券时报》也有微信公众号,而且每天都会推送很多文章。我就想着能不能从微信公众号入手。
我想用一些第三方工具直接抓取微信公众号的文章,但是发现现在微信公众号的反爬虫机制越来越严格,很多工具都失效。
后来我找到一个比较笨的办法,就是用微信读书APP,把《证券时报》公众号的文章收藏起来,然后用微信读书的导出功能,把文章导出成TXT文件。
虽然这个方法比较麻烦,但是至少可以把大部分的文章都保存下来。我把这些TXT文件导入到我的文本编辑器里,就可以进行全文搜索和分析。
再后来我还发现《证券时报》有一些付费的数据库产品,里面收录更全面的数据。但是,这些数据库都比较贵,个人用的话不太划算。我就只能偶尔蹭一下公司的账号,用用里面的数据。
我折腾《证券时报》的过程,就是一个不断学习、不断尝试的过程。虽然中间遇到很多困难,但是最终还是找到一些可行的办法。我可以随时查阅《证券时报》的新闻,做各种分析,感觉还是挺有成就感的。


还没有评论,来说两句吧...