上市公司名称这个事儿,一开始我是为了投资项目研究搞起来的。手头没钱,只能自己琢磨。那天晚上,我喝着啤酒刷手机,突然想着:"该整理个靠谱的公司列表了,不然钱都打水漂。" 可去哪儿找?百度搜了一圈,全是垃圾广告和乱七八糟的数据。有的公司名叫"xx科技有限公司",一查就是个空壳子;有的干脆用的是英文缩写,连全称都找不到。
第一步:下载原始数据
我决定从头开始干。先找了个免费的数据网站,点了下载按钮。数据下来一看,我傻眼了,文档乱七八糟的。有的公司名称写成了"北京市X公司(集团)",又长又拗口;还有些重复的,同一个公司出现四五次,标题前后不一致。没办法,我打开Excel,手动复制粘贴进去。结果搞了俩小时,眼睛都花了,数据量太大,还弹出来个错误提示说格式不对。气得我把键盘一拍,心想:"这玩意儿根本不能用!"
第二步:动手清洗整理
我不服气,接着手动处理。打开记事本,一个个删那些多余的括号和重复项。清洗过程磨死人:有些名称带了一堆"有限"或"股份"字眼,比如"上海Y公司有限股份",我拿着鼠标左点点右点点,去掉没用的部分;还碰到公司名夹杂英文的,像"ABC科技集团",我就统一改成中文全称。搞到一半,Excel卡死了,文档丢了。我一急眼,重新来过,这回学乖了,用分步保存。还建了个
- 规则:去掉所有标点符号
- 统一格式成"公司全称+地点"
- 排查重复,直接删除掉
第三步:验证和实现
名单好了,得验证真实性。我点开证监会官网,挨个核对公司代码。花了一整天时间,核对的时候发现错误不少:有的公司被退市了,还在名单里;有的名字对不上代码。我赶紧手动修正,边查边改。终于生成了个干净的Excel表,存成了本地文件。打开一看,清爽多了,公司名整齐划一,像"杭州Z科技股份有限公司"这种。当晚我发了朋友圈炫耀,结果被朋友调侃:"这活儿谁都能干,有啥用?" 我一想也是,白折腾半天,还不如直接买数据包。
整个过程没少踩坑,数据源太杂,浪费时间精力。说白了,上市公司名称处理起来就是个吃力不讨好的活儿,除非你真缺钱缺得慌。后来我放弃了投资梦,专攻自媒体写作。要是早知如此,不如多睡会儿觉。今天分享出来就当个教训,大家别学我瞎折腾。


还没有评论,来说两句吧...