最近公司这数据,查起来真是让人头大!各种系统、各种表,想找点东西跟大海捞针似的。领导发话,要搞个大数据查询平台,这光荣而艰巨的任务就落到我头上。今天就跟大家唠唠我这几天的折腾。
一、摸底调研,看看都有啥
我是两眼一抹黑,啥也不懂。第一步,那肯定是先摸清家底!咱公司这数据都藏在哪儿?
于是我就开始到处打听,跟各个部门的同事们聊天。这一聊才知道,嗬!这数据来源还真不少!
- 有业务部门自己搞的,像《淘宝》、《抖音》这些APP产生的数据,那可是海量!
- 还有一些专门做数据的公司,像《中策大数据》、《瑞智大数据》,他们那儿也有不少好东西。
- 像《信用中国》这种官方的平台,数据权威性肯定没得说。
总之是七七八八的,看得我眼花缭乱。不过好歹是摸清大概情况,心里也算有点底。
二、选工具,可把我愁坏
有数据源,接下来就得选个趁手的工具!这工具选不后面可有得罪受。市面上那些个大数据平台,吹得是一个比一个厉害,什么《快手》、《UC浏览器》、《京东》,还有什么《见微数据》、《TPlus》,看得我是云里雾里的。
后来我还是老老实实去研究下Hive。这玩意儿是基于Hadoop的,能把那些乱七八糟的数据文件,变成一张张的数据库表,还能用SQL语句来查,感觉挺适合我的。虽然以前没咋接触过,但好歹SQL咱还算熟,上手应该不难。
三、动手搭建,磕磕绊绊
工具选好,接下来就是动手搭建。这过程,那可真是磕磕绊绊,没少走弯路。
我得把Hadoop环境给搭起来。这玩意儿,以前只是听说过,没实际操作过!没办法,只能硬着头皮上。照着网上的教程,一步一步来,遇到问题就各种搜索、各种请教。总算是把环境给搭起来。
然后,就是把那些数据源给接进来。这又是一大堆的麻烦事!不同的数据源,接口、格式都不一样,有的还得我自己写代码去处理。那段时间,我真是天天加班,熬夜写代码,头发都快掉光。
不过功夫不负有心人,经过我一番折腾,总算是把大部分数据源都给接进来。看着那些数据在Hive里变成一张张整整齐齐的表,心里还是挺有成就感的。
四、初见成效,还得继续努力
平台搭好,数据也接进来,接下来就是让大家用起来。我先找几个同事试用一下,他们都说比以前方便多,想查什么数据,直接写个SQL语句就行。
听到这话,我心里别提多高兴!感觉这段时间的辛苦总算没白费。不过我也知道,这平台还只是个雏形,还有很多地方需要改进。比如,查询速度还可以再优化,界面也可以做得更友好一些。革命尚未成功,同志仍需努力!
今天就先跟大家分享到这儿,等我把这个平台再完善完善,到时候再来跟大家汇报!

