数据可视化的一次小体验


这是一次信息检索的课程,需要爬取招聘数据,然后对数据进行分析,于是,就有了下文
### 前言

本次作业爬取的网站是51job,刚开始我想要用代码写个爬虫,其实就是分析网页,提数据,但是后来提取了几十条数据之后,后面的数据提取失败了, 每次都需要验证,让我很苦恼

那我找个爬虫软件吧,于是就想到了八爪鱼,用了之后还挺方便,八爪鱼有点模拟点击的意思,便于理解,于是就用它了,采集到的部分数据如下

八爪鱼的使用就不过多陈述了,文档很多,很容易理解

数据清洗

一看这数据这么乱,怎么进行可视化分析,于是便到网上看一些脚本模板,但是由于每个人爬取的数据是不一样的,模板很多地方都不对,而且对于51jib的模板更少了,于是我就萌生了自己写的念头,说干就干


花费一个晚上的时间在菜鸟上面学了一下numpy,matplotlib,pandas三个库,大概清楚怎么做了,于是开始操作excel

经历一上午的coding时间(刚开始写的真的慢),有了以下结果:


当然,三大数据分析库的功能不仅于此,但其实都类似,填参数就行了,包括饼图,柱状图,线图,热力图等等,时间关系就不介绍了

总结

代码来分析确实还是有可取之处的,比如这次写的,50行左右代码(其实还有一些可以精简)就可以处理庞大的数据,如果需要深入一下可能还需要看看视频,借鉴大佬好的思路和巧妙的方法,学业繁忙,代码写出来后我也没改了,也好以后来看看自己以前写的是个啥,代码链接放到了github里面RD-run/workcrawler


文章作者: RD
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 RD !
评论
评论
  目录