本次作业爬取的网站是51job,刚开始我想要用代码写个爬虫,其实就是分析网页,提数据,但是后来提取了几十条数据之后,后面的数据提取失败了, 每次都需要验证,让我很苦恼
那我找个爬虫软件吧,于是就想到了八爪鱼,用了之后还挺方便,八爪鱼有点模拟点击的意思,便于理解,于是就用它了,采集到的部分数据如下
八爪鱼的使用就不过多陈述了,文档很多,很容易理解
¶数据清洗
一看这数据这么乱,怎么进行可视化分析,于是便到网上看一些脚本模板,但是由于每个人爬取的数据是不一样的,模板很多地方都不对,而且对于51jib的模板更少了,于是我就萌生了自己写的念头,说干就干
花费一个晚上的时间在菜鸟上面学了一下numpy,matplotlib,pandas三个库,大概清楚怎么做了,于是开始操作excel
经历一上午的coding时间(刚开始写的真的慢),有了以下结果:
当然,三大数据分析库的功能不仅于此,但其实都类似,填参数就行了,包括饼图,柱状图,线图,热力图等等,时间关系就不介绍了
¶总结
代码来分析确实还是有可取之处的,比如这次写的,50行左右代码(其实还有一些可以精简)就可以处理庞大的数据,如果需要深入一下可能还需要看看视频,借鉴大佬好的思路和巧妙的方法,学业繁忙,代码写出来后我也没改了,也好以后来看看自己以前写的是个啥,代码链接放到了github里面RD-run/workcrawler