“前程无忧”(Nasdaq: JOBS) : 是国内一个集多种媒介资源优势的专业人力资源服务机构,创始人为甄荣辉。它集合了传统媒体、网络媒体及先进的信息技术,加上一支经验丰富的专业顾问队伍,提供包括招聘猎头、培训测评和人事外包在内的全方位专业人力资源服务,现在全国25个城市设有服务机构。2004年9月,前程无忧成为第一个在美国纳斯达克上市的中国人力资源服务企业,是中国最具影响力的人力资源服务供应商之一。经第三方监测机构iResearch 等调查,连续多年市场占有率第一。无忧工作网先后多次被CNNIC、Alexa 和Euromonitor评为“中国最具影响力的人才招聘网站”。
前程无忧官网: https://www.51job.com/ 时间: 2019/08/10 爬取内容: 职位名称,公司名称,工资,地点,发布时间。
操作环境: win10, python3.6, jupyter notebook,谷歌浏览器
1. 注册登录前程无忧 2. 分析网页 3. 请求网页 4. 提取数据 5. 保存数据 6. 全部源码
1. 注册登录前程无忧
打开前程无忧的官网,并不能直接搜索信息,它会提醒你先注册。登录成功后就不需要再次注册了,后来发现这台电脑的其他浏览器都不需要注册也可以直接搜索职位信息了。我在手机的浏览器打开前程无忧网,还是需要注册的。
2. 分析网页
2.1、现在登录成功了,搜索python,地点选择贵州,搜索
2.2、查看网页源代码(Ctrl+U)
查找(Ctrl+F)网页中的数据,最好选择公司名称这类不容易重复的内容,便于精确查找,如:广州欢创劳务派遣有限公司 结果: 在HTML源码中找到了需要的数据,说明我们可以从网页源码中提取信息
2.3、网页分析路径
HTML源码对应的URL就是浏览器导航栏的URL,把它复制下来就可以请求网页了。 本次搜索的关键词有两个页面,就需要对比它们的路径,实现页面跳转。通过对比测试,发现页面由它控制的。
3. 请求网页
3.1、查看网页的请求方式,它的请求方法是get
3.2、设置headers
haeders用来告诉服务器,这是一个浏览器发出的请求,达到反爬虫的目的,其中放Referer,cookie,User-Agent等
- Referer:反爬虫路径
- cookie:存放用户登录信息
- User-Agent:浏览器的信息