今天分享一期爬虫案例,爬取的目标是:今日头条热榜的榜单数据。
爬取以上6个关键字段,含:
热榜排名,热榜标题,热度值,热榜标签,热榜分类,热榜链接。
首先,导入需要用到的库:
定义一个请求头:(爬取目标较简单,一个User-agent即可)
定义请求地址:
用requests发送请求:
查看响应码并以json方式接收返回数据:
定义一些空列表,用于存放数据:
以"热榜标题"字段为例:
可以看到,url中从?往后,都是不必要的请求参数。
所以,用正则表达式把?后面的全部删掉,提取出id,再进行拼接url,如下:
最后,把所有字段存放的列表数据组成Dataframe格式:
进一步保存到csv文件里:
以上,核心逻辑讲解完毕。
代码中还含有:解析热度值、热榜标签、热榜分类、热榜链接字段等,详见文末。
爬取技术流程:
- requests 发送请求
- json 解析数据
- re 正则表达式提取文本
- pandas 保存csv
如果你对Python感兴趣,想要学习python,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓