推广 热搜:   中国  未来  系统  政策  行业  设备  基金  快速  教师 

爬取百度图片——详细思路

   日期:2024-12-06     作者:caijiyuan    caijiyuan   评论:0    移动:http://mip.tpjde.com/news/3009.html
核心提示:最近尝试将百度的图片爬取下来,下面讲解下我的整个爬取思路的流程。首先打开百度图片首页,输入搜索图片的关键字&#

最近尝试将百度的图片爬取下来,下面讲解下我的整个爬取思路的流程。首先打开百度图片首页,输入搜索图片的关键字,浏览器就展示给我们许多的指定图片。

爬取百度图片——详细思路

我们知道,爬取图片的核心在于获取到对应图片的url。我一如往常般的打开网页源代码,F12审查元素来获取指定图片在源代码的位置。可是发现源代码里根本就找不到。

这个时候我就想到,这应该是通过js请求来获取到图片的。所以我下一个目标就是找到js请求的url及其所带的参数。为了方便省时,我并没有使用Fidder来分析,而是直接F12中的network中来查看。果不其然,成功找到了请求图片的url。如下图所示,随着你的鼠标向下滚动,js会不停请求,依此获得更多的图片。每个url请求的参数都可在Query String Parameters中查看。

通过观察我们可以发现以下几点

  1. 每一次请求的url参数,几乎都一样,只有一个参数是不同的,那就是pn,他指的是当前页面中已经展示的图片数目。
  2. url参数的queryWord、word是搜索的关键字,对于不同关键字的搜索,这两个参数是不同的。
  3. url参数rn指的是每次获取图片的数量,可以发现,一次请求的返回图片数量是30.
  4. url的协议、ip、端口、目录成分为:https://image.baidu.com/search/acjson

得到每一次的请求,我们的下一个目标就是得到每一次请求返回的30个图片的url。所以我们需要对请求的响应进行分析。可以发现它是以json的数据返回的。返回的内容最外面是一对{},我们所要的信息在key为data中。data的值是一个大小为31的数组,其中最后一个元素是一个空字典。data的每一个元素又是一个字典,而我们需要的图片url就在key为thumbURL内。如下图所示

获取到图片url,这时我们就可以请求获取图片了。即requests.get(url,headers=headers).content,再将得到的图片写进文件。这里要注意的是,图片请求的请求头中一定要携带User-Agent和Referer,否则会被返回403.

附带demo

 

本文地址:http://www.tpjde.com/news/3009.html    推平第 http://www.tpjde.com/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号