推广 热搜： 金中国基金行业未来设备快速系统政策教师

爬取百度图片——详细思路

日期：2024-12-06 作者：caijiyuan caijiyuan 评论：0 移动：http://mip.tpjde.com/news/3009.html

核心提示：最近尝试将百度的图片爬取下来，下面讲解下我的整个爬取思路的流程。首先打开百度图片首页，输入搜索图片的关键字&#

最近尝试将百度的图片爬取下来，下面讲解下我的整个爬取思路的流程。首先打开百度图片首页，输入搜索图片的关键字，浏览器就展示给我们许多的指定图片。

爬取百度图片——详细思路

我们知道，爬取图片的核心在于获取到对应图片的url。我一如往常般的打开网页源代码，F12审查元素来获取指定图片在源代码的位置。可是发现源代码里根本就找不到。

这个时候我就想到，这应该是通过js请求来获取到图片的。所以我下一个目标就是找到js请求的url及其所带的参数。为了方便省时，我并没有使用Fidder来分析，而是直接F12中的network中来查看。果不其然，成功找到了请求图片的url。如下图所示，随着你的鼠标向下滚动，js会不停请求，依此获得更多的图片。每个url请求的参数都可在Query String Parameters中查看。

通过观察我们可以发现以下几点：

每一次请求的url参数，几乎都一样，只有一个参数是不同的，那就是pn，他指的是当前页面中已经展示的图片数目。
url参数的queryWord、word是搜索的关键字，对于不同关键字的搜索，这两个参数是不同的。
url参数rn指的是每次获取图片的数量，可以发现，一次请求的返回图片数量是30.
url的协议、ip、端口、目录成分为：https://image.baidu.com/search/acjson

得到每一次的请求，我们的下一个目标就是得到每一次请求返回的30个图片的url。所以我们需要对请求的响应进行分析。可以发现它是以json的数据返回的。返回的内容最外面是一对{}，我们所要的信息在key为data中。data的值是一个大小为31的数组，其中最后一个元素是一个空字典。data的每一个元素又是一个字典，而我们需要的图片url就在key为thumbURL内。如下图所示：

获取到图片url，这时我们就可以请求获取图片了。即requests.get(url，headers=headers).content，再将得到的图片写进文件。这里要注意的是，图片请求的请求头中一定要携带User-Agent和Referer，否则会被返回403.

附带demo

本文地址：http://www.tpjde.com/news/3009.html 推平第 http://www.tpjde.com/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 电脑上操作手机（电脑上操作手机的软件）	• 手机指南针的正确使用方法（手机指南针的正确使
• 华为手机官网维修（华为手机官网维修价格如何查	• 手机冲不了电（手机冲不了电什么情况）
• 手机电池哪个品牌好（一加六手机电池哪个品牌好	• 手机相声（手机相声剧本）
• 手机组手（手机组手下载）	• 手机来电提醒怎么设置（手机怎样设置来电提醒功
• 手机安装字体（手机安装字体方法）	• 手机怎样美图（手机怎样美图换背景）