最新动态
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)
2024-11-02 00:44

requests是一个Python第三方库,用于向URL地址发起请求
bs4 全名 BeautifulSoup4,是编写 python 爬虫常用库之一,主要用来解析 html 标签。

python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

1.1 导入库文件(请求库、解析库

1.2 发起对指定网页的请求

1.3 解析为 bs4格式

如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的。

解析器使用方法优势Python标准库BeautifulSoup(html, “html.parser”)1、Python的内置标准库 2、执行速度适中 3、文档容错能力强lxml HTMLBeautifulSoup(html, “lxml”)1、速度快 2、文档容错能力强lxml XMLBeautifulSoup(html, [“lxml”, “xml”]) BeautifulSoup(html, “xml”)1、速度快 2、唯一支持XML的解析器html5libBeautifulSoup(html, “html5lib”)1、最好的容错性 2、以浏览器的方式解析文档 3、生成HTML5格式的文档

1.4 解析获取的内容(获取想要的数据

1.5 存储爬取的数据

作用:获取,网页中的各个自己想要的标签,一般是从大标签到小标签的过程

操作案例百度

2.1 find()

查找符合条件的第一个标签,结果是标签对象

find( name , attrs/class_ , recursive , string , **kwargs )

soup.find(‘标签名’,属性名=“属性”/class_=“类名”,recursive=“是否只要子节点(默认False)”,string=“标签内容”)

参数可以任意组合或只填写一个

①根据标签名定位第一个指定的标签
②根据属性名定位满足条件的第一个标签
③根据标签和标签属性定位

2.2 find_all()

和函数用法一样,不同之处在于只返回满足条件的第一个标签对象,而返回所有满足条件的标签对象,是。有时需要两个配合使用。

①根据标签名定位所有指定的标签
②根据属性名定位所有满足条件的标签
③根据指定的标签和对应的属性名定位所有满足条件的标签

2.3 select()

函数也是定位所有满足条件的标签,返回值也是一个列表

①根据标签名定位
②根据标签名和属性定位
③定位对应的子标签

作用:获取标签中自己想要的内容,如:文字、图片链接、视频链接、音频链接等

注意:soup只是一个变量,就是你查询出来后新的获取范围

3.1 获取标签内的文本

3.2 获取标签属性

3.3 获取指定标签的属性值

3.4 遍历获取的标签的属性值

3.5 获取指定标签内所有的元素

3.6 获取标签的父标签

1、存储为:文本文档(txt)、表格(excel)、图片、音频、视频
2、写出媒体思路:①在网页上找到媒体链接;②保存媒体链接;③向媒体链接发起请求;④通过返回的请求内容下载媒体

3、注意:本章节只讲解写操作,写出什么文件写什么格式

4.1 with open() as f: 用法

权限作用r读 取 ,读取文件里的内容w写入,新的会覆盖旧的a写入,在末尾追加写入,不会覆盖旧的wb写入,以二进制的方式写入(图片、音频、视频

4.2 写入为文本文档(txt

4.3 循环写入到文本文档中(txt

4.4 存储图片

4.5 存储视频

写出音频也是如此

4.6 存储为excel

sheet.write(行,列,内容

注意:行和列都是从0开始的,保存的格式为:.xls

实战是需要自己去分析网页结构的,博主代码只是一种参考,还是要自己去分析。

5.1 百度热搜榜

获取标题、热度、简介、新闻链接、图片、文本保存为txt,并输出

5.2 爬取图片壁纸

5.3 豆瓣电影 Top 250

结果保存到excel中的

    以上就是本篇文章【python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/quote/177.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多