requests是一个Python第三方库,用于向URL地址发起请求
bs4 全名 BeautifulSoup4,是编写 python 爬虫常用库之一,主要用来解析 html 标签。
1.1 导入库文件(请求库、解析库)
1.2 发起对指定网页的请求
1.3 解析为 bs4格式
如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的。
1.4 解析获取的内容(获取想要的数据)
1.5 存储爬取的数据
作用:获取,网页中的各个自己想要的标签,一般是从大标签到小标签的过程
操作案例百度
2.1 find()
查找符合条件的第一个标签,结果是标签对象
find( name , attrs/class_ , recursive , string , **kwargs )
soup.find(‘标签名’,属性名=“属性”/class_=“类名”,recursive=“是否只要子节点(默认False)”,string=“标签内容”)
参数可以任意组合或只填写一个
①根据标签名定位第一个指定的标签
②根据属性名定位满足条件的第一个标签
③根据标签和标签属性定位
2.2 find_all()
和函数用法一样,不同之处在于只返回满足条件的第一个标签对象,而返回所有满足条件的标签对象,是。有时需要两个配合使用。
①根据标签名定位所有指定的标签
②根据属性名定位所有满足条件的标签
③根据指定的标签和对应的属性名定位所有满足条件的标签
2.3 select()
函数也是定位所有满足条件的标签,返回值也是一个列表
①根据标签名定位
②根据标签名和属性定位
③定位对应的子标签
作用:获取标签中自己想要的内容,如:文字、图片链接、视频链接、音频链接等
注意:soup只是一个变量,就是你查询出来后新的获取范围
3.1 获取标签内的文本
3.2 获取标签属性
3.3 获取指定标签的属性值
3.4 遍历获取的标签的属性值
3.5 获取指定标签内所有的元素
3.6 获取标签的父标签
1、存储为:文本文档(txt)、表格(excel)、图片、音频、视频
2、写出媒体思路:①在网页上找到媒体链接;②保存媒体链接;③向媒体链接发起请求;④通过返回的请求内容下载媒体
3、注意:本章节只讲解写操作,写出什么文件写什么格式
4.1 with open() as f: 用法
4.2 写入为文本文档(txt)
4.3 循环写入到文本文档中(txt)
4.4 存储图片
4.5 存储视频
写出音频也是如此
4.6 存储为excel
sheet.write(行,列,内容)
注意:行和列都是从0开始的,保存的格式为:.xls
实战是需要自己去分析网页结构的,博主代码只是一种参考,还是要自己去分析。
5.1 百度热搜榜
获取标题、热度、简介、新闻链接、图片、文本保存为txt,并输出
5.2 爬取图片壁纸
5.3 豆瓣电影 Top 250
结果保存到excel中的
以上就是本篇文章【python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/quote/177.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多