热门推荐
使用python抓取百度搜索、百度新闻搜索的关键词个数
2024-10-31 11:17

由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本。

使用python抓取百度搜索、百度新闻搜索的关键词个数

在写这个脚本的过程中遇到了很多的问题,下面会一一道来。

ps:我并没有系统地学习过python,只是很久之前用过它,感觉用起来还比较方便,于是这回又把它拾起来使用了。当然这也是考虑到手上有python机器学习的实战书籍,所以估计一段时间后还会再用的缘故。

 

思路首先使用python的库函数把网页的内容爬下来,然后使用正则表达式去匹配想要的字符串,最后进行字符串处理就能得到想要的东西了。

具体方法(以百度搜索为例

(1)读取存放关键词的文本

(2)根据读取到的内容依次来搜索

(3)使用正则表达式匹配内容

遇到的问题

(1)中文显示的问题,更细致一点,就是编码的问题了,相信每个学习Python的人都会遇到这个问题!不过这种问题一般不是很难解决,百度上有很多别人的经验。

  >>在我的程序中,我使用的全局编码都是utf-8编码,这样在shell中运行时没有问题的,但是如果在控制台中运行,中文显示便是乱码了,原因是中文系统默认编码是gbk。

  --我解决的办法是在要显示中文的地方先解码然后再编码,eg: print substr.decode('utf-8').encode('gbk')

(2)为了在不装python的机器上也能运行我这个脚本,我使用py2exe对程序进行了打包,但是发现程序的图标无法显示出来,打包代码如下

  网上说有把序号1换成0就能显示(然而并没有什么卵用,以及一些相关的办法我都尝试了,最终得到一个可行的办法:http://blog.csdn.net/xugangjava/article/details/8049224

(3)为了扩大搜索的范围,例如使用百度新闻搜索、人民网检索、搜狗搜索,我又进行了一些尝试。

  百度新闻搜索

  人民网检索

  发现使用的是js,查看源码也没有什么作用,又不会模拟浏览器的行为(预计学习起来要花费不少的时间,然而暂时没有必要,作为爬虫的菜鸟,只能放弃改为手动抓取了。

  搜狗搜索

  这个是会检测爬虫的,我被多次封ip,可以使用代理ip的方式来对付一下,只不过网上的代理ip资源很少。另外浏览器访问并没有被封,所以个人觉得其中一定有一些技巧,但是只能之后又时间再来研究了。

 

总结爬虫这方面的资料还是有挺多的,一些诸如Scrapy的框架应用得很广泛。上面我只是简单地应用了,避免了繁杂的手动搜索。 、

 

参考资料

    以上就是本篇文章【使用python抓取百度搜索、百度新闻搜索的关键词个数】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/quote/22.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多