爬虫入门之模拟用户请求

接着上一篇文章Python爬虫入门之初遇lxml库,我们对爬虫程序发起的请求进行分析,爬虫爬取数据要做的就是模拟用户发起请求,接收到数据进行存储我们先看一下一下正常的用户请求,然后再分析如何去模拟1.正常的用户请求1.1.用户操作步骤用户打开浏览器 输入URL网址 回车发起请求1.2.请求原理目前大多数网址基本都是使用http协议,我们先说一下什么是http(对于原理不感兴趣可以跳过1.2这节)1.2.1.什么是http协议?超文本传输协议(HyperTextTr...
阅读全文

Python爬虫入门之初遇lxml库

Python爬虫入门之初遇lxml库爬虫是什么所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。爬虫三要素抓取 分析 存储抓取网页urllib库使用importurllib.requestresponse=urllib.request.urlopen('https://laoniu.blog.csdn.net/')print(response.read().dec
阅读全文
Loading...