如何使用robots.txt及其详解

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,...
阅读全文

爬虫入门之模拟用户请求

接着上一篇文章Python爬虫入门之初遇lxml库,我们对爬虫程序发起的请求进行分析,爬虫爬取数据要做的就是模拟用户发起请求,接收到数据进行存储我们先看一下一下正常的用户请求,然后再分析如何去模拟1.正常的用户请求1.1.用户操作步骤用户打开浏览器 输入URL网址 回车发起请求1.2.请求原理目前大多数网址基本都是使用http协议,我们先说一下什么是http(对于原理不感兴趣可以跳过1.2这节)1.2.1.什么是http协议?超文本传输协议(HyperTextTr...
阅读全文

Python爬虫入门之初遇lxml库

Python爬虫入门之初遇lxml库爬虫是什么所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。爬虫三要素抓取 分析 存储抓取网页urllib库使用importurllib.requestresponse=urllib.request.urlopen('https://laoniu.blog.csdn.net/')print(response.read().dec
阅读全文
Loading...