Python爬虫配置代理IP教程 本文详细介绍了如何在Python爬虫中配置代理IP,包括使用requests库、urllib库和Selenium配置代理IP的方法,以及使用代理IP的注意事项。 2024-04-30 浏览(413) Python技术 评论(0) 阅读全文
反爬虫技术及其应对策略 反爬虫技术的概念和原理,并提供了一些常见的反爬虫应对策略,以帮助网站管理员和开发者更好地应对恶意爬虫的威胁,保护网站的数据安全和用户体验。 2023-08-29 浏览(811) Python技术 评论(0) 阅读全文
User-Agent介绍 本文介绍了User-Agent的基本概念、用法和在实际开发中的应用场景。通过合理利用User-Agent信息,我们可以为不同的用户设备和浏览器提供定制化的功能和体验,同时也能够提升网站的兼容性和安全性。 2023-08-15 浏览(798) 后端技术 评论(0) 阅读全文
如何使用robots.txt及其详解 在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,... 2022-03-02 浏览(1,633) 后端技术 评论(0) 阅读全文
爬虫入门之模拟用户请求 接着上一篇文章Python爬虫入门之初遇lxml库,我们对爬虫程序发起的请求进行分析,爬虫爬取数据要做的就是模拟用户发起请求,接收到数据进行存储我们先看一下一下正常的用户请求,然后再分析如何去模拟1.正常的用户请求1.1.用户操作步骤用户打开浏览器 输入URL网址 回车发起请求1.2.请求原理目前大多数网址基本都是使用http协议,我们先说一下什么是http(对于原理不感兴趣可以跳过1.2这节)1.2.1.什么是http协议?超文本传输协议(HyperTextTr... 2021-10-11 浏览(4,626) Python技术 评论(0) 阅读全文
Python爬虫入门之初遇lxml库 Python爬虫入门之初遇lxml库爬虫是什么所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。爬虫三要素抓取 分析 存储抓取网页urllib库使用importurllib.requestresponse=urllib.request.urlopen('https://laoniu.blog.csdn.net/')print(response.read().dec 2021-10-11 浏览(4,814) Python技术 评论(0) 阅读全文