爬虫相关的文章 - 搬砖的码农

Python爬虫配置代理IP教程

本文详细介绍了如何在Python爬虫中配置代理IP，包括使用requests库、urllib库和Selenium配置代理IP的方法，以及使用代理IP的注意事项。

2024-04-30 浏览(746) Python技术评论(0)

反爬虫技术及其应对策略

反爬虫技术的概念和原理，并提供了一些常见的反爬虫应对策略，以帮助网站管理员和开发者更好地应对恶意爬虫的威胁，保护网站的数据安全和用户体验。

2023-08-29 浏览(1111) Python技术评论(0)

User-Agent介绍

本文介绍了User-Agent的基本概念、用法和在实际开发中的应用场景。通过合理利用User-Agent信息，我们可以为不同的用户设备和浏览器提供定制化的功能和体验，同时也能够提升网站的兼容性和安全性。

2023-08-15 浏览(1171) 后端技术评论(0)

如何使用robots.txt及其详解

在国内，网站管理者似乎对robots.txt并没有引起多大重视，应一些朋友之请求，今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，...

2022-03-02 浏览(1920) 后端技术评论(0)

爬虫入门之模拟用户请求

接着上一篇文章Python爬虫入门之初遇lxml库，我们对爬虫程序发起的请求进行分析，爬虫爬取数据要做的就是模拟用户发起请求，接收到数据进行存储我们先看一下一下正常的用户请求，然后再分析如何去模拟1.正常的用户请求1.1.用户操作步骤用户打开浏览器输入URL网址回车发起请求1.2.请求原理目前大多数网址基本都是使用http协议，我们先说一下什么是http（对于原理不感兴趣可以跳过1.2这节）1.2.1.什么是http协议？超文本传输协议(HyperTextTr...

2021-10-11 浏览(4882) Python技术评论(0)

Python爬虫入门之初遇lxml库

Python爬虫入门之初遇lxml库爬虫是什么所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。爬虫三要素抓取分析存储抓取网页urllib库使用importurllib.requestresponse=urllib.request.urlopen('https://laoniu.blog.csdn.net/')print(response.read().dec

2021-10-11 浏览(5044) Python技术评论(0)

Loading...