Python爬虫之网络请求实例分析

发布时间：2022-04-12 10:19:33 作者：iii
来源：亿速云阅读：208

Python爬虫之网络请求实例分析

在当今信息爆炸的时代，网络爬虫成为了获取互联网数据的重要工具。Python作为一种功能强大且易于学习的编程语言，被广泛应用于网络爬虫的开发中。本文将深入探讨Python爬虫中的网络请求部分，通过实例分析帮助读者更好地理解和掌握这一关键技术。

1. 网络请求基础

1.1 HTTP协议简介

HTTP（HyperText Transfer Protocol）是互联网上应用最为广泛的一种网络协议，它定义了客户端和服务器之间进行通信的规则。在爬虫开发中，我们主要关注HTTP请求和响应。

一个典型的HTTP请求包括： - 请求行（请求方法、URL、协议版本） - 请求头 - 请求体（可选）

常见的HTTP请求方法有： - GET：获取资源 - POST：提交数据 - PUT：更新资源 - DELETE：删除资源

1.2 Python中的网络请求库

Python提供了多个用于发送HTTP请求的库，其中最常用的有： 1. urllib：Python标准库中的HTTP客户端 2. requests：第三方库，提供了更简洁的API 3. httpx：支持HTTP/2的现代HTTP客户端

本文将主要使用requests库进行实例分析，因为它简单易用且功能强大。

2. 使用requests库发送请求

2.1 安装requests库

在开始之前，我们需要确保已经安装了requests库。可以使用pip进行安装：

pip install requests

2.2 发送GET请求

最基本的网络请求是GET请求，用于获取网页内容。以下是一个简单的例子：

import requests

url = 'https://www.example.com'
response = requests.get(url)

print(f'Status Code: {response.status_code}')
print(f'Response Content: {response.text[:100]}...')

在这个例子中，我们： 1. 导入requests库 2. 定义目标URL 3. 使用requests.get()发送GET请求 4. 打印响应状态码和部分内容

2.3 处理响应

requests库的响应对象提供了多种属性和方法来处理响应数据：

status_code：HTTP状态码
text：响应内容（字符串形式）
content：响应内容（字节形式）
json()：将JSON响应解析为Python字典
headers：响应头信息

例如，我们可以这样处理JSON响应：

import requests

url = 'https://api.github.com/users/octocat'
response = requests.get(url)

if response.status_code == 200:
    user_data = response.json()
    print(f"Username: {user_data['login']}")
    print(f"Name: {user_data['name']}")
else:
    print(f"Request failed with status code: {response.status_code}")

2.4 发送带参数的GET请求

很多时候，我们需要在请求中添加查询参数。requests库提供了两种方式：

直接在URL中添加参数：

url = 'https://www.example.com/search?q=python&page=2'

使用params参数：

params = {'q': 'python', 'page': 2}
response = requests.get('https://www.example.com/search', params=params)

第二种方式更为推荐，因为它更清晰且易于维护。

2.5 发送POST请求

当我们需要向服务器提交数据时，可以使用POST请求。以下是一个简单的例子：

import requests

url = 'https://httpbin.org/post'
data = {'username': 'testuser', 'password': 'testpass'}
response = requests.post(url, data=data)

print(response.json())

在这个例子中，我们： 1. 定义目标URL 2. 创建要提交的数据字典 3. 使用requests.post()发送POST请求 4. 打印服务器返回的JSON响应

2.6 设置请求头

有些网站会检查请求头信息来判断请求是否来自浏览器。我们可以通过headers参数自定义请求头：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

response = requests.get('https://www.example.com', headers=headers)

2.7 处理cookies

有些网站使用cookies来维护会话状态。requests库可以自动处理cookies，也可以手动设置：

# 自动处理cookies
session = requests.Session()
response = session.get('https://www.example.com')

# 手动设置cookies
cookies = {'session_id': '12345'}
response = requests.get('https://www.example.com', cookies=cookies)

2.8 处理超时和重试

在实际应用中，我们需要考虑网络不稳定的情况。requests库提供了timeout参数来设置请求超时时间：

try:
    response = requests.get('https://www.example.com', timeout=5)
except requests.Timeout:
    print("Request timed out")

对于重试机制，可以使用requests.adapters.HTTPAdapter：

from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

session = requests.Session()
retries = Retry(total=5, backoff_factor=0.1, status_forcelist=[500, 502, 503, 504])
adapter = HTTPAdapter(max_retries=retries)
session.mount('http://', adapter)
session.mount('https://', adapter)

response = session.get('https://www.example.com')

3. 高级话题

3.1 处理代理

在某些情况下，我们可能需要使用代理服务器来发送请求：

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}

response = requests.get('https://www.example.com', proxies=proxies)

3.2 处理SSL证书验证

对于HTTPS请求，requests默认会验证SSL证书。如果遇到证书问题，可以关闭验证（不推荐）：

response = requests.get('https://www.example.com', verify=False)

3.3 处理文件上传

requests库也支持文件上传：

files = {'file': open('example.txt', 'rb')}
response = requests.post('https://www.example.com/upload', files=files)

4. 总结

本文详细介绍了Python爬虫中网络请求的相关知识，重点讲解了如何使用requests库发送各种类型的HTTP请求。通过实例分析，我们学习了如何处理响应、设置请求头、管理cookies、处理代理等常见任务。

在实际开发中，除了掌握这些基本技能外，还需要注意： - 遵守网站的robots.txt协议 - 控制请求频率，避免给服务器造成过大压力 - 处理各种异常情况 - 遵守相关法律法规

通过不断实践和积累经验，你将能够开发出更加健壮和高效的网络爬虫程序。希望本文能为你的爬虫学习之路提供有价值的参考。

Python爬虫之网络请求实例分析

Python爬虫之网络请求实例分析

1. 网络请求基础

1.1 HTTP协议简介

1.2 Python中的网络请求库

2. 使用requests库发送请求

2.1 安装requests库

2.2 发送GET请求

2.3 处理响应

2.4 发送带参数的GET请求

2.5 发送POST请求

2.6 设置请求头

2.7 处理cookies

2.8 处理超时和重试

3. 高级话题

3.1 处理代理

3.2 处理SSL证书验证

3.3 处理文件上传

4. 总结

相关阅读