Python爬虫Requests库怎么使用

发布时间：2022-11-10 17:23:34 作者：iii
来源：亿速云阅读：431

Python爬虫Requests库怎么使用

引言

在网络爬虫的开发中，HTTP请求是最基础的操作之一。Python的Requests库是一个非常流行的HTTP客户端库，它简化了HTTP请求的发送和响应的处理。本文将详细介绍如何使用Requests库进行网络爬虫的开发。

Requests库简介

Requests库是一个简单易用的HTTP库，它基于Python的urllib3库，提供了更加简洁的API。Requests库支持HTTP/1.1和HTTP/2协议，能够处理各种HTTP请求方法（如GET、POST、PUT、DELETE等），并且支持自动处理Cookies、重定向、代理等功能。

安装Requests库

在使用Requests库之前，首先需要安装它。可以通过以下命令使用pip进行安装：

pip install requests

安装完成后，可以通过以下代码验证是否安装成功：

import requests
print(requests.__version__)

如果输出了Requests库的版本号，说明安装成功。

基本用法

发送GET请求

发送GET请求是Requests库最基本的用法之一。以下是一个简单的例子：

import requests

response = requests.get('https://www.example.com')
print(response.text)

在这个例子中，我们向https://www.example.com发送了一个GET请求，并打印了响应的内容。

发送POST请求

发送POST请求也非常简单。以下是一个发送POST请求的例子：

import requests

data = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://www.example.com/post', data=data)
print(response.text)

在这个例子中，我们向https://www.example.com/post发送了一个POST请求，并传递了一个字典作为请求体。

处理响应

Requests库的响应对象包含了服务器返回的所有信息。以下是一些常用的属性和方法：

response.status_code：HTTP状态码。
response.text：响应内容的字符串形式。
response.content：响应内容的字节形式。
response.json()：将响应内容解析为JSON格式。
response.headers：响应头信息。

以下是一个处理响应的例子：

import requests

response = requests.get('https://www.example.com')
print(response.status_code)
print(response.headers)
print(response.text)

高级用法

设置请求头

在发送请求时，可以通过headers参数设置请求头。以下是一个设置请求头的例子：

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get('https://www.example.com', headers=headers)
print(response.text)

使用代理

在某些情况下，可能需要通过代理服务器发送请求。Requests库支持通过proxies参数设置代理。以下是一个使用代理的例子：

import requests

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}

response = requests.get('https://www.example.com', proxies=proxies)
print(response.text)

处理Cookies

Requests库可以自动处理Cookies。以下是一个处理Cookies的例子：

import requests

response = requests.get('https://www.example.com')
print(response.cookies)

# 发送带有Cookies的请求
cookies = {'key': 'value'}
response = requests.get('https://www.example.com', cookies=cookies)
print(response.text)

处理重定向

Requests库默认会自动处理重定向。如果不希望自动处理重定向，可以通过allow_redirects参数禁用。以下是一个处理重定向的例子：

import requests

response = requests.get('https://www.example.com', allow_redirects=False)
print(response.status_code)
print(response.headers['Location'])

超时设置

在发送请求时，可以通过timeout参数设置超时时间。以下是一个设置超时的例子：

import requests

try:
    response = requests.get('https://www.example.com', timeout=5)
    print(response.text)
except requests.Timeout:
    print('请求超时')

文件上传

Requests库支持文件上传。以下是一个文件上传的例子：

import requests

files = {'file': open('example.txt', 'rb')}
response = requests.post('https://www.example.com/upload', files=files)
print(response.text)

流式请求

对于大文件或流式数据，可以使用stream参数进行流式请求。以下是一个流式请求的例子：

import requests

response = requests.get('https://www.example.com/large-file', stream=True)
for chunk in response.iter_content(chunk_size=1024):
    if chunk:
        print(chunk)

错误处理

在实际开发中，可能会遇到各种错误，如网络连接错误、超时错误等。Requests库提供了丰富的异常处理机制。以下是一个错误处理的例子：

import requests

try:
    response = requests.get('https://www.example.com', timeout=5)
    response.raise_for_status()
except requests.exceptions.HTTPError as errh:
    print(f"HTTP Error: {errh}")
except requests.exceptions.ConnectionError as errc:
    print(f"Error Connecting: {errc}")
except requests.exceptions.Timeout as errt:
    print(f"Timeout Error: {errt}")
except requests.exceptions.RequestException as err:
    print(f"Something went wrong: {err}")

Session对象

Requests库提供了Session对象，用于在多个请求之间保持某些参数（如Cookies、Headers等）。以下是一个使用Session对象的例子：

import requests

session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0'})

response = session.get('https://www.example.com')
print(response.text)

response = session.post('https://www.example.com/post', data={'key': 'value'})
print(response.text)

实战案例

爬取网页内容

以下是一个使用Requests库爬取网页内容的例子：

import requests

url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
    print(response.text)
else:
    print(f'Failed to retrieve the webpage. Status code: {response.status_code}')

模拟登录

以下是一个使用Requests库模拟登录的例子：

import requests

login_url = 'https://www.example.com/login'
data = {'username': 'your_username', 'password': 'your_password'}

session = requests.Session()
response = session.post(login_url, data=data)

if response.status_code == 200:
    print('Login successful')
    # 继续访问其他需要登录的页面
    profile_url = 'https://www.example.com/profile'
    response = session.get(profile_url)
    print(response.text)
else:
    print('Login failed')

爬取API数据

以下是一个使用Requests库爬取API数据的例子：

import requests

api_url = 'https://api.example.com/data'
params = {'key': 'value'}

response = requests.get(api_url, params=params)
if response.status_code == 200:
    data = response.json()
    print(data)
else:
    print(f'Failed to retrieve data. Status code: {response.status_code}')

总结

Requests库是Python中一个非常强大的HTTP客户端库，它简化了HTTP请求的发送和响应的处理。通过本文的介绍，你应该已经掌握了Requests库的基本用法和高级用法，并能够使用它进行网络爬虫的开发。在实际开发中，Requests库可以帮助你轻松地处理各种HTTP请求，并获取所需的数据。

Python爬虫Requests库怎么使用

Python爬虫Requests库怎么使用

目录

引言

Requests库简介

安装Requests库

基本用法

发送GET请求

发送POST请求

处理响应

高级用法

设置请求头

使用代理

处理Cookies

处理重定向

超时设置

文件上传

流式请求

错误处理

Session对象

实战案例

爬取网页内容

模拟登录

爬取API数据

总结

相关阅读