python spider爬虫如何设置User-Agent - 问答

在Python的Spider爬虫中，设置User-Agent可以通过修改请求头实现。以下是一个使用requests库设置User-Agent的示例：

首先，确保已经安装了requests库。如果没有安装，可以使用以下命令安装：

pip install requests

然后，在爬虫代码中设置User-Agent：

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    # 在这里编写你的爬虫逻辑
else:
    print(f"请求失败，状态码：{response.status_code}")

在这个示例中，我们首先导入requests和BeautifulSoup库。然后，我们定义要爬取的URL和包含User-Agent的请求头。接下来，我们使用requests.get()方法发送带有自定义User-Agent的请求，并将响应存储在response变量中。最后，我们检查响应的状态码，如果状态码为200（表示请求成功），则使用BeautifulSoup解析HTML内容。

0 赞

0 踩