在Python的Spider爬虫中,设置User-Agent可以通过修改请求头实现。以下是一个使用requests
库设置User-Agent的示例:
首先,确保已经安装了requests
库。如果没有安装,可以使用以下命令安装:
pip install requests
然后,在爬虫代码中设置User-Agent:
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里编写你的爬虫逻辑
else:
print(f"请求失败,状态码:{response.status_code}")
在这个示例中,我们首先导入requests
和BeautifulSoup
库。然后,我们定义要爬取的URL和包含User-Agent的请求头。接下来,我们使用requests.get()
方法发送带有自定义User-Agent的请求,并将响应存储在response
变量中。最后,我们检查响应的状态码,如果状态码为200(表示请求成功),则使用BeautifulSoup解析HTML内容。