python xpath爬虫如何处理重定向 - 问答

在Python中，使用XPath进行网页爬取时，有时会遇到重定向问题。为了处理重定向，你可以使用requests库来自动处理HTTP重定向。以下是一个简单的示例，展示了如何使用requests和lxml库进行XPath爬虫并处理重定向：

首先，确保已经安装了requests和lxml库。如果没有安装，可以使用以下命令安装：

pip install requests lxml

然后，你可以使用以下代码进行XPath爬虫并处理重定向：

import requests
from lxml import html

def get_redirected_url(url):
    response = requests.get(url, allow_redirects=True)
    return response.url

def parse_html(url):
    redirected_url = get_redirected_url(url)
    response = requests.get(redirected_url)
    html_content = response.text
    tree = html.fromstring(html_content)
    return tree

def extract_data(tree, xpath_expression):
    data = tree.xpath(xpath_expression)
    return data

if __name__ == "__main__":
    url = "http://example.com"  # 替换为你要爬取的URL
    xpath_expression = "//div[@class='example-class']"  # 替换为你要提取的数据的XPath表达式

    tree = parse_html(url)
    extracted_data = extract_data(tree, xpath_expression)

    print(extracted_data)

在这个示例中，我们首先定义了一个get_redirected_url函数，该函数使用requests.get()方法获取URL并自动处理重定向。接下来，我们定义了一个parse_html函数，该函数接受一个URL作为参数，获取重定向后的URL，并使用requests.get()方法获取网页内容。然后，我们使用lxml.html.fromstring()函数将HTML内容解析为一个树状结构。最后，我们定义了一个extract_data函数，该函数接受一个树状结构和XPath表达式作为参数，并使用lxml.etree.XPath()方法提取数据。

在主程序中，我们指定要爬取的URL和要提取的数据的XPath表达式，然后调用parse_html()和extract_data()函数来获取提取的数据并打印出来。

0 赞

0 踩