python

python playwright爬虫如何实现

小樊
105
2024-12-11 16:07:25
栏目: 编程语言

Python Playwright 是一个用于自动化浏览器操作的库,它支持多种浏览器(如 Chrome、Firefox 和 Safari)。要使用 Playwright 进行爬虫,你需要先安装 Playwright 库,然后编写代码来控制浏览器,访问网页,解析页面内容并提取所需信息。以下是一个简单的示例,展示了如何使用 Playwright 进行爬虫:

  1. 安装 Playwright 库:
pip install playwright
  1. 编写爬虫代码:
from playwright.sync_api import sync_playwright

def run(playwright, browser_type):
    # 启动浏览器
    browser = playwright.chromium.launch(browser_type=browser_type)
    context = browser.new_context()

    # 访问网页
    page = context.new_page()
    page.goto("https://example.com")

    # 获取页面标题
    title = page.title()
    print(f"Page title: {title}")

    # 提取页面内容
    content = page.content()
    print(f"Page content: {content}")

    # 关闭浏览器
    browser.close()

if __name__ == "__main__":
    with sync_playwright() as playwright:
        run(playwright, browser_type="chromium")

这个示例中,我们首先导入了 sync_playwright,然后定义了一个名为 run 的函数。这个函数接受一个 Playwright 实例和一个浏览器类型作为参数。在函数内部,我们启动浏览器,创建一个新的上下文,然后访问指定的网页。接下来,我们获取页面标题和内容,并将它们打印出来。最后,我们关闭浏览器。

要运行这个示例,请将代码保存到一个名为 爬虫示例.py 的文件中,然后在命令行中运行以下命令:

python 爬虫示例.py

这将会启动 Chromium 浏览器,访问 https://example.com 页面,并打印出页面标题和内容。你可以根据需要修改代码,以提取你感兴趣的信息。要使用其他浏览器,只需将 browser_type 参数更改为相应的浏览器类型即可。

0
看了该问题的人还看了