Python Playwright 是一个用于自动化浏览器操作的库,它支持多种浏览器(如 Chrome、Firefox 和 Safari)。要使用 Playwright 进行爬虫,你需要先安装 Playwright 库,然后编写代码来控制浏览器,访问网页,解析页面内容并提取所需信息。以下是一个简单的示例,展示了如何使用 Playwright 进行爬虫:
pip install playwright
from playwright.sync_api import sync_playwright
def run(playwright, browser_type):
# 启动浏览器
browser = playwright.chromium.launch(browser_type=browser_type)
context = browser.new_context()
# 访问网页
page = context.new_page()
page.goto("https://example.com")
# 获取页面标题
title = page.title()
print(f"Page title: {title}")
# 提取页面内容
content = page.content()
print(f"Page content: {content}")
# 关闭浏览器
browser.close()
if __name__ == "__main__":
with sync_playwright() as playwright:
run(playwright, browser_type="chromium")
这个示例中,我们首先导入了 sync_playwright
,然后定义了一个名为 run
的函数。这个函数接受一个 Playwright 实例和一个浏览器类型作为参数。在函数内部,我们启动浏览器,创建一个新的上下文,然后访问指定的网页。接下来,我们获取页面标题和内容,并将它们打印出来。最后,我们关闭浏览器。
要运行这个示例,请将代码保存到一个名为 爬虫示例.py
的文件中,然后在命令行中运行以下命令:
python 爬虫示例.py
这将会启动 Chromium 浏览器,访问 https://example.com
页面,并打印出页面标题和内容。你可以根据需要修改代码,以提取你感兴趣的信息。要使用其他浏览器,只需将 browser_type
参数更改为相应的浏览器类型即可。