python爬虫多线程需要哪些库支持 - 问答

在Python中，进行多线程爬虫需要使用以下库：

threading：Python内置库，用于创建和管理线程。
requests：用于发送HTTP请求，获取网页内容。安装：pip install requests
BeautifulSoup 或 lxml：用于解析HTML文档，提取所需信息。安装：pip install beautifulsoup4 或 pip install lxml
queue：Python内置库，用于线程安全的队列操作，可以在多线程环境下存储和传递数据。

以下是一个简单的多线程爬虫示例：

import threading
import requests
from bs4 import BeautifulSoup
from queue import Queue

# 定义爬虫线程数
num_threads = 5

# 定义待爬取的URL队列
url_queue = Queue()

# 定义已爬取的URL集合，避免重复爬取
visited_urls = set()

# 爬虫线程函数
def crawl(thread_id):
    while not url_queue.empty():
        url = url_queue.get()
        if url not in visited_urls:
            try:
                response = requests.get(url)
                response.raise_for_status()
                soup = BeautifulSoup(response.text, 'lxml')
                # 提取页面信息，这里仅打印标题
                print(f"Thread {thread_id}: {soup.title.string}")
                visited_urls.add(url)
            except Exception as e:
                print(f"Thread {thread_id} error: {e}")
        url_queue.task_done()

# 初始化线程
for i in range(num_threads):
    t = threading.Thread(target=crawl, args=(i,))
    t.start()

# 向队列中添加待爬取的URL
url_queue.put("https://www.example.com")

# 等待队列中的URL全部爬取完成
url_queue.join()

这个示例中，我们使用threading库创建5个线程，每个线程负责爬取一个URL。我们使用requests库发送HTTP请求，获取网页内容，然后使用BeautifulSoup解析HTML文档，提取所需信息。为了避免重复爬取，我们使用一个集合visited_urls来存储已爬取的URL。

0 赞

0 踩