C++ Socket库实现网络爬虫功能

发布时间：2024-10-29 10:48:24 作者：小樊
来源：亿速云阅读：208

实现一个基于C++的网络爬虫功能，可以使用C++的Socket库进行网络通信。以下是一个简单的示例，展示了如何使用C++ Socket库实现一个基本的网络爬虫。

首先，确保你已经安装了支持C++11或更高版本的编译器，例如GCC 4.8或更高版本。

接下来，创建一个名为crawler.cpp的文件，并将以下代码粘贴到文件中：

#include <iostream>
#include <string>
#include <vector>
#include <thread>
#include <mutex>
#include <condition_variable>
#include <sys/socket.h>
#include <arpa/inet.h>
#include <unistd.h>
#include <netdb.h>
#include <curl/curl.h>

std::mutex mtx;
std::condition_variable cv;
bool done = false;

size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

void Crawl(const std::string& url) {
    CURL* curl;
    CURLcode res;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();
    if(curl) {
        std::string response;
        curl_easy_setopt(curl, CURLOPT_URL, url.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &response);
        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            std::cerr << "Error: " << curl_easy_strerror(res) << std::endl;
        } else {
            std::unique_lock<std::mutex> lock(mtx);
            cv.wait(lock, []{ return !done; });
            std::cout << "Fetched content from: " << url << std::endl;
            std::cout << response << std::endl;
        }
        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();
}

void WorkerThread() {
    while (true) {
        std::unique_lock<std::mutex> lock(mtx);
        cv.wait(lock, []{ return !urls.empty() || done; });
        if (!urls.empty()) {
            std::string url = urls.front();
            urls.erase(urls.begin());
            lock.unlock();
            Crawl(url);
        } else {
            done = true;
            lock.unlock();
            break;
        }
    }
}

int main() {
    std::vector<std::thread> threads;
    urls = {
        "https://www.example.com",
        "https://www.google.com",
        "https://www.wikipedia.org"
    };

    for (int i = 0; i < std::thread::hardware_concurrency(); ++i) {
        threads.emplace_back(WorkerThread);
    }

    for (auto& t : threads) {
        t.join();
    }

    return 0;
}

在代码中，我们使用了libcurl库来处理HTTP请求。请确保已经安装了libcurl库，并在编译时链接它。例如，使用g++编译时，可以使用以下命令：

g++ crawler.cpp -o crawler -lcurl

编译完成后，运行生成的可执行文件：

./crawler

这个示例中的网络爬虫会从预定义的URL列表中抓取网页内容。你可以根据需要修改代码，以便从其他来源获取URL列表，或者实现更复杂的抓取策略。

C++ Socket库实现网络爬虫功能

相关阅读