python

c语言爬虫和python爬虫用法

小樊
87
2024-12-05 14:24:47
栏目: 编程语言

C语言和Python是两种不同的编程语言,它们在爬虫方面的用法也有所不同

  1. C语言爬虫:

C语言是一种静态类型、编译型的编程语言。在C语言中,我们可以使用libcurl库来实现HTTP请求,使用htmlcxx库来解析HTML文档。以下是一个简单的C语言爬虫示例:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <curl/curl.h>
#include <htmlcxx/html/ParserDom.h>

static size_t WriteCallback(void *contents, size_t size, size_t nmemb, void *userp)
{
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}

int main()
{
    CURL *curl;
    CURLcode res;
    std::string url = "https://example.com";
    std::string html;

    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();
    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, url.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html);
        res = curl_easy_perform(curl);
        if(res != CURLE_OK)
            fprintf(stderr, "curl_easy_perform() failed: %s\n", curl_easy_strerror(res));
        curl_easy_cleanup(curl);
    }
    curl_global_cleanup();

    htmlcxx::html::ParserDom parser;
    html::Node *root = parser.parseTree(html);
    for (auto it = root->childBegin(); it != root->childEnd(); ++it) {
        if (it->tagName() == "a") {
            auto attr = it->getAttribute("href");
            printf("Link: %s\n", attr.c_str());
        }
    }

    return 0;
}
  1. Python爬虫:

Python是一种动态类型、解释型的编程语言。Python有丰富的库支持爬虫开发,如requests库用于发送HTTP请求,BeautifulSoup库用于解析HTML文档。以下是一个简单的Python爬虫示例:

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, "html.parser")
for link in soup.find_all("a"):
    href = link.get("href")
    print("Link:", href)

总结:

根据你的需求和编程经验,可以选择合适的语言进行爬虫开发。

0
看了该问题的人还看了