Node爬虫怎样进行URL去重

发布时间：2024-12-14 14:58:47 作者：小樊
来源：亿速云阅读：105

在Node.js中，可以使用以下方法对URL进行去重：

使用Set数据结构：

const axios = require('axios');
const cheerio = require('cheerio');
const urlSet = new Set();

async function crawl(url) {
  if (urlSet.has(url)) {
    return;
  }

  urlSet.add(url);

  try {
    const response = await axios.get(url);
    const $ = cheerio.load(response.data);
    // 在这里解析网页内容，提取URL
    // 示例：提取所有<a>标签的href属性
    $('a').each((index, element) => {
      const link = $(element).attr('href');
      if (link) {
        crawl(link);
      }
    });
  } catch (error) {
    console.error(`Error while crawling ${url}:`, error);
  }
}

const startUrl = 'https://example.com';
crawl(startUrl);

使用第三方库，如unique-url：

首先，安装unique-url库：

npm install unique-url

然后，使用以下代码进行URL去重：

const axios = require('axios');
const cheerio = require('cheerio');
const uniqueUrl = require('unique-url');

async function crawl(url) {
  try {
    const response = await axios.get(url);
    const $ = cheerio.load(response.data);
    // 在这里解析网页内容，提取URL
    // 示例：提取所有<a>标签的href属性
    $('a').each((index, element) => {
      const link = $(element).attr('href');
      if (link) {
        crawl(link);
      }
    });
  } catch (error) {
    console.error(`Error while crawling ${url}:`, error);
  }
}

const startUrl = 'https://example.com';
crawl(startUrl);

// 使用unique-url库去重
const uniqueUrls = Array.from(new Set([...uniqueUrl.parse(startUrl)]));
uniqueUrls.forEach((url) => crawl(url));

这两种方法都可以实现URL去重，你可以根据自己的需求选择合适的方法。

Node爬虫怎样进行URL去重

相关阅读