java怎么爬取动态网页 - 问答

要爬取动态网页，你需要使用一个支持JavaScript渲染的库。在Java中，常用的库有HtmlUnit、Selenium和Jsoup。这里以HtmlUnit为例，介绍如何爬取动态网页。

首先，确保你已经安装了Java环境，并使用Maven或Gradle将HtmlUnit添加到项目的依赖中。以下是Maven和Gradle的依赖配置：

Maven:

<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.56.0</version>
</dependency>

Gradle:

implementation 'net.sourceforge.htmlunit:htmlunit:2.56.0'

编写一个Java程序，使用HtmlUnit加载网页并获取渲染后的HTML内容：

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

public class DynamicWebScraper {

    public static void main(String[] args) throws IOException {
        // 创建WebClient对象
        WebClient webClient = new WebClient();

        // 启用JavaScript支持
        webClient.getOptions().setJavaScriptEnabled(true);

        // 设置超时时间（可选）
        webClient.getOptions().setJavaScriptTimeout(10000);

        // 获取网页
        HtmlPage page = webClient.getPage("https://example.com/dynamic-page");

        // 等待页面加载完成（可选）
        webClient.waitForBackgroundJavaScript(10000);

        // 获取渲染后的HTML内容
        String htmlContent = page.asXml();

        // 关闭WebClient
        webClient.close();

        // 将HTML内容写入文件
        try (BufferedWriter writer = new BufferedWriter(new FileWriter("output.html"))) {
            writer.write(htmlContent);
        }

        System.out.println("动态网页已成功抓取并保存到output.html文件中");
    }
}

这个示例将会访问指定的URL（请替换为实际的动态网页URL），执行JavaScript代码，等待页面加载完成，然后将渲染后的HTML内容保存到名为"output.html"的文件中。

注意：HtmlUnit可能无法完美地模拟所有浏览器的行为，因此在某些情况下，你可能需要使用Selenium。

0 赞

0 踩