怎样用Java正则提取HTML标签

发布时间：2025-02-28 12:01:36 作者：小樊
来源：亿速云阅读：114

在Java中，你可以使用java.util.regex包中的Pattern和Matcher类来提取HTML标签。下面是一个简单的示例，展示了如何使用正则表达式提取HTML标签：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlTagExtractor {

    public static void main(String[] args) {
        String html = "<html><head><title>Example Page</title></head><body><p>Hello, World!</p></body></html>";
        extractHtmlTags(html);
    }

    public static void extractHtmlTags(String html) {
        // 正则表达式匹配HTML标签
        String regex = "<[^>]*>";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(html);

        // 查找并打印所有匹配的HTML标签
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }
}

这个示例中的extractHtmlTags方法接受一个包含HTML内容的字符串，并使用正则表达式<[^>]*>来匹配所有的HTML标签。然后，它使用Matcher对象的find()方法来查找所有匹配的标签，并使用group()方法将它们打印出来。

请注意，这个简单的示例可能无法处理所有HTML文档的复杂情况，因为HTML是一种上下文敏感的语言，而正则表达式不是。对于更复杂的HTML解析任务，建议使用专门的HTML解析库，如Jsoup。

怎样用Java正则提取HTML标签

相关阅读