如何利用java实现获取一个文件的编码

发布时间：2020-11-09 15:34:10 作者：Leah
来源：亿速云阅读：283

如何利用java实现获取一个文件的编码？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

maven引入获取编码的jar

 <dependency>
  <groupId>com.ibm.icu</groupId>
  <artifactId>icu4j</artifactId>
  <version>67.1</version>
 </dependency>

获取文件编码

package com.lovnx.note.util;
import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
 
import java.io.IOException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
 
/**
 * @author @256g的胃
 * @ClassName HtmlParse
 * @Description
 * @Date 15:32 2020/7/9
 **/
public class HtmlParse {
 
 public static String getEncode(String filePath) throws IOException {
 
 Path path = Paths.get(filePath);
 byte[] data = Files.readAllBytes(path);
 
 CharsetDetector detector = new CharsetDetector();
 detector.setText(data);
 CharsetMatch match = detector.detect();
 String encoding = match.getName();
 System.out.println("The Content in " + match.getName());
 return encoding;
 }
 public static void main(String[] args) throws Exception {
 System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));
 }
}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式，然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse("读取的文本字符串，此处应该是带html标签的");
String text = doc.text();

jsoup也支持直接指定文件的形式去获取纯文本

参考 https://jsoup.org/

补充知识：java 解析html/读取html内容

jsoup

String 转化

1、Document doc = Jsoup.parse(html);

例如：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
 Document doc = Jsoup.parse(html);
 System.out.println(doc.text()); ;

常用api

2、获取节点文本：Document.text();

关于如何利用java实现获取一个文件的编码问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注亿速云行业资讯频道了解更多相关知识。

如何利用java实现获取一个文件的编码

相关阅读