Java利用hanlp分析语句相似度过程

发布时间：2021-08-31 20:53:14 作者：chen
来源：亿速云阅读：566

这篇文章主要介绍“Java利用hanlp分析语句相似度过程”，在日常操作中，相信很多人在Java利用hanlp分析语句相似度过程问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Java利用hanlp分析语句相似度过程”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

1、使用HanLP完成分词：

首先，添加HanLP的依赖：（jsoup是为了处理题干中的html标签，去除html标签得到纯文本的题干内容）

分词代码如下，需要处理html标签和标点符号：

private static List<String> getSplitWords(String sentence) {

// 去除掉html标签

sentence = Jsoup.parse(sentence.replace(" ","")).body().text();

// 标点符号会被单独分为一个Term，去除之

return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？ ".contains(s)).collect(Collectors.toList());

}

2、合并分词结果，列出所有的词：

Java利用hanlp分析语句相似度过程

3、统计词频，得到词频构成的向量：

代码如下，其中allWords是上一步中得到的所有的词，sentWords是第一步中对单个句子的分词结果：

Java利用hanlp分析语句相似度过程

4、计算相似度（两个向量的余弦值）：

Java利用hanlp分析语句相似度过程

以上所有方法的完整代码如下，使用SimilarityUtil.getSimilarity(String s1,String s2)即可得到s1和s2的语句相似度：

package com.yuantu.dubbo.provider.questionRepo.utils;

import com.hankcs.hanlp.HanLP;

import com.hankcs.hanlp.dictionary.CustomDictionary;

import org.jsoup.Jsoup;

import java.util.ArrayList;

import java.util.Calendar;

import java.util.Collections;

import java.util.List;

import java.util.stream.Collectors;

public class SimilarityUtil {

static {

CustomDictionary.add("子类");

CustomDictionary.add("父类");

}

private SimilarityUtil() {

}

/**

* 获得两个句子的相似度

* @param sentence1

* @param sentence2

* @return

public static double getSimilarity(String sentence1, String sentence2) {

List<String> sent1Words = getSplitWords(sentence1);

System.out.println(sent1Words);

List<String> sent2Words = getSplitWords(sentence2);

System.out.println(sent2Words);

List<String> allWords = mergeList(sent1Words, sent2Words);

int[] statistic1 = statistic(allWords, sent1Words);

int[] statistic2 = statistic(allWords, sent2Words);

double dividend = 0;

double divisor1 = 0;

double divisor2 = 0;

for (int i = 0; i < statistic1.length; i++) {

dividend += statistic1[i] * statistic2[i];

divisor1 += Math.pow(statistic1[i], 2);

divisor2 += Math.pow(statistic2[i], 2);

}

return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));

}

private static int[] statistic(List<String> allWords, List<String> sentWords) {

int[] result = new int[allWords.size()];

for (int i = 0; i < allWords.size(); i++) {

result[i] = Collections.frequency(sentWords, allWords.get(i));

}

return result;

}

private static List<String> mergeList(List<String> list1, List<String> list2) {

List<String> result = new ArrayList<>();

result.addAll(list1);

result.addAll(list2);

return result.stream().distinct().collect(Collectors.toList());

}

private static List<String> getSplitWords(String sentence) {

// 去除掉html标签

sentence = Jsoup.parse(sentence.replace(" ","")).body().text();

// 标点符号会被单独分为一个Term，去除之

}

---------------------

到此，关于“Java利用hanlp分析语句相似度过程”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注亿速云网站，小编会继续努力为大家带来更多实用的文章！

Java利用hanlp分析语句相似度过程

相关阅读