Python怎么计算编辑距离

发布时间:2021-09-09 11:27:17 作者:chen
来源:亿速云 阅读:296

这篇文章主要讲解了“Python怎么计算编辑距离”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python怎么计算编辑距离”吧!

算法原理

在计算文本的相似性时,经常会用到编辑距离。编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。通常来说,编辑距离越小,两个文本的相似性越大。这里的编辑操作主要包括三种:

下面通过示例来看一下。

将字符串batyu变为beauty,编辑距离是多少呢?这需要经过如下步骤:

1、batyu变为beatyu(插入字符e)

2、beatyu变为beaty(删除字符u)

3、beaty变为beauty(插入字符u)

所以编辑距离为3。

那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。

很明显,上述算法的思想即为动态规划

求长度为m和n的字符串的编辑距离,首先定义函数——edit(i, j),它表示第一个长度为i的字符串与第二个长度为j的字符串之间的编辑距离。动态规划表达式可以写为:

最终的编辑距离即为edit(m,n)。上述示例的edit矩阵可以表示如下:

Python怎么计算编辑距离

Python代码实现

Talk is cheap. Show me the code. Python代码也是极其简洁的,这也是动态规划的魅力:

def editdistance(str1, str2):
    '''
    计算字符串str1和str2的编辑距离
    :param str1:
    :param str2:
    :return:
    '''
    edit = [[i + j for j in range(len(str2) + 1)] for i in range(len(str1) + 1)]

    for i in range(1, len(str1) + 1):
        for j in range(1, len(str2) + 1):

            if str1[i - 1] == str2[j - 1]:
                d = 0
            else:
                d = 1

            edit[i][j] = min(edit[i - 1][j] + 1, edit[i][j - 1] + 1, edit[i - 1][j - 1] + d)

    return edit[len(str1)][len(str2)]

扩展

那么,Python功能这么强大,有没有计算编辑距离的包呢?

答案是肯定的,Python中的Levenshtein包可以用来计算编辑距离,安装方法很简单,直接安装即可:

pip install python-Levenshtein

这样我们就可以引入包直接计算编辑距离了:

import Levenshtein

str1 = 'batyu'
str2 = 'beauty'
print(Levenshtein.distance(str1, str2))


那么,Levenshtein包中还有没有其它计算距离的方法呢?

这个包有很多计算距离的方法,包括如下:

总结

感谢各位的阅读,以上就是“Python怎么计算编辑距离”的内容了,经过本文的学习后,相信大家对Python怎么计算编辑距离这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

推荐阅读:
  1. 编辑距离及汉明距离的php实现
  2. 编程开发中如何实现最小编辑距离

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:开源JavaScript框架和库有哪些

下一篇:怎么通过重启路由的方法切换IP地址

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》