延边大学学报(自然科学版)

2020, v.46;No.138(02) 140-144

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

基于编辑距离的词序敏感相似度度量方法
A word order sensitive similarity measure based on edit distance

张雷;崔荣一;

摘要(Abstract):

为改善余弦相似度不能反映词袋模型中词项间顺序差异的缺点,提出了一种基于编辑距离的文档相似度度量方法.首先分析了基于tf-idf的词袋模型和余弦相似度计算方法所存在的问题;其次利用Jaccard系数和编辑距离描述两个字符串的公共子串中词语之间的顺序差异,并提出了一种词序敏感相似度计算方法;最后利用实验数据对算法的有效性进行了验证,结果显示本文方法在Top1、Top3上的F1指标比原始的余弦相似度方法分别提高了0.082 5、 0.112 6,表明本文方法能够有效地提升信息检索系统的性能,具有很好的应用价值.

关键词(KeyWords): 文本相似度;词袋模型;编辑距离;词序

Abstract:

Keywords:

基金项目(Foundation):

作者(Author): 张雷;崔荣一;

Email:

DOI: 10.16379/j.cnki.issn.1004-4353.2020.02.008

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享