延边大学学报(自然科学版)

2021, v.47;No.142(02) 175-179

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

基于相对熵的KNN文本分类方法的研究
Research on text classification of K-nearest neighbor algorithm based on relative entropy

崔东虎;赵亚慧;崔荣一;

摘要(Abstract):

为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典;然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵);最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下还明显优于RNN算法.

关键词(KeyWords): 文本分类;KNN算法;相对熵;欧氏距离

Abstract:

Keywords:

基金项目(Foundation): 国家语委科研项目(YB135-76);; 延边大学外国语言文学一流学科建设项目(18YLPY13)

作者(Author): 崔东虎;赵亚慧;崔荣一;

Email:

DOI: 10.16379/j.cnki.issn.1004-4353.2021.02.016

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享