KNN

程序员文章站 2023-02-02 15:34:24

KNN最近邻 (k-Nearest Neighbors， KNN) 算法是一种分类算法， 1968年由 Cover和 Hart 提出，应用场景有字符识别、文本分类、图像识别等领域。算法思想一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。算法流程首先计算样本中所有点到目标点的距离，然后找出距离最近的K（K可以由训练得到）个点。这K个中，找出大多数点属于的类别，那么判断这个点可能也是这个类别的。距离的判断常用的距离有欧式距离和曼哈顿距离...

KNN

最近邻 (k-Nearest Neighbors， KNN) 算法是一种分类算法， 1968年由 Cover和 Hart 提出，应用场景有字符识别、文本分类、图像识别等领域。

算法思想

一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。

算法流程

首先计算样本中所有点到目标点的距离，然后找出距离最近的K（K可以由训练得到）个点。这K个中，找出大多数点属于的类别，那么判断这个点可能也是这个类别的。

距离的判断

常用的距离有欧式距离和曼哈顿距离。欧式距离就是我们最常用的两点间距离。
KNN

曼哈顿距离则是坐标相减：

KNN

K值的选择

一、近似误差与估计误差：
近似误差：对现有训练集的训练误差，关注训练集，如果近似误差过小可能会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。
估计误差：可以理解为对测试集的测试误差，关注测试集，估计误差小说明对未知数据的预测能力好，模型本身最接近最佳模型。
二、K值确定标准：
K值过小：k值小，特征空间被划分为更多子空间（模型的项越多），整体模型变复杂，容易发生过拟合，k值越小，选择的范围就比较小，训练的时候命中率较高，近似误差小，而用test的时候就容易出错，估计误差大，容易过拟合。
K值=N：无论输入实例是什么，都将简单的预测他属于训练实例中最多的类。

实例

鸢尾花的分类

import numpy as np
import csv
import pandas as pd
import operator
#本地数据集操作
file = (csv.reader(open(r'C:\Users\Li\Desktop\lris.csv','r')))
data  = []
for line in file:
    data.append(line)
data = np.array(data)
sl_tr = data[1:120][:,0]
sw_tr = data[1:120][:,1]
pl_tr = data[1:120][:,2]
pw_tr = data[1:120][:,3]
kind_tr = data[1:120][:,4] 
sl_te = data[120:][:,0]
sw_te = data[120:][:,1]
pl_te = data[120:][:,2]
pw_te = data[120:][:,3]
kind_te = data[120:][:,4]
k = 10

def cmp(x):
    return x[0]
def cal(x,y): #计算距离
    res = (float(sl_te[x])-float(sl_tr[y]))**2 +(float(sw_te[x])-float(sw_tr[y]))**2 + (float(pl_te[x])-float(pl_tr[y]))**2 + (float(pw_te[x])-float(pw_tr[y]))**2
    return res
def knn():
    sum = 0
    ls = []
    for i in range (sl_te.size):
        di = {"Iris-setosa":0,"Iris-versicolor":0,"Iris-virginica":0}
        for j in range(sl_tr.size):
            ls.append((cal(i,j),kind_tr[j]))    #将距离和类别信息加入列表
        ls = sorted(ls,key = cmp)
        
        for m in range(k):
            di[ls[m][1]]+=1 #属于该类别的数量加1
        res = max(di, key=di.get)
        if res == kind_te[i] :
            sum += 1
    return sum
            
sum = knn()

print("训练数据个数为",sl_tr.size,"个","测试数据个数为",sl_te.size,"个","K值为",k,"预测准确率为",sum/sl_te.size);

KNN

本文地址：https://blog.csdn.net/qq_43467171/article/details/107451954

KNN

KNN

算法思想

算法流程

距离的判断

K值的选择

实例

鸢尾花的分类

以Python代码实例展示kNN算法的实际运用

python使用KNN算法识别手写数字

手动实现最邻近算法 KNN算法（分类回归）

基于python实现KNN分类算法

Python机器学习之scikit-learn库中KNN算法的封装与使用方法

kNN算法python实现和简单数字识别的方法

Python实现的knn算法示例

python机器学习之KNN分类算法

kNN分类算法实例1：用kNN改进约会网站的配对效果

机器学习实战（笔记）------------KNN算法

KNN

KNN

算法思想

算法流程

距离的判断

K值的选择

实例

鸢尾花的分类

以Python代码实例展示kNN算法的实际运用

python使用KNN算法识别手写数字

手动实现最邻近算法 KNN算法（分类 回归）

基于python实现KNN分类算法

Python机器学习之scikit-learn库中KNN算法的封装与使用方法

kNN算法python实现和简单数字识别的方法

Python实现的knn算法示例

python机器学习之KNN分类算法

kNN分类算法实例1：用kNN改进约会网站的配对效果

机器学习实战（笔记）------------KNN算法

手动实现最邻近算法 KNN算法（分类回归）