怎么用python实现KNN分类器

发布时间：2021-12-27 13:57:58 作者：iii
来源：亿速云阅读：267

怎么用Python实现KNN分类器

引言

K近邻（K-Nearest Neighbors, KNN）算法是一种简单而有效的分类和回归方法。它属于监督学习算法，广泛应用于模式识别、数据挖掘和机器学习领域。KNN算法的核心思想是通过计算待分类样本与训练集中所有样本的距离，找到距离最近的K个样本，然后根据这K个样本的类别来决定待分类样本的类别。

本文将详细介绍如何使用Python实现KNN分类器，并探讨KNN算法的数学基础、优化方法以及在实际中的应用。

KNN算法简介

2.1 KNN的基本概念

KNN算法是一种基于实例的学习方法，它不需要显式的训练过程，而是通过存储训练数据集来进行预测。KNN算法的基本假设是相似的样本在特征空间中距离较近，因此可以通过计算待分类样本与训练集中样本的距离来进行分类。

2.2 KNN的工作原理

KNN算法的工作原理可以概括为以下几个步骤：

计算距离：计算待分类样本与训练集中每个样本的距离。
选择K个最近邻：根据距离选择K个最近的样本。
投票决策：根据K个最近邻的类别进行投票，决定待分类样本的类别。

2.3 KNN的优缺点

优点： - 简单易懂，易于实现。 - 无需训练过程，适合在线学习。 - 对数据分布没有假设，适用于各种类型的数据。

缺点： - 计算复杂度高，尤其是当数据集较大时。 - 对噪声数据敏感，容易受到异常值的影响。 - 需要选择合适的K值，K值的选择对结果影响较大。

KNN算法的数学基础

3.1 距离度量

在KNN算法中，距离度量是一个关键步骤。常用的距离度量方法包括：

欧氏距离（Euclidean Distance）： [ d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} ]
曼哈顿距离（Manhattan Distance）： [ d(x, y) = \sum_{i=1}^{n} |x_i - y_i| ]
闵可夫斯基距离（Minkowski Distance）： [ d(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p} ]
余弦相似度（Cosine Similarity）： [ \text{cosine}(x, y) = \frac{x \cdot y}{|x| |y|} ]

3.2 K值的选择

K值的选择对KNN算法的性能有重要影响。K值过小会导致模型对噪声敏感，容易过拟合；K值过大会导致模型过于简单，容易欠拟合。常用的K值选择方法包括：

交叉验证（Cross-Validation）：通过交叉验证选择最优的K值。
经验法则：通常选择K值为训练样本数的平方根。

Python实现KNN分类器

4.1 数据准备

在实现KNN分类器之前，首先需要准备数据集。我们可以使用Python中的sklearn库提供的数据集，如Iris数据集。

from sklearn.datasets import load_iris
import pandas as pd

# 加载Iris数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据转换为DataFrame
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y
print(df.head())

4.2 数据预处理

在训练模型之前，通常需要对数据进行预处理，包括数据标准化、归一化等。

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

4.3 KNN分类器的实现

接下来，我们可以使用Python实现KNN分类器。首先，我们需要计算待分类样本与训练集中每个样本的距离，然后选择K个最近邻，最后根据投票结果决定待分类样本的类别。

import numpy as np
from collections import Counter

class KNNClassifier:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train

    def predict(self, X_test):
        predictions = [self._predict(x) for x in X_test]
        return np.array(predictions)

    def _predict(self, x):
        # 计算距离
        distances = [np.linalg.norm(x - x_train) for x_train in self.X_train]
        # 获取K个最近邻的索引
        k_indices = np.argsort(distances)[:self.k]
        # 获取K个最近邻的标签
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        # 投票决定类别
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

# 实例化KNN分类器
knn = KNNClassifier(k=3)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

4.4 模型评估

在训练完模型后，我们需要评估模型的性能。常用的评估指标包括准确率、精确率、召回率和F1分数。

from sklearn.metrics import accuracy_score, classification_report

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

# 打印分类报告
print(classification_report(y_test, predictions, target_names=iris.target_names))

KNN的优化与改进

5.1 特征选择

特征选择是提高KNN算法性能的重要手段。通过选择与目标变量相关性较高的特征，可以减少噪声的影响，提高模型的准确性。

from sklearn.feature_selection import SelectKBest, f_classif

# 选择前两个最重要的特征
selector = SelectKBest(f_classif, k=2)
X_new = selector.fit_transform(X, y)

5.2 距离加权

在KNN算法中，距离加权是一种常见的优化方法。通过给距离较近的样本赋予更高的权重，可以提高模型的准确性。

class WeightedKNNClassifier:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train

    def predict(self, X_test):
        predictions = [self._predict(x) for x in X_test]
        return np.array(predictions)

    def _predict(self, x):
        # 计算距离
        distances = [np.linalg.norm(x - x_train) for x_train in self.X_train]
        # 获取K个最近邻的索引
        k_indices = np.argsort(distances)[:self.k]
        # 获取K个最近邻的标签和距离
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        k_nearest_distances = [distances[i] for i in k_indices]
        # 计算权重
        weights = [1 / (d + 1e-5) for d in k_nearest_distances]
        # 加权投票决定类别
        weighted_votes = {}
        for label, weight in zip(k_nearest_labels, weights):
            if label in weighted_votes:
                weighted_votes[label] += weight
            else:
                weighted_votes[label] = weight
        # 返回得票最多的类别
        return max(weighted_votes, key=weighted_votes.get)

# 实例化加权KNN分类器
weighted_knn = WeightedKNNClassifier(k=3)
weighted_knn.fit(X_train, y_train)
weighted_predictions = weighted_knn.predict(X_test)

5.3 降维技术

当数据集的特征维度较高时，KNN算法的计算复杂度会显著增加。通过降维技术，可以减少特征维度，提高算法的效率。

from sklearn.decomposition import PCA

# 使用PCA降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 可视化降维后的数据
import matplotlib.pyplot as plt

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('PCA of Iris Dataset')
plt.show()

KNN在实际中的应用

6.1 图像分类

KNN算法可以用于图像分类任务。通过提取图像的特征向量，可以使用KNN算法对图像进行分类。

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

# 加载MNIST数据集
mnist = fetch_openml('mnist_784')
X = mnist.data
y = mnist.target.astype(int)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用KNN分类器
knn = KNNClassifier(k=3)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

6.2 文本分类

KNN算法也可以用于文本分类任务。通过将文本转换为特征向量，可以使用KNN算法对文本进行分类。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups

# 加载20 Newsgroups数据集
newsgroups = fetch_20newsgroups(subset='all')
X = newsgroups.data
y = newsgroups.target

# 将文本转换为TF-IDF特征向量
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# 使用KNN分类器
knn = KNNClassifier(k=3)
knn.fit(X_train.toarray(), y_train)
predictions = knn.predict(X_test.toarray())

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

6.3 推荐系统

KNN算法可以用于推荐系统中，通过计算用户之间的相似度，推荐相似用户喜欢的物品。

from sklearn.neighbors import NearestNeighbors
import pandas as pd

# 假设我们有一个用户-物品评分矩阵
ratings = pd.DataFrame({
    'user_id': [1, 1, 2, 2, 3, 3],
    'item_id': [1, 2, 1, 3, 2, 3],
    'rating': [5, 3, 4, 2, 5, 1]
})

# 将评分矩阵转换为用户-物品矩阵
user_item_matrix = ratings.pivot(index='user_id', columns='item_id', values='rating').fillna(0)

# 使用KNN算法找到相似用户
knn = NearestNeighbors(n_neighbors=2, metric='cosine')
knn.fit(user_item_matrix)

# 找到与用户1最相似的用户
distances, indices = knn.kneighbors(user_item_matrix.iloc[0:1, :])
print(f"与用户1最相似的用户: {indices[0][1]}")

总结

KNN算法是一种简单而有效的分类和回归方法，广泛应用于各种机器学习任务中。本文详细介绍了KNN算法的基本原理、数学基础、Python实现方法以及在实际中的应用。通过本文的学习，读者可以掌握如何使用Python实现KNN分类器，并了解如何优化和改进KNN算法以提高其性能。

参考文献

Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21-27.
Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.