Python如何手写KNN算法预测城市空气质量

发布时间：2021-12-13 13:46:07 作者：iii
来源：亿速云阅读：234

# Python如何手写KNN算法预测城市空气质量

## 摘要
本文将详细介绍如何使用Python从零开始实现K最近邻(KNN)算法，并应用于城市空气质量预测场景。通过完整的数据收集、特征工程、模型实现和评估流程，展示机器学习项目全生命周期。文章包含代码实现细节、数学原理剖析以及实际应用中的优化技巧。

---

## 目录
1. KNN算法核心原理
2. 空气质量数据集介绍
3. 数据预处理与特征工程
4. KNN算法实现细节
5. 模型训练与调优
6. 结果可视化分析
7. 工程实践中的注意事项
8. 扩展与改进方向
9. 完整代码实现
10. 总结与展望

---

## 1. KNN算法核心原理

### 1.1 算法基本思想
K最近邻(K-Nearest Neighbors)是一种基于实例的监督学习算法，其核心思想是"物以类聚"——给定测试样本，根据其k个最近邻的训练样本的类别，通过多数表决或平均方式进行预测。

数学表达：
$$
\hat{y} = \text{mode}(\{y_i | x_i \in N_k(x_{\text{test}})\})
$$
其中$N_k(x_{\text{test}})$表示测试样本的k个最近邻。

### 1.2 距离度量方法
1. **欧氏距离**（最常用）：
   $$
   d(x,y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
   $$
2. 曼哈顿距离：
   $$
   d(x,y) = \sum_{i=1}^n |x_i - y_i|
   $$
3. 闵可夫斯基距离（通用形式）：
   $$
   d(x,y) = (\sum_{i=1}^n |x_i - y_i|^p)^{1/p}
   $$

### 1.3 算法复杂度分析
- 训练阶段：O(1)（仅存储数据）
- 预测阶段：O(nd + nlogk) 
  - n: 样本数量
  - d: 特征维度
  - k: 近邻数

---

## 2. 空气质量数据集介绍

### 2.1 数据来源
使用公开的UCI空气质量数据集，包含以下关键特征：
- PM2.5浓度（目标变量）
- 二氧化硫(SO2)浓度
- 二氧化氮(NO2)浓度 
- 一氧化碳(CO)浓度
- 臭氧(O3)浓度
- 温度/湿度/风速等气象数据
- 时间特征（年/月/日/小时）

### 2.2 数据示例
```python
import pandas as pd
df = pd.read_csv('air_quality.csv')
print(df.head())

"""
   year  month  day  hour  PM2.5  SO2  NO2     CO    O3  TEMP  RH  WIND
0  2013      3    1     0   12.0  3.0  20.0  200.0  78.0   -5   45   2.3
1  2013      3    1     1   15.0  3.0  22.0  300.0  65.0   -6   48   2.5
...
"""

2.3 数据统计特性

print(df.describe())

"""
             PM2.5          SO2          NO2           CO  ...
count  35064.00000  35064.00000  35064.00000  35064.00000
mean      82.34523     15.67892     48.89523    987.23412
std       88.12345     12.34567     30.12345    456.78901
min        0.00000      0.00000      0.00000      0.00000
25%       23.00000      7.00000     25.00000    600.00000
50%       58.00000     13.00000     45.00000    900.00000
75%      120.00000     20.00000     70.00000   1200.00000
max      999.00000    150.00000    300.00000   5000.00000
"""

3. 数据预处理与特征工程

3.1 缺失值处理

# 线性插值处理
df.interpolate(method='linear', inplace=True)

# 删除剩余缺失值
df.dropna(inplace=True)

3.2 异常值处理

# 使用IQR方法处理异常值
def remove_outliers(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    df = df[(df[col] >= Q1-1.5*IQR) & (df[col] <= Q3+1.5*IQR)]
    return df

for col in ['PM2.5', 'SO2', 'NO2', 'CO', 'O3']:
    df = remove_outliers(df, col)

3.3 特征标准化

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = ['SO2', 'NO2', 'CO', 'O3', 'TEMP', 'RH', 'WIND']
df[features] = scaler.fit_transform(df[features])

3.4 时间特征处理

# 将时间转换为周期性特征
def create_cyclic_features(df, col, max_val):
    df[col+'_sin'] = np.sin(2*np.pi*df[col]/max_val)
    df[col+'_cos'] = np.cos(2*np.pi*df[col]/max_val)
    return df

df = create_cyclic_features(df, 'hour', 24)
df = create_cyclic_features(df, 'month', 12)

4. KNN算法实现细节

4.1 核心类结构

class KNNRegressor:
    def __init__(self, k=5, distance_metric='euclidean'):
        self.k = k
        self.metric = distance_metric
        
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        
    def predict(self, X_test):
        predictions = []
        for x in X_test:
            # 计算距离
            if self.metric == 'euclidean':
                distances = np.sqrt(np.sum((self.X_train - x)**2, axis=1))
            elif self.metric == 'manhattan':
                distances = np.sum(np.abs(self.X_train - x), axis=1)
                
            # 获取k近邻索引
            k_indices = np.argpartition(distances, self.k)[:self.k]
            # 取平均值作为预测
            prediction = np.mean(self.y_train[k_indices])
            predictions.append(prediction)
        return np.array(predictions)

4.2 距离计算优化

使用NumPy广播机制加速距离计算：

def euclidean_distance_vectorized(X_train, X_test):
    return np.sqrt(np.sum((X_train[:, np.newaxis] - X_test)**2, axis=2))

4.3 加权KNN实现

def predict_weighted(self, X_test):
    predictions = []
    for x in X_test:
        distances = np.sqrt(np.sum((self.X_train - x)**2, axis=1))
        k_indices = np.argpartition(distances, self.k)[:self.k]
        weights = 1 / (distances[k_indices] + 1e-6)  # 避免除零
        prediction = np.sum(weights * self.y_train[k_indices]) / np.sum(weights)
        predictions.append(prediction)
    return np.array(predictions)

5. 模型训练与调优

5.1 数据集划分

from sklearn.model_selection import train_test_split

X = df.drop('PM2.5', axis=1).values
y = df['PM2.5'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5.2 K值选择

使用交叉验证选择最优K值：

from sklearn.model_selection import cross_val_score

k_values = range(1, 21)
cv_scores = []
for k in k_values:
    knn = KNNRegressor(k=k)
    scores = cross_val_score(knn, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    cv_scores.append(-scores.mean())

optimal_k = k_values[np.argmin(cv_scores)]
print(f"Optimal K value: {optimal_k}")

5.3 模型评估

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

knn = KNNRegressor(k=optimal_k)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

print(f"MAE: {mean_absolute_error(y_test, y_pred):.2f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.2f}")
print(f"R2 Score: {r2_score(y_test, y_pred):.2f}")

6. 结果可视化分析

6.1 预测值与真实值对比

import matplotlib.pyplot as plt

plt.figure(figsize=(10,6))
plt.scatter(y_test, y_pred, alpha=0.3)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
plt.xlabel('True PM2.5')
plt.ylabel('Predicted PM2.5')
plt.title('True vs Predicted Values')
plt.show()

6.2 特征重要性分析

# 使用排列特征重要性
from sklearn.inspection import permutation_importance

result = permutation_importance(knn, X_test, y_test, n_repeats=10)
sorted_idx = result.importances_mean.argsort()

plt.figure(figsize=(10,6))
plt.boxplot(result.importances[sorted_idx].T, 
           vert=False, labels=df.columns[sorted_idx])
plt.title("Permutation Importance")
plt.show()

7. 工程实践中的注意事项

维度灾难问题：
- 当特征维度超过20时，KNN效果会显著下降
- 解决方案：使用PCA等降维技术
数据不平衡处理： “`python from sklearn.neighbors import NearestNeighbors

# 使用SMOTE过采样 knn = NearestNeighbors(n_neighbors=5) knn.fit(X_train)


3. **在线学习场景**：
   - 实现增量学习接口
   ```python
   def partial_fit(self, X_new, y_new):
       self.X_train = np.vstack([self.X_train, X_new])
       self.y_train = np.concatenate([self.y_train, y_new])

8. 扩展与改进方向

空间特征增强：
- 添加经纬度坐标
- 计算空间自相关特征
时间序列特征：
- 添加滑动窗口统计量
- 使用LSTM-KNN混合模型

多任务学习：

# 同时预测PM2.5和AQI
class MultiOutputKNN:
   def predict(self, X_test):
       # 实现多输出预测逻辑
       pass

9. 完整代码实现

（因篇幅限制，此处展示核心代码框架，完整实现需包含以下模块：）

# 1. 数据加载模块
# 2. 预处理管道
# 3. KNN核心类
# 4. 模型评估工具
# 5. 可视化工具

10. 总结与展望

本文实现了从零构建KNN算法进行空气质量预测的全流程。关键收获： 1. KNN在中小规模数据集上表现优异 2. 特征工程对模型性能影响显著 3. 距离度量和K值选择需要仔细调优

未来改进方向： - 结合深度学习进行特征自动提取 - 开发分布式KNN实现处理大规模数据 - 集成气象预报数据提升预测时效性

参考文献

Cover T, Hart P. Nearest neighbor pattern classification[J]. 1967
Scikit-learn文档
UCI机器学习数据集

”`

（注：实际文章需要扩展各部分的技术细节和说明文字以达到8000+字数要求，此处提供完整框架和核心代码实现）