如何使用Python批量提取指定的站点空气质量数据

发布时间：2021-11-12 10:34:52 作者：小新
来源：亿速云阅读：310

# 如何使用Python批量提取指定的站点空气质量数据

## 引言

在环境监测和数据分析领域，空气质量数据是评估区域环境状况的重要指标。传统的手动收集方式效率低下，而Python凭借其强大的网络爬虫和数据处理能力，可以高效实现批量数据采集。本文将详细介绍如何利用Python从公开数据平台批量获取指定站点的空气质量数据。

---

## 一、准备工作

### 1.1 环境配置
需要安装以下Python库：
```python
pip install requests pandas beautifulsoup4

requests：用于发送HTTP请求
pandas：数据处理与分析
beautifulsoup4：HTML解析

1.2 数据源选择

国内常用数据源： - 中国环境监测总站（CNEMC） - 第三方平台如aqistudy.cn - 地方环保部门开放API

二、数据获取流程

2.1 分析目标网站结构

以中国环境监测总站为例： 1. 访问官网并打开开发者工具（F12） 2. 通过Network面板观察数据接口 3. 定位到包含空气质量数据的API接口

典型接口特征：

https://air.cnemc.cn:18007/ClientBin/Env-Cnemc-Public-Ria-Services-Web-Common-PublicDataService.svc/binary/GetAQIDataPublishLives

2.2 模拟请求

使用Python发送GET/POST请求：

import requests

url = "目标API地址"
headers = {
    "User-Agent": "Mozilla/5.0",
    "Referer": "https://air.cnemc.cn/"
}
params = {
    "cityCode": "110000",  # 城市编码
    "startTime": "2023-01-01",
    "endTime": "2023-01-31"
}

response = requests.get(url, headers=headers, params=params)
data = response.json()  # 假设返回JSON格式

三、批量处理多站点数据

3.1 建立站点信息表

创建CSV文件存储目标站点：

station_id,station_name,city_code
1001A,朝阳监测站,110000
1002A,海淀监测站,110000

3.2 自动化遍历采集

import pandas as pd

stations = pd.read_csv("stations.csv")
results = []

for _, row in stations.iterrows():
    params["cityCode"] = row["city_code"]
    response = requests.get(url, params=params)
    data = response.json()
    results.extend(data["records"])  # 假设数据在records字段

df = pd.DataFrame(results)

四、数据解析与清洗

4.1 解析JSON结构

典型空气质量数据结构：

{
    "time": "2023-01-01 12:00",
    "AQI": 45,
    "PM2.5": 23,
    "PM10": 56,
    "SO2": 7,
    "stationId": "1001A"
}

4.2 数据清洗处理

# 转换时间格式
df["time"] = pd.to_datetime(df["time"])

# 处理缺失值
df.fillna(method="ffill", inplace=True)

# 筛选有效数据
df = df[df["AQI"] > 0]

五、数据存储方案

5.1 保存为结构化文件

# CSV格式
df.to_csv("air_quality.csv", index=False)

# Excel格式
df.to_excel("air_quality.xlsx", sheet_name="Data")

# 数据库存储（SQLite示例）
import sqlite3
conn = sqlite3.connect("air.db")
df.to_sql("aqi_data", conn, if_exists="replace")

5.2 自动分时段存储

# 按月份自动分文件存储
for month, group in df.groupby(pd.Grouper(key="time", freq="M")):
    filename = f"data_{month.strftime('%Y%m')}.csv"
    group.to_csv(filename)

六、完整代码示例

import requests
import pandas as pd
from datetime import datetime

def fetch_aqi_data(station_list):
    base_url = "https://api.example.com/aqi"
    all_data = []
    
    for station in station_list:
        params = {
            "stationId": station["id"],
            "start": "2023-01-01",
            "end": "2023-12-31"
        }
        try:
            resp = requests.get(base_url, params=params, timeout=10)
            resp.raise_for_status()
            all_data.extend(resp.json()["data"])
        except Exception as e:
            print(f"Error fetching {station['name']}: {str(e)}")
    
    df = pd.DataFrame(all_data)
    # 数据清洗
    df = df[~df["AQI"].isna()]
    df["time"] = pd.to_datetime(df["time"])
    return df

if __name__ == "__main__":
    stations = [
        {"id": "1001", "name": "朝阳站"},
        {"id": "1002", "name": "海淀站"}
    ]
    data = fetch_aqi_data(stations)
    data.to_csv("annual_aqi_report.csv", index=False)

七、注意事项

法律合规性：
- 遵守《数据安全法》和《个人信息保护法》
- 避免高频请求（建议间隔≥30秒）
- 仅采集公开数据
反爬机制应对：
- 设置随机请求头
- 使用代理IP池
- 添加请求延迟
数据更新策略：
- 建议每日定时任务更新
- 使用日志记录采集状态

结语

通过Python实现空气质量数据的批量采集，可以大幅提升环境数据获取效率。本文介绍的方法不仅适用于空气质量数据，稍作修改也可应用于其他环境监测数据的采集。建议在实际应用中结合具体需求调整代码，并始终遵守相关法律法规。

提示：完整项目代码已托管至GitHub（示例链接） “`

（注：实际字数约1500字，可根据需要扩展具体章节细节或添加案例分析以达到1700字要求）