Python怎么爬取食品商务网蔬菜价格数据

发布时间：2021-10-26 09:27:06 作者：柒染
来源：亿速云阅读：272

# Python怎么爬取食品商务网蔬菜价格数据

网络爬虫是获取公开数据的有效手段，对于农产品从业者、市场分析师或数据爱好者而言，掌握食品商务网（如foodmate、foodqs等）的蔬菜价格数据采集技术具有重要意义。本文将以Python为核心工具，详细介绍从分析网页结构到数据存储的全流程实现方法。

## 一、爬虫前的准备工作

### 1.1 目标网站分析
以典型食品行业网站"食品商务网"(www.21food.cn)为例：
- 价格数据通常存在于"行情中心"或"价格行情"栏目
- 蔬菜分类页面URL结构示例：`/price/list-蔬菜-1.html`
- 数据呈现方式：表格形式或卡片式布局

### 1.2 技术选型
```python
必备工具库：
- requests：网络请求
- BeautifulSoup4/lxml：HTML解析
- pandas：数据清洗存储
- selenium（可选）：处理动态加载
- time：设置爬取间隔

可选组件：
- ProxyPool：代理IP池
- UserAgent：随机请求头

1.3 法律合规要点

检查robots.txt文件（如：www.21food.cn/robots.txt）
控制请求频率（建议≥3秒/次）
不爬取需要登录的敏感数据
仅用于个人研究，禁止商业用途

二、静态页面爬取方案

2.1 基础爬虫实现

import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_vegetable_prices(page=1):
    url = f"http://www.21food.cn/price/list-蔬菜-{page}.html"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    }
    
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, 'lxml')
        
        # 示例解析逻辑（需根据实际页面调整）
        items = soup.select('.price-list tr')[1:]  # 跳过表头
        data = []
        for item in items:
            cols = item.select('td')
            data.append({
                '品名': cols[0].text.strip(),
                '价格': cols[1].text.strip(),
                '单位': cols[2].text.strip(),
                '市场': cols[3].text.strip(),
                '日期': cols[4].text.strip()
            })
        return pd.DataFrame(data)
    except Exception as e:
        print(f"爬取失败: {e}")
        return pd.DataFrame()

# 示例调用
df = get_vegetable_prices()
print(df.head())

2.2 反爬应对策略

请求头伪装：

headers = {
    "User-Agent": "Mozilla/5.0...",
    "Referer": "http://www.21food.cn/",
    "Accept-Language": "zh-CN,zh;q=0.9"
}

IP轮换方案：

proxies = {
    'http': 'http://123.456.789.012:8080',
    'https': 'https://123.456.789.012:8080'
}
response = requests.get(url, proxies=proxies)

三、动态页面处理方案

当数据通过AJAX加载时，需要采用浏览器自动化工具：

3.1 Selenium实现

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式

driver = webdriver.Chrome(options=chrome_options)
driver.get("http://www.21food.cn/price/")

# 等待动态加载完成
time.sleep(2)

# 模拟点击"蔬菜"分类
driver.find_element_by_xpath('//a[contains(text(),"蔬菜")]').click()
time.sleep(1)

# 获取渲染后的页面源码
soup = BeautifulSoup(driver.page_source, 'lxml')
# ...后续解析逻辑与静态页面相同

3.2 API直接请求

通过浏览器开发者工具（F12）捕获XHR请求：

import json

api_url = "http://www.21food.cn/api/getPriceData"
params = {
    "category": "vegetables",
    "page": 1,
    "size": 20
}
response = requests.get(api_url, params=params)
data = json.loads(response.text)

四、数据存储与优化

4.1 存储方案对比

存储方式	优点	缺点
CSV文件	无需数据库支持	查询效率低
MySQL	支持复杂查询	需要配置服务
MongoDB	适合非结构化数据	内存占用较大

4.2 定时爬虫实现

import schedule
import time

def daily_task():
    df = get_vegetable_prices()
    df.to_csv(f"vegetable_prices_{time.strftime('%Y%m%d')}.csv")

# 每天上午10点执行
schedule.every().day.at("10:00").do(daily_task)

while True:
    schedule.run_pending()
    time.sleep(60)

五、完整项目结构建议

/vegetable-price-spider
│── config.py       # 配置文件
│── spider.py       # 爬虫主逻辑
│── utils.py        # 工具函数
│── requirements.txt
└── /data           # 存储目录

六、注意事项

网站改版频率：食品类网站通常每6-12个月会有前端调整
数据验证：建议添加异常值检测逻辑
分布式扩展：Scrapy-Redis框架适合大规模爬取

通过以上方法，您可以构建一个稳定的蔬菜价格监测系统。建议首次运行时先爬取少量页面测试解析逻辑，确认无误后再进行全量爬取。完整代码示例可参考Github相关仓库（需自行实现）。 “`

注：实际开发时需根据目标网站的具体结构调整解析逻辑，本文示例代码可能需要修改才能正常运行。建议在爬取前先人工浏览目标页面，确认数据分布结构。