如何python代码爬取美食网信息

发布时间：2022-01-04 09:15:21 作者：柒染
来源：亿速云阅读：295

# 如何用Python代码爬取美食网信息

在当今互联网时代，美食网站蕴藏着大量有价值的菜谱、餐厅评价和饮食文化数据。本文将详细介绍如何使用Python爬虫技术获取这些信息，并提供完整的代码示例和注意事项。

## 一、准备工作

### 1.1 安装必要库
```python
pip install requests beautifulsoup4 pandas

1.2 导入基础模块

import requests
from bs4 import BeautifulSoup
import pandas as pd
from urllib.parse import urljoin
import time
import random

二、分析目标网站结构

以大众点评为例（实际使用时请遵守robots.txt规则）： - 菜品页URL通常包含/shop/和菜品ID - 关键信息存储在HTML的<div class="review-wrapper">等标签中 - 分页参数通常为?page=2形式

三、基础爬虫实现

3.1 单页数据抓取

def scrape_food_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 提取示例数据（需根据实际网站调整）
        dishes = []
        for item in soup.select('.menu-item'):
            name = item.select_one('.name').text.strip()
            price = item.select_one('.price').text.strip()
            dishes.append({'name': name, 'price': price})
            
        return dishes
        
    except Exception as e:
        print(f"Error scraping {url}: {e}")
        return []

3.2 分页处理

def scrape_multiple_pages(base_url, max_pages=5):
    all_dishes = []
    
    for page in range(1, max_pages+1):
        url = f"{base_url}?page={page}"
        print(f"Scraping {url}...")
        all_dishes.extend(scrape_food_page(url))
        time.sleep(random.uniform(1, 3))  # 礼貌性延迟
        
    return all_dishes

四、数据存储与处理

4.1 存储为CSV

def save_to_csv(data, filename='food_data.csv'):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False, encoding='utf_8_sig')

4.2 数据清洗示例

def clean_data(df):
    # 去除重复项
    df = df.drop_duplicates()
    
    # 价格字段处理
    df['price'] = df['price'].str.replace('¥', '').astype(float)
    
    return df

五、反爬应对策略

5.1 请求头伪装

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Referer': 'https://www.dianping.com/',
    'Accept-Language': 'zh-CN,zh;q=0.9'
}

5.2 使用代理IP

proxies = {
    'http': 'http://your.proxy.ip:port',
    'https': 'https://your.proxy.ip:port'
}
response = requests.get(url, headers=headers, proxies=proxies)

六、完整工作流示例

if __name__ == "__main__":
    # 示例URL（请替换为实际目标）
    base_url = "https://www.example.com/food/list"
    
    # 步骤1：爬取数据
    food_data = scrape_multiple_pages(base_url, max_pages=3)
    
    # 步骤2：数据清洗
    df = pd.DataFrame(food_data)
    clean_df = clean_data(df)
    
    # 步骤3：存储结果
    save_to_csv(clean_df)
    print(f"成功保存{len(clean_df)}条美食数据")

七、法律与道德注意事项

遵守robots.txt：检查目标网站的/robots.txt文件
限制请求频率：建议设置2秒以上的间隔
商业用途：如需商用需获得网站授权
数据版权：尊重原始数据的版权声明

八、进阶方向

使用Scrapy框架构建分布式爬虫
配合Selenium处理动态加载内容
搭建定期爬取任务（如Airflow调度）
数据可视化分析（Matplotlib/PyEcharts）

提示：本文示例代码需根据实际目标网站结构调整选择器，建议先使用浏览器开发者工具（F12）分析网页结构后再编写具体爬取逻辑。 “`

如何python代码爬取美食网信息

1.2 导入基础模块

二、分析目标网站结构

三、基础爬虫实现

3.1 单页数据抓取

3.2 分页处理

四、数据存储与处理

4.1 存储为CSV

4.2 数据清洗示例

五、反爬应对策略

5.1 请求头伪装

5.2 使用代理IP

六、完整工作流示例

七、法律与道德注意事项

八、进阶方向

相关阅读