如何使用scrapy框架爬取美团网站的数据

发布时间：2022-01-13 15:06:31 作者：小新
来源：亿速云阅读：606

# 如何使用Scrapy框架爬取美团网站的数据

## 一、Scrapy框架简介

Scrapy是一个用Python编写的开源网络爬虫框架，用于快速、高效地抓取网页数据并提取结构化信息。它具有以下核心优势：

- 内置异步处理机制（基于Twisted）
- 完善的中间件系统
- 自动的请求调度和重试机制
- 支持数据导出多种格式（JSON/CSV/XML等）

## 二、环境准备

### 1. 安装必要组件
```bash
pip install scrapy selenium fake_useragent

2. 创建Scrapy项目

scrapy startproject meituan_spider
cd meituan_spider
scrapy genspider meituan meituan.com

三、美团网站分析

1. 页面结构特点

动态加载内容（大量AJAX请求）
反爬机制（验证码、请求头校验）
数据隐藏在JSON结构中

2. 关键数据定位

使用浏览器开发者工具（F12）分析： - 商家列表：通常位于window._appState或异步接口 - 商品信息：查找/poi/getMerchantComment类API - 评价数据：检查/comment/api/相关请求

四、爬虫实现步骤

1. 修改settings.py配置

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
DOWNLOAD_DELAY = 2
CONCURRENT_REQUESTS = 1
ROBOTSTXT_OBEY = False

# 启用中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}

2. 核心爬虫代码（meituan.py）

import scrapy
import json
from urllib.parse import urlencode

class MeituanSpider(scrapy.Spider):
    name = 'meituan'
    allowed_domains = ['meituan.com']
    
    def start_requests(self):
        base_url = "https://www.meituan.com/meishi/api/poi/getPoiList?"
        params = {
            'cityName': '北京',
            'page': 1
        }
        yield scrapy.Request(base_url + urlencode(params))

    def parse(self, response):
        data = json.loads(response.text)
        for shop in data['data']['poiInfos']:
            yield {
                'name': shop['title'],
                'address': shop['address'],
                'avg_price': shop['avgPrice'],
                'score': shop['avgScore']
            }
        
        # 翻页逻辑
        if data['data']['hasNextPage']:
            next_page = response.meta.get('page', 1) + 1
            yield response.follow(
                f"?cityName=北京&page={next_page}",
                meta={'page': next_page}
            )

3. 处理动态内容（可选方案）

当遇到动态渲染页面时，可结合Selenium：

from selenium import webdriver
from scrapy.http import HtmlResponse

class SeleniumMiddleware:
    def process_request(self, request, spider):
        if 'dynamic' in request.meta:
            driver = webdriver.Chrome()
            driver.get(request.url)
            body = driver.page_source
            driver.quit()
            return HtmlResponse(
                url=request.url,
                body=body,
                encoding='utf-8'
            )

五、反爬应对策略

1. 请求头优化

DEFAULT_REQUEST_HEADERS = {
    'Accept': 'application/json',
    'Referer': 'https://www.meituan.com',
    'X-Requested-With': 'XMLHttpRequest'
}

2. IP代理设置

在middlewares.py中添加：

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = "http://your_proxy:port"

3. 验证码处理

建议： - 使用商业打码平台 - 降低爬取频率 - 设置自动重试机制

六、数据存储

1. 导出到JSON

scrapy crawl meituan -o output.json

2. 存储到数据库（MongoDB示例）

在pipelines.py中：

import pymongo

class MongoPipeline:
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    def process_item(self, item, spider):
        self.db[spider.name].insert_one(dict(item))
        return item

七、注意事项

法律合规：遵守美团robots.txt规定，避免高频访问
数据使用：仅用于学习研究，禁止商业用途
性能控制：建议设置DOWNLOAD_DELAY ≥ 3s
更新维护：定期检查网站结构变化

八、完整项目结构

meituan_spider/
├── scrapy.cfg
├── meituan_spider/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       └── meituan.py

通过以上步骤，你可以构建一个基本的美团数据采集系统。实际开发中需要根据具体需求调整解析逻辑和反爬策略。 “`