Python怎样爬取上万条大众点评数据

发布时间：2021-10-26 10:00:34 作者：柒染
来源：亿速云阅读：214

# Python怎样爬取上万条大众点评数据

## 前言

在大数据时代，获取商业数据对市场分析、竞品研究具有重要意义。大众点评作为国内领先的生活服务平台，包含大量商户信息、用户评价等有价值数据。本文将详细介绍如何使用Python爬虫技术，高效获取上万条大众点评数据。

---

## 一、准备工作

### 1.1 技术选型
- **Requests**：发送HTTP请求
- **BeautifulSoup**/lxml：HTML解析
- **Selenium**：处理动态渲染页面
- **PyMySQL**/MongoDB：数据存储
- **代理IP池**：应对反爬

### 1.2 环境配置
```python
pip install requests beautifulsoup4 selenium pymysql

1.3 法律风险提示

遵守robots.txt协议
控制爬取频率（建议≥5秒/次）
仅用于学习研究

二、反爬机制分析

大众点评具有严格的反爬系统：

Cookie验证：首次访问会设置__mta等加密cookie
请求头检测：验证User-Agent、Referer等字段
IP限制：单个IP高频访问会触发验证码
字体反爬：关键数据使用自定义字体渲染
行为验证：鼠标轨迹检测

三、实战爬取流程

3.1 获取商户列表（示例代码）

import requests
from bs4 import BeautifulSoup

def get_shops(city_id, page):
    url = f"https://www.dianping.com/{city_id}/ch10/p{page}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
        "Cookie": "your_cookie_here"
    }
    resp = requests.get(url, headers=headers)
    soup = BeautifulSoup(resp.text, 'lxml')
    
    shops = []
    for item in soup.select('.shop-list li'):
        name = item.select_one('.tit').text.strip()
        shops.append(name)
    return shops

3.2 动态页面处理

当遇到AJAX加载时，使用Selenium模拟：

from selenium import webdriver

driver = webdriver.Chrome()
driver.get(url)
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
time.sleep(3)
page_source = driver.page_source

3.3 评价数据抓取

需处理分页和动态加载：

def get_reviews(shop_id):
    reviews = []
    for page in range(1, 50):  # 假设每店50页
        url = f"https://www.dianping.com/shop/{shop_id}/review_all/p{page}"
        # 添加随机延迟
        time.sleep(random.uniform(1, 3))
        # 解析评价内容...
    return reviews

四、关键问题解决方案

4.1 字体反爬破解

下载页面使用的woff字体文件
使用fontTools解析字形映射：

from fontTools.ttLib import TTFont

font = TTFont("review.woff")
cmap = font.getBestCmap()
# 建立编码-实际数字的映射

4.2 验证码处理

商业方案：接入打码平台（如超级鹰）
本地方案：使用OpenCV图像识别（成功率约60%）

4.3 IP代理设置

推荐使用隧道代理：

proxies = {
    "http": "http://user:pass@proxy_ip:port",
    "https": "https://user:pass@proxy_ip:port"
}
response = requests.get(url, proxies=proxies)

五、数据存储方案

5.1 MySQL存储结构

CREATE TABLE `dianping_shops` (
  `id` INT AUTO_INCREMENT,
  `shop_name` VARCHAR(100),
  `avg_price` DECIMAL(10,2),
  `review_count` INT,
  `address` TEXT,
  PRIMARY KEY (`id`)
);

5.2 批量插入优化

使用executemany提升效率：

data = [(name1, price1), (name2, price2)]
cursor.executemany(
    "INSERT INTO shops VALUES (%s,%s)", data
)

5.3 增量爬取策略

记录最后爬取时间：

WHERE update_time > '2023-01-01'

六、效率优化技巧

异步请求：使用aiohttp+asyncio

async with aiohttp.ClientSession() as session:
   async with session.get(url) as resp:
       return await resp.text()

分布式爬取：Scrapy+Redis

class RedisSpider(RedisMixin, Spider):
   redis_key = 'dianping:start_urls'

数据去重：BloomFilter算法

七、完整案例代码

# 伪代码示例
class DianPingSpider:
    def __init__(self):
        self.proxy_pool = ProxyPool()
        
    def crawl(self, max_pages=100):
        for page in range(max_pages):
            try:
                html = self._get_page(page)
                data = self._parse(html)
                self._save(data)
            except Exception as e:
                logger.error(f"Page {page} failed: {str(e)}")

八、注意事项

请求频率控制：建议设置随机延迟（1-5秒）
异常处理：实现自动重试机制
数据清洗：处理特殊字符、emoji等
日志记录：详细记录爬取过程

结语

通过本文介绍的技术方案，可以稳定获取上万条大众点评数据。但需要注意： - 网站反爬策略会持续更新 - 建议在非高峰时段爬取 - 重要数据建议购买官方API

如需完整代码，可访问GitHub示例仓库（示例链接）。爬虫开发需要持续调试优化，祝您数据获取顺利！ “`

（注：实际字数约1650字，此处为精简展示。完整版需补充更多技术细节和代码注释）