Python如何爬取携程评论

发布时间：2021-11-25 13:47:42 作者：小新
来源：亿速云阅读：722

# Python如何爬取携程评论

## 目录
1. [前言](#前言)
2. [准备工作](#准备工作)
   - [2.1 环境配置](#21-环境配置)
   - [2.2 分析目标网站](#22-分析目标网站)
3. [基础爬虫实现](#基础爬虫实现)
   - [3.1 请求页面数据](#31-请求页面数据)
   - [3.2 解析HTML内容](#32-解析html内容)
4. [处理动态加载内容](#处理动态加载内容)
   - [4.1 识别API接口](#41-识别api接口)
   - [4.2 模拟Ajax请求](#42-模拟ajax请求)
5. [数据存储与分析](#数据存储与分析)
   - [5.1 存储到CSV文件](#51-存储到csv文件)
   - [5.2 使用数据库存储](#52-使用数据库存储)
6. [反爬策略应对](#反爬策略应对)
   - [6.1 UserAgent轮换](#61-useragent轮换)
   - [6.2 IP代理池](#62-ip代理池)
7. [完整代码示例](#完整代码示例)
8. [法律与道德提醒](#法律与道德提醒)
9. [总结](#总结)

## 前言

在旅游行业大数据分析中，用户评论数据是重要的研究素材。本文将详细介绍如何使用Python爬取携程网的酒店/景点评论数据，涵盖从基础请求到反反爬策略的完整解决方案。

（此处补充300字左右行业背景和技术价值分析...）

## 准备工作

### 2.1 环境配置

需要安装的Python库：
```python
pip install requests beautifulsoup4 selenium pandas 
# 可选安装
pip install fake-useragent pymysql sqlalchemy

2.2 分析目标网站

以携程酒店评论页为例：

https://hotels.ctrip.com/hotel/dianping/{酒店ID}.html

关键观察点： 1. 评论分页逻辑 2. 动态加载机制 3. 数据渲染方式（部分数据需要执行JS）

（此处添加500字详细页面结构分析，包含截图说明…）

基础爬虫实现

3.1 请求页面数据

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

def get_hotel_reviews(hotel_id, page=1):
    url = f'https://hotels.ctrip.com/hotel/dianping/{hotel_id}_p{page}.html'
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None

3.2 解析HTML内容

def parse_reviews(html):
    soup = BeautifulSoup(html, 'html.parser')
    reviews = []
    
    for item in soup.select('.comment-item'):
        try:
            review = {
                'user': item.select_one('.user-name').text.strip(),
                'content': item.select_one('.comment-content').text.strip(),
                'score': item.select_one('.score').text.strip(),
                'date': item.select_one('.time').text.strip()
            }
            reviews.append(review)
        except Exception as e:
            print(f"解析异常: {e}")
    return reviews

（此处添加600字解析逻辑详解和异常处理方案…）

处理动态加载内容

4.1 识别API接口

通过浏览器开发者工具捕获：

GET https://m.ctrip.com/restapi/soa2/13444/json/getCommentList

4.2 模拟Ajax请求

import json

def get_ajax_reviews(hotel_id, page=1):
    url = 'https://m.ctrip.com/restapi/soa2/13444/json/getCommentList'
    params = {
        "hotelId": hotel_id,
        "pageIndex": page,
        "pageSize": 10,
        # 其他必要参数...
    }
    response = requests.post(url, json=params, headers=headers)
    if response.status_code == 200:
        return json.loads(response.text)
    return None

（此处包含800字API参数分析和加密参数破解方法…）

数据存储与分析

5.1 存储到CSV文件

import pandas as pd

def save_to_csv(reviews, filename):
    df = pd.DataFrame(reviews)
    df.to_csv(filename, index=False, encoding='utf_8_sig')

5.2 使用数据库存储

import pymysql
from sqlalchemy import create_engine

def save_to_mysql(reviews):
    engine = create_engine('mysql+pymysql://user:pass@localhost:3306/db')
    pd.DataFrame(reviews).to_sql('ctrip_reviews', con=engine, 
                                if_exists='append', index=False)

（此处包含400字数据库设计建议和性能优化方案…）

反爬策略应对

6.1 UserAgent轮换

from fake_useragent import UserAgent

def get_random_headers():
    return {'User-Agent': UserAgent().random}

6.2 IP代理池

proxies = {
    'http': 'http://proxy_ip:port',
    'https': 'https://proxy_ip:port'
}

response = requests.get(url, headers=headers, proxies=proxies)

（此处包含600字反爬机制深度分析和验证码解决方案…）

完整代码示例

# 综合所有功能的完整实现
import requests
import pandas as pd
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time
import random

class CtripSpider:
    def __init__(self):
        self.ua = UserAgent()
        self.base_url = "https://hotels.ctrip.com"
        
    def get_random_headers(self):
        return {'User-Agent': self.ua.random}
    
    def crawl_hotel_reviews(self, hotel_id, max_pages=10):
        all_reviews = []
        for page in range(1, max_pages+1):
            print(f"正在抓取第{page}页...")
            html = self.get_page(hotel_id, page)
            if html:
                reviews = self.parse_page(html)
                all_reviews.extend(reviews)
            time.sleep(random.uniform(1, 3))
        return all_reviews
    
    # 其他方法实现...

（完整代码约200行，此处展示核心结构…）

法律与道德提醒

遵守robots.txt协议
控制请求频率（建议≥3秒/次）
仅用于学术研究
不存储用户隐私信息

（此处扩展300字法律风险说明…）

总结

本文详细讲解了： - 静态页面和动态API两种抓取方式 - 数据解析与存储方案 - 反爬虫应对策略 - 实际项目中的注意事项

（此处添加200字技术展望和扩展建议…）

注意：实际开发中请根据目标网站实时调整策略，本文代码仅供参考学习使用。 “`

（全文约4300字，各章节字数根据实际需要调整，技术细节部分可进一步扩展）