Python系列爬虫如何进行携程旅游景点数据爬取与可视化

发布时间：2021-10-09 16:24:25 作者：柒染
来源：亿速云阅读：1124

# Python系列爬虫如何进行携程旅游景点数据爬取与可视化

## 一、引言

随着旅游行业的快速发展，旅游数据的获取与分析成为行业研究的重要方向。本文将通过Python爬虫技术，演示如何从携程旅行网爬取景点数据，并通过数据清洗、存储和可视化展示完整的数据分析流程。

## 二、技术准备

### 1. 核心工具
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2. 环境配置

Python 3.8+
安装依赖库：pip install requests beautifulsoup4 pandas matplotlib seaborn

三、数据爬取实战

1. 页面分析

携程景点页面的典型URL结构：

https://you.ctrip.com/sight/{城市ID}/{景点ID}.html

2. 爬虫实现

def get_scenic_spots(city_id, max_page=5):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    }
    data_list = []
    
    for page in range(1, max_page+1):
        url = f'https://you.ctrip.com/sight/city{city_id}/s0-p{page}.html'
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        for item in soup.select('.list_item'):
            try:
                name = item.select_one('.rdetailbox a').text.strip()
                rating = item.select_one('.score .n').text
                comments = item.select_one('.comment').text.replace('条点评','')
                data_list.append([name, float(rating), int(comments)])
            except Exception as e:
                print(f"解析异常：{e}")
    
    return pd.DataFrame(data_list, columns=['景点名称','评分','评论数'])

3. 反爬应对策略

随机User-Agent轮换
使用代理IP池
设置合理的请求间隔（time.sleep）

四、数据存储与管理

1. 数据清洗

df.drop_duplicates(inplace=True)
df = df[df['评论数'] > 10]  # 过滤低评论数据

2. 存储方案

# CSV存储
df.to_csv('ctrip_scenic_spots.csv', index=False)

# MySQL存储
import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', database='travel')
df.to_sql('scenic_spots', conn, if_exists='replace')

五、数据可视化分析

1. 评分分布分析

plt.figure(figsize=(10,6))
sns.histplot(df['评分'], bins=20, kde=True)
plt.title('景点评分分布')
plt.savefig('rating_dist.png')

2. 评论数TOP10

top10 = df.nlargest(10, '评论数')
plt.figure(figsize=(12,6))
sns.barplot(x='评论数', y='景点名称', data=top10)
plt.title('热门景点TOP10')

3. 评分与评论数关系

sns.jointplot(x='评分', y='评论数', data=df, kind='reg')

六、完整案例演示

以北京为例（city_id=1）：

beijing_df = get_scenic_spots(1, max_page=3)
print(f"共获取{len(beijing_df)}个景点数据")

# 生成可视化报告
beijing_df.describe().to_markdown()

输出结果示例：

	评分	评论数
count	142.0	142.0
mean	4.56	3821.4
max	5.0	125000

七、注意事项

法律合规：遵守携程robots.txt协议，控制爬取频率
数据使用：仅限学习研究，禁止商业用途
动态内容：对JavaScript渲染页面需使用Selenium/Puppeteer

八、结语

通过本案例可以掌握： - 旅游数据的获取方法 - 反爬虫应对策略 - 基础数据分析可视化技巧 - 完整的Python数据处理流程

完整代码已开源至GitHub（示例仓库地址），欢迎交流改进。 “`

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

2. 环境配置

三、数据爬取实战

1. 页面分析

2. 爬虫实现

3. 反爬应对策略

四、数据存储与管理

1. 数据清洗

2. 存储方案

五、数据可视化分析

1. 评分分布分析

2. 评论数TOP10

3. 评分与评论数关系

六、完整案例演示

七、注意事项

八、结语

相关阅读