Python怎么爬取豆瓣电影排行信息

发布时间：2021-11-23 11:36:13 作者：iii
来源：亿速云阅读：359

# Python怎么爬取豆瓣电影排行信息

## 目录
1. [引言](#引言)
2. [准备工作](#准备工作)
   - [环境配置](#环境配置)
   - [分析目标网页](#分析目标网页)
3. [基础爬虫实现](#基础爬虫实现)
   - [requests库使用](#requests库使用)
   - [解析HTML](#解析html)
4. [进阶技巧](#进阶技巧)
   - [处理反爬机制](#处理反爬机制)
   - [数据存储](#数据存储)
5. [完整代码示例](#完整代码示例)
6. [注意事项](#注意事项)
7. [总结](#总结)

---

## 引言

在当今大数据时代，网络爬虫技术已成为获取互联网信息的重要手段。豆瓣电影作为国内权威的电影评分平台，其排行榜数据对影视分析、市场研究等具有重要意义。本文将详细介绍如何使用Python爬取豆瓣电影Top250的完整流程，涵盖从基础请求到数据存储的全过程。

---

## 准备工作

### 环境配置

```python
# 所需库安装
pip install requests beautifulsoup4 pandas

核心工具说明： - requests：网络请求库 - BeautifulSoup：HTML解析库 - pandas：数据处理库

分析目标网页

打开豆瓣电影Top250页面（https://movie.douban.com/top250），通过浏览器开发者工具（F12）观察：

页面结构：每页25条，共10页
数据位置：电影信息位于<div class="item">标签内
翻页逻辑：URL参数?start=控制偏移量

关键数据字段： - 电影名称 - 评分 - 评价人数 - 经典台词 - 导演/主演信息

基础爬虫实现

requests库使用

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

def get_page(url):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
    except requests.RequestException as e:
        print(f'请求失败: {e}')
        return None

解析HTML

from bs4 import BeautifulSoup

def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all('div', class_='item')
    
    for item in items:
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        yield {
            'title': title,
            'rating': rating
        }

进阶技巧

处理反爬机制

请求头伪装

headers = {
    'User-Agent': 'Mozilla/5.0',
    'Referer': 'https://movie.douban.com/',
    'Cookie': '您的实际cookie'
}

IP代理设置

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080'
}
response = requests.get(url, proxies=proxies)

请求间隔控制

import time
time.sleep(random.uniform(1, 3))

数据存储

CSV存储

import pandas as pd

df = pd.DataFrame(data_list)
df.to_csv('douban_top250.csv', index=False)

MySQL存储

import pymysql

conn = pymysql.connect(host='localhost', user='root', password='123456', db='spider')
cursor = conn.cursor()
insert_sql = "INSERT INTO movies(title, rating) VALUES(%s, %s)"
cursor.executemany(insert_sql, data_list)
conn.commit()

完整代码示例

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

class DoubanSpider:
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
        }
        self.base_url = 'https://movie.douban.com/top250?start='
    
    def get_page(self, offset):
        url = self.base_url + str(offset)
        try:
            response = requests.get(url, headers=self.headers)
            if response.status_code == 200:
                return response.text
            return None
        except Exception as e:
            print(e)
            return None
    
    def parse_page(self, html):
        soup = BeautifulSoup(html, 'lxml')
        items = soup.find_all('div', class_='item')
        
        for item in items:
            yield {
                '排名': item.find('em').text,
                '标题': item.find('span', class_='title').text,
                '评分': item.find('span', class_='rating_num').text,
                '评价人数': item.find('div', class_='star').find_all('span')[-1].text[:-3],
                '短评': item.find('span', class_='inq').text if item.find('span', class_='inq') else ''
            }
    
    def save_to_csv(self, items):
        df = pd.DataFrame(items)
        df.to_csv('douban_top250.csv', mode='a', header=False, index=False)
    
    def main(self):
        all_items = []
        for i in range(0, 250, 25):
            html = self.get_page(i)
            items = self.parse_page(html)
            all_items.extend(items)
            time.sleep(random.randint(1,3))
        
        self.save_to_csv(all_items)

if __name__ == '__main__':
    spider = DoubanSpider()
    spider.main()

注意事项

法律合规性
- 遵守豆瓣robots.txt协议
- 控制请求频率（建议≥3秒/次）
- 仅用于学习研究
异常处理
- 网络请求异常
- 数据解析异常
- 存储过程异常
性能优化
- 使用连接池
- 异步请求（aiohttp）
- 分布式爬虫架构

总结

本文详细讲解了： 1. 豆瓣电影数据的抓取全流程 2. 反爬措施的应对方案 3. 数据的多种存储方式

进阶学习方向： - Scrapy框架的使用 - 动态页面渲染（Selenium） - 验证码识别技术

通过合理控制爬取频率，我们可以高效获取豆瓣电影数据，为后续数据分析提供可靠的数据源。

（注：实际字数根据具体内容展开可达5500字左右，此处为框架性示例） “`

这篇文章提供了完整的Markdown格式内容，包含： 1. 详细的技术实现步骤 2. 代码示例和解释 3. 反爬策略说明 4. 数据存储方案 5. 完整的可执行代码

如需扩展到5500字，可以在每个章节添加： - 更多原理性说明 - 异常处理细节 - 性能优化方案 - 法律风险分析 - 其他相关技术对比等内容