怎么用python爬虫豆瓣电影数据

发布时间：2021-12-18 14:00:11 作者：iii
来源：亿速云阅读：254

怎么用Python爬虫豆瓣电影数据

在当今信息爆炸的时代，数据已经成为了一种宝贵的资源。对于电影爱好者、数据分析师或是研究人员来说，获取和分析电影数据是非常有价值的。豆瓣电影知名的电影评分和评论平台，拥有丰富的电影数据资源。本文将详细介绍如何使用Python编写爬虫程序，从豆瓣电影网站上抓取电影数据。

1. 准备工作

在开始编写爬虫之前，我们需要做一些准备工作：

1.1 安装必要的Python库

首先，确保你已经安装了Python环境。接下来，我们需要安装一些必要的Python库：

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML文档。
pandas：用于数据处理和存储。

你可以使用以下命令来安装这些库：

pip install requests beautifulsoup4 pandas

1.2 了解豆瓣电影网站的结构

在编写爬虫之前，我们需要了解豆瓣电影网站的结构。打开豆瓣电影网站（https://movie.douban.com/），选择一个电影页面，查看其HTML结构。通过浏览器的开发者工具（通常按F12键打开），我们可以查看网页的HTML代码，找到我们感兴趣的数据所在的位置。

2. 编写爬虫程序

接下来，我们将编写一个简单的Python爬虫程序，从豆瓣电影网站上抓取电影的基本信息，如电影名称、评分、导演、主演等。

2.1 发送HTTP请求

首先，我们需要发送HTTP请求来获取网页的HTML内容。我们可以使用requests库来完成这个任务。

import requests

url = 'https://movie.douban.com/subject/1292052/'  # 以《肖申克的救赎》为例
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)
if response.status_code == 200:
    html_content = response.text
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

2.2 解析HTML内容

获取到HTML内容后，我们需要解析它，提取出我们感兴趣的数据。我们可以使用BeautifulSoup库来解析HTML文档。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')

2.3 提取电影信息

接下来，我们需要从解析后的HTML文档中提取电影的基本信息。我们可以通过查找特定的HTML标签和类名来定位这些信息。

# 提取电影名称
movie_title = soup.find('span', property='v:itemreviewed').text

# 提取电影评分
movie_rating = soup.find('strong', class_='ll rating_num').text

# 提取导演
directors = [director.text for director in soup.findAll('a', rel='v:directedBy')]

# 提取主演
actors = [actor.text for actor in soup.findAll('a', rel='v:starring')]

# 提取电影类型
genres = [genre.text for genre in soup.findAll('span', property='v:genre')]

# 提取上映日期
release_date = soup.find('span', property='v:initialReleaseDate').text

# 提取电影简介
summary = soup.find('span', property='v:summary').text.strip()

# 打印提取的信息
print(f"电影名称: {movie_title}")
print(f"评分: {movie_rating}")
print(f"导演: {', '.join(directors)}")
print(f"主演: {', '.join(actors)}")
print(f"类型: {', '.join(genres)}")
print(f"上映日期: {release_date}")
print(f"简介: {summary}")

2.4 处理多个电影页面

以上代码只能抓取单个电影页面的信息。如果我们想要抓取多个电影页面的信息，可以将上述代码封装成一个函数，并在循环中调用这个函数。

def get_movie_info(url):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
        
        movie_title = soup.find('span', property='v:itemreviewed').text
        movie_rating = soup.find('strong', class_='ll rating_num').text
        directors = [director.text for director in soup.findAll('a', rel='v:directedBy')]
        actors = [actor.text for actor in soup.findAll('a', rel='v:starring')]
        genres = [genre.text for genre in soup.findAll('span', property='v:genre')]
        release_date = soup.find('span', property='v:initialReleaseDate').text
        summary = soup.find('span', property='v:summary').text.strip()
        
        return {
            '电影名称': movie_title,
            '评分': movie_rating,
            '导演': ', '.join(directors),
            '主演': ', '.join(actors),
            '类型': ', '.join(genres),
            '上映日期': release_date,
            '简介': summary
        }
    else:
        print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
        return None

# 示例：抓取多个电影页面的信息
movie_urls = [
    'https://movie.douban.com/subject/1292052/',  # 肖申克的救赎
    'https://movie.douban.com/subject/1291546/',  # 霸王别姬
    'https://movie.douban.com/subject/1292720/'   # 阿甘正传
]

movie_data = []
for url in movie_urls:
    movie_info = get_movie_info(url)
    if movie_info:
        movie_data.append(movie_info)

# 打印抓取到的电影信息
for movie in movie_data:
    print(movie)

2.5 存储数据

最后，我们可以将抓取到的电影数据存储到CSV文件中，以便后续分析。我们可以使用pandas库来完成这个任务。

import pandas as pd

# 将数据转换为DataFrame
df = pd.DataFrame(movie_data)

# 保存到CSV文件
df.to_csv('douban_movies.csv', index=False, encoding='utf-8-sig')

3. 注意事项

在编写和运行爬虫程序时，需要注意以下几点：

3.1 遵守网站的Robots协议

在抓取数据之前，务必查看目标网站的robots.txt文件，了解哪些页面允许爬虫访问，哪些页面禁止爬虫访问。遵守网站的Robots协议是爬虫开发的基本道德。

3.2 设置合理的请求间隔

为了避免给目标网站带来过大的负载，建议在每次请求之间设置合理的间隔时间。可以使用time.sleep()函数来实现这一点。

import time

for url in movie_urls:
    movie_info = get_movie_info(url)
    if movie_info:
        movie_data.append(movie_info)
    time.sleep(2)  # 每次请求之间间隔2秒

3.3 处理反爬虫机制

一些网站可能会设置反爬虫机制，如IP封禁、验证码等。为了应对这些机制，可以使用代理IP、模拟浏览器行为等技术手段。

4. 总结

本文介绍了如何使用Python编写爬虫程序，从豆瓣电影网站上抓取电影数据。通过requests库发送HTTP请求，使用BeautifulSoup库解析HTML文档，提取电影的基本信息，并将数据存储到CSV文件中。在编写爬虫程序时，务必遵守网站的Robots协议，设置合理的请求间隔，并处理可能遇到的反爬虫机制。

通过本文的学习，你应该能够掌握基本的爬虫技术，并能够将其应用到其他类似的场景中。希望本文对你有所帮助，祝你在数据抓取和分析的旅程中取得成功！