如何用python爬虫抓豆瓣电影数据

发布时间：2021-12-18 13:59:37 作者：iii
来源：亿速云阅读：386

如何用Python爬虫抓豆瓣电影数据

在当今信息爆炸的时代，数据已经成为了一种宝贵的资源。对于电影爱好者、数据分析师或是研究人员来说，获取和分析电影数据是非常有价值的。豆瓣知名的社交网站，拥有丰富的电影信息和用户评价数据。本文将详细介绍如何使用Python编写爬虫来抓取豆瓣电影数据。

1. 准备工作

在开始编写爬虫之前，我们需要做一些准备工作：

1.1 安装必要的库

首先，确保你已经安装了Python环境。接下来，我们需要安装一些必要的Python库：

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML文档。
pandas：用于数据处理和存储。

你可以使用以下命令来安装这些库：

pip install requests beautifulsoup4 pandas

1.2 了解豆瓣电影页面的结构

在编写爬虫之前，我们需要了解豆瓣电影页面的结构。打开豆瓣电影页面（例如：豆瓣电影 Top 250），右键点击页面并选择“检查”或“查看页面源代码”，查看页面的HTML结构。

通过分析，我们可以发现每部电影的信息都包含在一个<div class="item">标签中，电影的名称、评分、导演等信息都包含在这个标签内。

2. 编写爬虫

接下来，我们将编写一个简单的爬虫来抓取豆瓣电影Top 250的数据。

2.1 发送HTTP请求

首先，我们需要发送HTTP请求来获取豆瓣电影页面的HTML内容。我们可以使用requests库来完成这个任务。

import requests

url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)
if response.status_code == 200:
    html_content = response.text
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

2.2 解析HTML内容

获取到HTML内容后，我们需要解析它并提取出我们需要的数据。我们可以使用BeautifulSoup库来解析HTML。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')

2.3 提取电影信息

接下来，我们需要从解析后的HTML中提取出每部电影的信息。我们可以通过查找<div class="item">标签来获取每部电影的信息。

movies = soup.find_all('div', class_='item')

for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    director = movie.find('p', class_='').text.strip().split('\n')[0].strip()
    print(f"Title: {title}, Rating: {rating}, Director: {director}")

2.4 处理分页

豆瓣电影Top 250有多个页面，我们需要处理分页来获取所有电影的数据。我们可以通过修改URL中的start参数来获取不同页面的数据。

base_url = 'https://movie.douban.com/top250'
all_movies = []

for start in range(0, 250, 25):
    url = f'{base_url}?start={start}&filter='
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
        movies = soup.find_all('div', class_='item')
        for movie in movies:
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text
            director = movie.find('p', class_='').text.strip().split('\n')[0].strip()
            all_movies.append({'Title': title, 'Rating': rating, 'Director': director})
    else:
        print(f"Failed to retrieve the page. Status code: {response.status_code}")

2.5 存储数据

最后，我们可以将抓取到的数据存储到CSV文件中，以便后续分析。

import pandas as pd

df = pd.DataFrame(all_movies)
df.to_csv('douban_top250_movies.csv', index=False, encoding='utf-8-sig')

3. 完整代码

以下是完整的Python代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

all_movies = []

for start in range(0, 250, 25):
    url = f'{base_url}?start={start}&filter='
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
        movies = soup.find_all('div', class_='item')
        for movie in movies:
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text
            director = movie.find('p', class_='').text.strip().split('\n')[0].strip()
            all_movies.append({'Title': title, 'Rating': rating, 'Director': director})
    else:
        print(f"Failed to retrieve the page. Status code: {response.status_code}")

df = pd.DataFrame(all_movies)
df.to_csv('douban_top250_movies.csv', index=False, encoding='utf-8-sig')

4. 注意事项

反爬虫机制：豆瓣网站可能会有反爬虫机制，频繁请求可能会导致IP被封禁。建议在爬取数据时设置合理的请求间隔，或者使用代理IP。
数据使用：抓取的数据仅用于个人学习和研究，请勿用于商业用途。
合法性：在抓取数据时，请遵守相关法律法规和网站的使用条款。

5. 总结

通过本文的介绍，我们学习了如何使用Python编写爬虫来抓取豆瓣电影Top 250的数据。我们从发送HTTP请求、解析HTML内容、提取电影信息、处理分页到存储数据，一步步完成了整个爬虫的编写过程。希望本文对你有所帮助，祝你在数据抓取和分析的道路上越走越远！