怎么用python爬取猫眼电影的前100部影片

发布时间：2021-09-07 11:39:55 作者：chen
来源：亿速云阅读：183

怎么用Python爬取猫眼电影的前100部影片

在当今信息爆炸的时代，数据已经成为了一种宝贵的资源。对于电影爱好者、数据分析师或是市场研究人员来说，获取电影相关的数据是非常有价值的。猫眼电影作为中国领先的电影信息平台，提供了丰富的电影数据，包括电影评分、票房、评论等。本文将详细介绍如何使用Python爬取猫眼电影的前100部影片数据。

1. 准备工作

在开始爬取数据之前，我们需要做一些准备工作。首先，确保你已经安装了Python环境。接下来，我们需要安装一些必要的Python库，包括requests、BeautifulSoup和pandas。这些库将帮助我们发送HTTP请求、解析HTML页面以及处理数据。

pip install requests beautifulsoup4 pandas

2. 分析目标网站

在爬取数据之前，我们需要对目标网站进行分析。打开猫眼电影的官方网站（https://maoyan.com），找到电影排行榜页面。通常，排行榜页面会列出当前热门的电影，并按照一定的规则进行排序。

我们需要确定以下几个关键点：

目标URL：电影排行榜页面的URL。
页面结构：电影信息在HTML页面中的位置和标签。
分页机制：如果排行榜有分页，我们需要确定如何获取下一页的数据。

3. 发送HTTP请求

使用requests库发送HTTP请求，获取目标页面的HTML内容。我们可以通过以下代码实现：

import requests

url = "https://maoyan.com/board/4"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

response = requests.get(url, headers=headers)
if response.status_code == 200:
    html = response.text
else:
    print("Failed to retrieve the webpage")

4. 解析HTML页面

获取到HTML内容后，我们需要使用BeautifulSoup库解析页面，提取出我们需要的电影信息。首先，我们需要找到电影信息所在的HTML标签。通过浏览器的开发者工具，我们可以发现每部电影的信息都包含在一个<dd>标签中。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
movies = soup.find_all("dd")

接下来，我们可以遍历这些<dd>标签，提取出每部电影的名称、主演、上映时间、评分等信息。

for movie in movies:
    name = movie.find("p", class_="name").text.strip()
    stars = movie.find("p", class_="star").text.strip()
    release_time = movie.find("p", class_="releasetime").text.strip()
    score = movie.find("p", class_="score").text.strip()
    
    print(f"Name: {name}")
    print(f"Stars: {stars}")
    print(f"Release Time: {release_time}")
    print(f"Score: {score}")
    print("-" * 40)

5. 处理分页

如果排行榜有分页，我们需要处理分页机制，以获取更多的电影数据。通常，分页的URL会包含一个页码参数。我们可以通过修改URL中的页码参数来获取不同页面的数据。

base_url = "https://maoyan.com/board/4?offset={}"
for i in range(0, 100, 10):
    url = base_url.format(i)
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html = response.text
        soup = BeautifulSoup(html, "html.parser")
        movies = soup.find_all("dd")
        
        for movie in movies:
            name = movie.find("p", class_="name").text.strip()
            stars = movie.find("p", class_="star").text.strip()
            release_time = movie.find("p", class_="releasetime").text.strip()
            score = movie.find("p", class_="score").text.strip()
            
            print(f"Name: {name}")
            print(f"Stars: {stars}")
            print(f"Release Time: {release_time}")
            print(f"Score: {score}")
            print("-" * 40)
    else:
        print(f"Failed to retrieve the webpage for offset {i}")

6. 存储数据

获取到电影数据后，我们可以将其存储到CSV文件中，以便后续分析。使用pandas库可以方便地将数据存储为CSV文件。

import pandas as pd

data = []
for i in range(0, 100, 10):
    url = base_url.format(i)
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html = response.text
        soup = BeautifulSoup(html, "html.parser")
        movies = soup.find_all("dd")
        
        for movie in movies:
            name = movie.find("p", class_="name").text.strip()
            stars = movie.find("p", class_="star").text.strip()
            release_time = movie.find("p", class_="releasetime").text.strip()
            score = movie.find("p", class_="score").text.strip()
            
            data.append([name, stars, release_time, score])
    else:
        print(f"Failed to retrieve the webpage for offset {i}")

df = pd.DataFrame(data, columns=["Name", "Stars", "Release Time", "Score"])
df.to_csv("maoyan_top_100_movies.csv", index=False)

7. 完整代码

以下是完整的Python代码，用于爬取猫眼电影的前100部影片数据并存储到CSV文件中。

import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = "https://maoyan.com/board/4?offset={}"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

data = []
for i in range(0, 100, 10):
    url = base_url.format(i)
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        html = response.text
        soup = BeautifulSoup(html, "html.parser")
        movies = soup.find_all("dd")
        
        for movie in movies:
            name = movie.find("p", class_="name").text.strip()
            stars = movie.find("p", class_="star").text.strip()
            release_time = movie.find("p", class_="releasetime").text.strip()
            score = movie.find("p", class_="score").text.strip()
            
            data.append([name, stars, release_time, score])
    else:
        print(f"Failed to retrieve the webpage for offset {i}")

df = pd.DataFrame(data, columns=["Name", "Stars", "Release Time", "Score"])
df.to_csv("maoyan_top_100_movies.csv", index=False)

8. 总结

通过本文的介绍，我们学习了如何使用Python爬取猫眼电影的前100部影片数据。我们首先分析了目标网站的结构，然后使用requests库发送HTTP请求，获取HTML页面内容。接着，我们使用BeautifulSoup库解析HTML页面，提取出电影信息。最后，我们将数据存储到CSV文件中，以便后续分析。

爬取数据是一项非常有用的技能，但在实际操作中，我们需要注意遵守网站的robots.txt文件中的规定，避免对目标网站造成过大的访问压力。此外，爬取数据时还需要注意数据的合法性和隐私问题。

希望本文对你有所帮助，祝你在数据爬取的道路上越走越远！