Python如何使用Requests抓取包图网小视频

发布时间：2021-07-13 15:21:24 作者：chen
来源：亿速云阅读：282

# Python如何使用Requests抓取包图网小视频

## 前言

在网络爬虫开发中，视频资源的抓取一直是技术难点之一。本文将以包图网（ibaotu.com）为例，详细介绍如何通过Python的Requests库实现小视频的自动化抓取。文章包含环境准备、页面分析、反爬对策、视频下载等完整流程，并提供可直接运行的代码示例。

---

## 一、环境准备

### 1.1 安装必要库
```bash
pip install requests
pip install beautifulsoup4
pip install fake-useragent

1.2 推荐工具

Chrome开发者工具（F12）
Postman（API测试）
FFmpeg（视频格式处理）

二、页面结构分析

2.1 目标页面特征

包图网视频详情页URL格式：

https://ibaotu.com/shipin/7-0-0-0-0-1.html

其中关键参数： - 数字7表示视频ID - 末尾1表示页码

2.2 视频资源定位

通过开发者工具分析发现： 1. 真实视频地址隐藏在<video>标签的src属性中 2. 部分视频采用动态加载，需要解析JavaScript

三、核心爬取流程

3.1 基础请求实现

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

def get_video_page(video_id):
    url = f'https://ibaotu.com/shipin/{video_id}.html'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup

3.2 视频地址提取

def extract_video_url(soup):
    video_tag = soup.find('video', {'class': 'vjs-tech'})
    if video_tag:
        return video_tag.get('src')
    return None

3.3 处理动态加载

部分视频采用AJAX加载，需要模拟XHR请求：

def get_dynamic_video(video_id):
    api_url = f'https://ibaotu.com/ajax/getVideoInfo.php?id={video_id}'
    response = requests.get(api_url, headers=headers)
    return response.json().get('video_url')

四、反爬虫对策

4.1 请求头伪装

from fake_useragent import UserAgent

ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Referer': 'https://ibaotu.com/'
}

4.2 IP代理设置

proxies = {
    'http': 'http://127.0.0.1:8888',
    'https': 'http://127.0.0.1:8888'
}

response = requests.get(url, proxies=proxies)

4.3 请求频率控制

import time
import random

time.sleep(random.uniform(1, 3))

五、视频下载实现

5.1 流式下载大文件

def download_video(url, save_path):
    response = requests.get(url, stream=True, headers=headers)
    with open(save_path, 'wb') as f:
        for chunk in response.iter_content(chunk_size=1024*1024):
            if chunk:
                f.write(chunk)

5.2 断点续传实现

def resume_download(url, save_path):
    headers['Range'] = f'bytes={os.path.getsize(save_path)}-'
    response = requests.get(url, headers=headers, stream=True)
    with open(save_path, 'ab') as f:
        for chunk in response.iter_content(chunk_size=1024):
            f.write(chunk)

六、完整案例代码

import os
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

class BaoTuVideoDownloader:
    def __init__(self):
        self.ua = UserAgent()
        self.session = requests.Session()
        
    def get_headers(self):
        return {
            'User-Agent': self.ua.random,
            'Referer': 'https://ibaotu.com/'
        }
    
    def get_video_info(self, video_id):
        # 两种获取方式组合使用
        html_url = f'https://ibaotu.com/shipin/{video_id}.html'
        api_url = f'https://ibaotu.com/ajax/getVideoInfo.php?id={video_id}'
        
        # 先尝试API接口
        try:
            resp = self.session.get(api_url, headers=self.get_headers())
            if resp.status_code == 200:
                return resp.json().get('video_url')
        except:
            pass
        
        # 备用HTML解析方案
        try:
            resp = self.session.get(html_url, headers=self.get_headers())
            soup = BeautifulSoup(resp.text, 'html.parser')
            video = soup.find('video', {'class': 'vjs-tech'})
            if video:
                return video.get('src')
        except:
            pass
        
        return None
    
    def download(self, video_url, save_path):
        try:
            with self.session.get(video_url, stream=True, 
                                headers=self.get_headers()) as r:
                r.raise_for_status()
                with open(save_path, 'wb') as f:
                    for chunk in r.iter_content(chunk_size=8192):
                        f.write(chunk)
            return True
        except Exception as e:
            print(f"下载失败: {str(e)}")
            return False

if __name__ == '__main__':
    downloader = BaoTuVideoDownloader()
    video_url = downloader.get_video_info('12345')  # 替换实际视频ID
    if video_url:
        downloader.download(video_url, 'demo.mp4')

七、常见问题解决

7.1 403禁止访问

解决方案：更换UserAgent，添加Referer头
升级方案：使用selenium模拟浏览器

7.2 视频格式异常

# 使用FFmpeg转换格式
ffmpeg -i input.flv -c copy output.mp4

7.3 资源不存在

检查视频ID有效性
验证账号权限（部分资源需要登录）

八、法律与道德提醒

严格遵守包图网的robots.txt协议
仅用于学习目的，禁止商业用途
控制请求频率，避免服务器压力
尊重版权，下载后24小时内删除

结语

本文详细讲解了使用Requests库抓取包图网视频的全流程。实际开发中还需考虑： - 验证码识别 - 登录态维持 - 分布式爬取 - 资源去重等高级功能

建议先小规模测试，确认无误后再扩大抓取范围。完整项目代码已托管至GitHub（示例地址）。 “`

注：本文代码示例仅供参考，实际使用时请遵守相关网站的使用条款。建议在抓取前先联系网站方确认权限，避免法律风险。