网络爬虫框架Scrapy怎么用

发布时间：2022-02-19 13:47:30 作者：小新
来源：亿速云阅读：159

# 网络爬虫框架Scrapy怎么用

## 目录
1. [Scrapy简介](#1-scrapy简介)
2. [安装与环境配置](#2-安装与环境配置)
3. [Scrapy项目结构解析](#3-scrapy项目结构解析)
4. [创建第一个爬虫](#4-创建第一个爬虫)
5. [数据提取与Item定义](#5-数据提取与item定义)
6. [数据存储与管道](#6-数据存储与管道)
7. [中间件与扩展](#7-中间件与扩展)
8. [分布式爬虫与部署](#8-分布式爬虫与部署)
9. [常见问题与优化](#9-常见问题与优化)

---

## 1. Scrapy简介

Scrapy是一个用Python编写的开源网络爬虫框架，专为高效网页抓取和数据提取设计。其核心优势包括：

- **异步处理**：基于Twisted异步网络库，支持高并发
- **模块化设计**：各组件松耦合，易于扩展
- **内置功能**：自动处理Cookies、HTTP头、重试机制等
- **丰富扩展**：支持多种数据格式导出和存储后端

典型应用场景：
- 电商价格监控
- 新闻聚合
- 搜索引擎数据收集
- API数据采集

---

## 2. 安装与环境配置

### 基础安装
```bash
pip install scrapy

可选依赖

# 支持Excel导出
pip install openpyxl  
# 支持PDF处理
pip install pdfminer.six

验证安装

scrapy version
# 应输出类似：Scrapy 2.11.0

3. Scrapy项目结构解析

通过scrapy startproject projectname创建的项目包含以下核心文件：

myproject/
├── scrapy.cfg            # 部署配置文件
└── myproject/            # 项目主目录
    ├── __init__.py
    ├── items.py          # 数据模型定义
    ├── middlewares.py    # 中间件配置
    ├── pipelines.py      # 数据处理管道
    ├── settings.py       # 项目设置
    └── spiders/          # 爬虫目录
        └── __init__.py

4. 创建第一个爬虫

生成爬虫模板

scrapy genspider example example.com

基础爬虫示例

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = ["https://example.com"]

    def parse(self, response):
        # 提取页面标题
        title = response.css('title::text').get()
        yield {'title': title}

运行爬虫

scrapy crawl example -o output.json

5. 数据提取与Item定义

选择器使用

# CSS选择器
response.css('div.product::attr(data-id)').getall()

# XPath选择器
response.xpath('//h1[@class="title"]/text()').extract_first()

定义数据模型

# items.py
import scrapy

class ProductItem(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()

在爬虫中使用Item

def parse(self, response):
    item = ProductItem()
    item['name'] = response.css('h1::text').get()
    yield item

6. 数据存储与管道

内置存储方式

JSON/JSON Lines
CSV
XML
Pickle

自定义管道示例

# pipelines.py
import pymongo

class MongoPipeline:
    def __init__(self, mongo_uri):
        self.mongo_uri = mongo_uri

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings.get('MONGO_URI'))

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client['scrapy_data']

    def process_item(self, item, spider):
        self.db[spider.name].insert_one(dict(item))
        return item

启用管道

# settings.py
ITEM_PIPELINES = {
    'myproject.pipelines.MongoPipeline': 300,
}
MONGO_URI = 'mongodb://localhost:27017'

7. 中间件与扩展

常用中间件类型

下载中间件：处理请求/响应
爬虫中间件：处理爬虫输入/输出

User-Agent轮换示例

# middlewares.py
from fake_useragent import UserAgent

class RandomUserAgentMiddleware:
    def process_request(self, request, spider):
        request.headers['User-Agent'] = UserAgent().random

中间件配置

# settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomUserAgentMiddleware': 400,
}

8. 分布式爬虫与部署

使用Scrapy-Redis

pip install scrapy-redis

配置分布式

# settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://localhost:6379'

部署到Scrapyd

安装Scrapyd服务

pip install scrapyd

部署项目

scrapyd-deploy

9. 常见问题与优化

反爬对策

设置下载延迟

DOWNLOAD_DELAY = 2

使用代理中间件
启用自动限速

AUTOTHROTTLE_ENABLED = True

性能优化技巧

关闭不需要的中间件
合理设置CONCURRENT_REQUESTS
使用缓存

HTTPCACHE_ENABLED = True

调试技巧

使用shell交互模式

scrapy shell 'https://example.com'

查看统计信息

spider.crawler.stats.get_stats()

本文介绍了Scrapy的核心用法，实际开发中建议结合官方文档（https://docs.scrapy.org）和具体业务需求进行深入定制。通过合理配置组件和中间件，Scrapy可以应对从简单页面抓取到复杂分布式爬虫的各种场景。 “`

注：本文实际约2800字，完整3800字版本需要扩展以下内容： 1. 每个章节添加更多实际案例 2. 增加性能测试数据对比 3. 添加可视化架构图 4. 补充异常处理细节 5. 增加与其他框架的对比分析

网络爬虫框架Scrapy怎么用

可选依赖

验证安装

3. Scrapy项目结构解析

4. 创建第一个爬虫

生成爬虫模板

基础爬虫示例

运行爬虫

5. 数据提取与Item定义

选择器使用

定义数据模型

在爬虫中使用Item

6. 数据存储与管道

内置存储方式

自定义管道示例

启用管道

7. 中间件与扩展

常用中间件类型

User-Agent轮换示例

中间件配置

8. 分布式爬虫与部署

使用Scrapy-Redis

配置分布式

部署到Scrapyd

9. 常见问题与优化

反爬对策

性能优化技巧

调试技巧

相关阅读