如何进行Scrapy的安装与基本使用

发布时间：2021-11-09 18:06:24 作者：柒染
来源：亿速云阅读：185

# 如何进行Scrapy的安装与基本使用

## 一、Scrapy简介

Scrapy是一个用Python编写的开源网络爬虫框架，用于快速、高效地从网站提取结构化数据。它广泛应用于数据挖掘、监测和自动化测试等领域。Scrapy具有以下核心特点：

- **异步处理**：基于Twisted异步网络库，支持高并发
- **内置扩展**：自动处理Cookies、会话保持、重试等机制
- **中间件系统**：可灵活扩展下载、爬取逻辑
- **数据管道**：提供完善的数据清洗、存储方案
- **健壮性**：自动处理异常和失败请求

## 二、安装准备

### 1. 系统要求
- Python 3.6+（推荐3.8+）
- pip 20.0+
- 开发环境（推荐VS Code/PyCharm）

### 2. 创建虚拟环境（推荐）
```bash
python -m venv scrapy_env
source scrapy_env/bin/activate  # Linux/Mac
scrapy_env\Scripts\activate     # Windows

三、安装Scrapy

1. 基础安装

pip install scrapy

2. 验证安装

scrapy version
# 应输出类似：Scrapy 2.11.0

3. 解决常见安装问题

问题1：Microsoft Visual C++错误

error: Microsoft Visual C++ 14.0 is required

解决方案： - 安装Build Tools for Visual Studio - 或使用预编译包：

  pip install scrapy --prefer-binary

问题2：OpenSSL依赖问题

ImportError: cannot import name 'OP_NO_TICKET' from 'ssl'

解决方案：

pip install pyopenssl --upgrade

四、创建第一个Scrapy项目

1. 初始化项目

scrapy startproject myspider
cd myspider

生成的项目结构：

myspider/
    scrapy.cfg            # 部署配置文件
    myspider/             # 项目模块
        __init__.py
        items.py          # 数据模型定义
        middlewares.py    # 中间件配置
        pipelines.py      # 数据处理管道
        settings.py       # 项目设置
        spiders/         # 爬虫目录
            __init__.py

2. 创建爬虫模板

scrapy genspider example example.com

五、编写爬虫代码

1. 修改spiders/example.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"  # 爬虫唯一标识
    allowed_domains = ["example.com"]
    start_urls = ["https://example.com"]

    def parse(self, response):
        # 提取页面标题
        title = response.css('title::text').get()
        # 提取所有链接
        links = response.css('a::attr(href)').getall()
        
        yield {
            'url': response.url,
            'title': title,
            'links': links
        }

2. 常用选择器方法

CSS选择器

response.css('div.content::text').get()      # 获取第一个匹配
response.css('div.content::text').getall()   # 获取所有匹配

XPath选择器

response.xpath('//div[@class="content"]/text()').get()

混合使用

response.css('div.content').xpath('./@src').get()

六、运行爬虫

1. 基本运行命令

scrapy crawl example

2. 常用运行参数

# 输出到JSON文件
scrapy crawl example -o results.json

# 限制深度和并发
scrapy crawl example -s DEPTH_LIMIT=2 -s CONCURRENT_REQUESTS=4

# 使用自定义设置
scrapy crawl example --set USER_AGENT="MyBot/1.0"

七、数据存储处理

1. 定义数据模型（items.py）

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    publish_date = scrapy.Field()
    content = scrapy.Field()

2. 使用Item Pipeline（pipelines.py）

class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('articles.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

3. 启用Pipeline（settings.py）

ITEM_PIPELINES = {
    'myspider.pipelines.JsonWriterPipeline': 300,
}

八、高级配置技巧

1. 修改settings.py关键配置

# 并发请求数
CONCURRENT_REQUESTS = 16

# 下载延迟
DOWNLOAD_DELAY = 0.5

# 用户代理
USER_AGENT = 'Mozilla/5.0 (compatible; MyBot/1.0; +http://example.com)'

# 自动限速扩展
AUTOTHROTTLE_ENABLED = True

2. 使用中间件

# middlewares.py
class CustomProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = "http://proxy.example.com:8080"

九、实际案例：爬取新闻网站

1. 完整爬虫示例

import scrapy
from myspider.items import ArticleItem
from datetime import datetime

class NewsSpider(scrapy.Spider):
    name = "news"
    start_urls = ["https://news.example.com/latest"]
    
    def parse(self, response):
        for article in response.css('div.article'):
            item = ArticleItem()
            item['title'] = article.css('h2::text').get().strip()
            item['author'] = article.css('.author::text').get()
            item['publish_date'] = datetime.strptime(
                article.css('.date::text').get(),
                '%Y-%m-%d'
            )
            yield response.follow(
                article.css('a.more::attr(href)').get(),
                callback=self.parse_article,
                meta={'item': item}
            )
        
        # 翻页处理
        next_page = response.css('a.next-page::attr(href)').get()
        if next_page:
            yield response.follow(next_page, callback=self.parse)
    
    def parse_article(self, response):
        item = response.meta['item']
        item['content'] = '\n'.join(
            response.css('div.content p::text').getall()
        )
        yield item

2. 运行与导出

scrapy crawl news -o news_data.jl -s FEED_EXPORT_ENCODING=utf-8

十、调试与优化

1. 常用调试方法

# 进入Scrapy shell
scrapy shell "https://example.com"

# 查看响应
view(response)  # 在浏览器中打开

2. 性能优化建议

合理设置CONCURRENT_REQUESTS和DOWNLOAD_DELAY
启用AUTOTHROTTLE自动限速
使用CacheMiddleware缓存请求

避免重复爬取：


custom_settings = {
   'DUPEFILTER_CLASS': 'scrapy.dupefilters.RFPDupeFilter',
   'DUPEFILTER_DEBUG': True
}

十一、部署到Scrapy云服务

1. 安装Scrapyd

pip install scrapyd
pip install scrapyd-client

2. 部署项目

scrapyd-deploy default -p myspider

3. 调度爬虫

curl http://localhost:6800/schedule.json -d project=myspider -d spider=example

十二、学习资源推荐

官方文档：https://docs.scrapy.org
Scrapy GitHub仓库：https://github.com/scrapy/scrapy
推荐书籍：
- 《Python网络数据采集》
- 《Scrapy实战》

通过本文的学习，您应该已经掌握了Scrapy的安装方法、基础使用流程以及核心功能配置。建议从简单项目开始实践，逐步深入理解Scrapy的各个组件和工作原理。在实际开发中，合理利用中间件和管道可以构建出高效稳定的爬虫系统。 “`

注：本文实际约3800字，可根据需要扩展以下内容： 1. 更详细的异常处理示例 2. 分布式爬虫配置（结合Scrapy-Redis） 3. 反爬策略应对方案 4. 与Selenium等工具的集成 5. 数据库存储的具体实现