怎么用scrapyd+gerapy进行项目部署

发布时间：2021-08-30 12:44:43 作者：chen
来源：亿速云阅读：179

# 怎么用Scrapyd+Gerapy进行项目部署

## 目录
1. [前言](#前言)
2. [Scrapyd简介](#scrapyd简介)
3. [Gerapy简介](#gerapy简介)
4. [环境准备](#环境准备)
5. [Scrapyd安装与配置](#scrapyd安装与配置)
6. [Gerapy安装与配置](#gerapy安装与配置)
7. [项目部署实战](#项目部署实战)
8. [常见问题与解决方案](#常见问题与解决方案)
9. [总结](#总结)

## 前言
在爬虫开发领域，如何高效地管理和部署分布式爬虫项目是开发者面临的重要挑战。本文将详细介绍如何通过Scrapyd+Gerapy的组合实现爬虫项目的可视化管理和一键化部署，提升爬虫项目管理效率。

## Scrapyd简介
Scrapyd是一个用于部署和运行Scrapy爬虫的应用服务器，主要特点包括：
- 支持通过JSON API管理爬虫
- 提供项目版本控制
- 支持多项目并行管理
- 内置任务调度功能

## Gerapy简介
Gerapy是基于Scrapyd的分布式爬虫管理框架，核心功能有：
- 可视化项目管理界面
- 定时任务配置
- 爬虫监控仪表盘
- 多节点集中管理
- 日志分析系统

## 环境准备
### 基础环境要求
- Python 3.6+
- Scrapy 2.0+
- 推荐使用虚拟环境：
  ```bash
  python -m venv scrapy_env
  source scrapy_env/bin/activate  # Linux/Mac
  scrapy_env\Scripts\activate     # Windows

Scrapyd安装与配置

安装步骤

pip install scrapyd
pip install scrapyd-client  # 用于项目打包

配置文件

创建/etc/scrapyd/scrapyd.conf（Linux）或C:\scrapyd\scrapyd.conf（Windows）：

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   = items
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

启动服务

scrapyd
# 后台运行建议使用：
scrapyd > /dev/null 2>&1 &

Gerapy安装与配置

安装步骤

pip install gerapy

初始化项目

gerapy init
cd gerapy
gerapy migrate

启动服务

gerapy runserver 0.0.0.0:8000

配置文件

修改gerapy/gerapy/settings.py：

# 允许访问的host
ALLOWED_HOSTS = ['*']

# 数据库配置（默认SQLite）
DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.sqlite3',
        'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),
    }
}

# 静态文件配置
STATIC_URL = '/static/'
STATIC_ROOT = os.path.join(BASE_DIR, 'static')

项目部署实战

1. 准备Scrapy项目

确保项目结构完整：

myproject/
├── scrapy.cfg
└── myproject/
    ├── __init__.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    ├── settings.py
    └── spiders/
        └── __init__.py

2. 配置scrapy.cfg

[settings]
default = myproject.settings

[deploy]
url = http://localhost:6800/
project = myproject

3. 通过Gerapy部署

访问http://localhost:8000
创建新项目
上传项目代码（支持Git仓库或直接上传）
配置部署节点（Scrapyd服务器地址）
点击”部署”按钮

4. 高级部署选项

# 在scrapy项目的settings.py中添加：
DEPLOY_SETTINGS = {
    'version': 'v1.0',  # 自定义版本号
    'egg_excludes': ['*.txt', '*.md'],  # 排除文件
    'requires': ['scrapy>=2.5.0'],  # 依赖声明
}

5. 定时任务配置

Gerapy支持crontab格式的定时任务：

# 每天凌晨1点执行
0 1 * * * 

# 每30分钟执行一次
*/30 * * * *

常见问题与解决方案

1. 部署时报错”ImportError”

问题原因：依赖未正确安装
解决方案：

# 在Scrapyd服务器上安装依赖
pip install -r requirements.txt

2. Gerapy无法连接Scrapyd

检查步骤： 1. 确认Scrapyd服务已启动 2. 检查防火墙设置 3. 验证scrapy.cfg中的url配置

3. 项目打包失败

常见原因： - 项目结构不规范 - 包含非法字符的文件名

调试方法：

scrapyd-deploy --build-egg=output.egg

4. 内存泄漏问题

优化建议： - 在spider中及时关闭文件句柄 - 使用close_spider进行资源清理 - 限制CONCURRENT_REQUESTS数量

总结

Scrapyd+Gerapy的组合为爬虫项目管理提供了完整的解决方案： 1. 标准化部署流程：通过统一接口管理所有爬虫项目 2. 可视化操作：降低团队协作成本 3. 集中监控：实时掌握爬虫运行状态 4. 灵活扩展：支持分布式节点管理

最佳实践建议

为每个项目创建独立虚拟环境
使用Git进行版本控制
建立完善的日志记录系统
定期备份Gerapy的数据库

扩展学习

结合Docker实现容器化部署
集成Prometheus实现性能监控
开发自定义Gerapy插件

注意：本文基于Scrapyd 1.3.0和Gerapy 0.9.6版本编写，不同版本可能存在配置差异。建议参考官方文档获取最新信息。 “`

这篇文章共计约2550字，采用Markdown格式编写，包含详细的配置示例和实用建议。如需调整内容长度或补充特定细节，可以进一步扩展各章节的具体操作说明或添加更多实际案例。

怎么用scrapyd+gerapy进行项目部署

Scrapyd安装与配置

安装步骤

配置文件

启动服务

Gerapy安装与配置

安装步骤

初始化项目

启动服务

配置文件

项目部署实战

1. 准备Scrapy项目

2. 配置scrapy.cfg

3. 通过Gerapy部署

4. 高级部署选项

5. 定时任务配置

常见问题与解决方案

1. 部署时报错”ImportError”

2. Gerapy无法连接Scrapyd

3. 项目打包失败

4. 内存泄漏问题

总结

最佳实践建议

扩展学习

相关阅读