Scrapy的内置数据结构主要是通过Selector和Item来解析网页。
from scrapy import Selector
# 创建一个Selector对象
selector = Selector(text=html_content)
# 使用XPath选择器提取数据
title = selector.xpath('//title/text()').extract_first()
import scrapy
class MyItem(scrapy.Item):
title = scrapy.Field()
content = scrapy.Field()
# 在爬虫中使用Item
item = MyItem()
item['title'] = title
item['content'] = content
通过使用Selector和Item这两种内置数据结构,可以方便地解析和提取网页中的数据,并将其保存到Item中进行进一步处理。同时,Scrapy还提供了很多其他功能,如中间件、管道、下载器等,可以帮助更好地实现网页数据的爬取和处理。