scrapy框架的简单介绍

发布时间:2021-09-15 17:40:37 作者:chen
来源:亿速云 阅读:122

这篇文章主要介绍“scrapy框架的简单介绍”,在日常操作中,相信很多人在scrapy框架的简单介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”scrapy框架的简单介绍”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

1.Scrapy五大基本构成

2.使用scrapy框架爬取网页数据

scrapy框架的简单介绍

这样我们就成功的创建了一个scrapy项目,我们在PyCharm中看看

scrapy框架的简单介绍

scrapy框架的简单介绍

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "csdn",])

3.Xpath选择器的介绍

表达式书写方式表达式意义
*选择HTML页面中任意的节点
/从根节点选取
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.选取当前节点
..选取当前节点的父节点
/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素
//title[ @lang ]选取所有拥有名为 lang 的属性的 title 元素
//title[ @lang =’eng’]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00
/bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00
//*选取文档中的所有元素
//title[@*]选取所有带有属性的 title 元素
//book/title , //book/price选取 book 元素的所有 title 和 price 元素
//title , //price选取文档中的所有 title 和 price 元素
child::book选取所有属于当前节点的子元素的 book 节点
child::text()选取当前节点的所有文本子节点
/bookstore/book/title选取所有 title 节点
/bookstore/book/price/text()选取 price 节点中的所有文本
//*任意元素

使用XPath

我们来通过XPath选择器爬取网站中我们想要爬取的信息,如下图我们来爬去今日推荐中的标题
scrapy框架的简单介绍

import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       # 选择所有class="company_name"的h4元素下的a元素的文本 
       result = response.xpath('//h4[@class="company_name"]/a/text()').extract()
       # 将得到的文本列表循环 
       for i in result:
           print(i)

我们来看一下输出打印,看看是不是我们想要的结果

scrapy框架的简单介绍

到此,关于“scrapy框架的简单介绍”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

推荐阅读:
  1. Scrapy爬虫框架的介绍和使用
  2. hadoop框架结构简单介绍

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

scrapy

上一篇:如何解决Ajax请求过程中下载文件在FireFox浏览器下的兼容问题

下一篇:简化React Hook的方法有哪些

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》