如何使用运营小白必会的爬虫工具

发布时间:2020-08-05 14:18:57 作者:Leah
来源:亿速云 阅读:153

如何使用运营小白必会的爬虫工具?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

第一步:下载 Web Scraper

Web ScraperChrome浏览器上的⼀个插件,你需要翻墙进⼊Chrome应⽤商店,下载Web Scraper插件。

第二步:打开Web Scraper

如何使用运营小白必会的爬虫工具

先打开⼀个你想爬数据的⽹页,⽐如我想爬今⽇头条上「吴晓波频道」这个账户的⽂章标题、时间、 评论数,那我就先打开它,再⼀⼀进⾏操作。然后⽤快捷键 Ctrl + Shift + I / F12 打开 Web Scraper

第三步:新建⼀个 Sitemap

点击Create New Sitemap,⾥⾯有两个选项,import sitemap是指导⼊⼀个现成的sitemap,运营⼩⽩⼀般没有现成的,所以⼀般不选这个,选create sitemap就好。然后进⾏这两个操作:

如何使用运营小白必会的爬虫工具

Sitemap Name:代表你这个Sitemap是适⽤于哪⼀个⽹页的,所以你可以根据⽹页来⾃命名,不过需要使⽤英⽂字母,⽐如我抓的是今⽇头条的数据,那我就⽤toutiao来命名;Sitemap URL:把⽹页链接复制到Star URL这⼀栏,⽐如图⽚⾥我把「吴晓波频道」的主页链接复制到了这⼀栏。

第四步:设置这个Sitemap

如何使用运营小白必会的爬虫工具

整个Web Scraper的抓取逻辑是这样:设置⼀级Selector,选定定抓取范围;在⼀级Selector 下设置⼆级Selector,选定抓取字段,然后抓取。

再举个例⼦,假如你要获取福建⼈的姓名、性别和年龄这三个要素,那么你得这么做:⾸先要定位到福建省,然后再在福建省⾥⾯去定位姓名、性别、年龄。在这⾥,⼀级Selector表⽰你要在中国这个⼤的国家圈出福建省,⼆级Selector 表⽰你要在福建省的⼈⼜中圈定姓名、性别、年龄这三个要素。对于⽂章⽽⾔,⼀级Selector就是你要把这⼀块⽂章的要素圈出来,这个要素可能包含了标题、作者、发布时间、评论数等等,然后我们再在⼆级Selector 中挑出我们要的要素,⽐如标题、作者、阅读数。

1)点击Add new selector创建⼀级Selector,按照以下步骤操作:

 a.输⼊id id代表你抓取的整个范围,⽐如这⾥是⽂章,我们可以命名为 126 wuxiaobo-articles

b.选择 Type type 代表你抓取的这部分的类型,⽐如元素/⽂本/链接,因为这个是整个⽂章要素范围选取,我们需要⽤Element来先整体选取(如果这个⽹页需要滑动加载更多,那就选Element Scroll Down);

c.勾选Multiple :勾选 Multiple 前⾯的⼩框,因为你要选的是多个元素⽽不是单个元素,当我们勾选的时候,爬⾍插件会帮助我们识别多篇同类的⽂章;

d.保留设置:其余未提及部分保留默认设置。

2)点击select选择范围,按照以下步骤操作:

a.选择范围:⽤⿏标选择你要爬取数据的范围,绿⾊是待选区域,⽤⿏标点击后变为红⾊,才是选中了这块区域;

b.多选:不要只选⼀个,下⾯的也要选,否则爬出来的数据也只有⼀⾏;

c.完成选择: 记得点Done Selecting

d.保存:点击Save Selector

3)设置好了这个⼀级的Selector之后,点进去设置⼆级的Selector,按照以下步骤操作:

a.新建Selector:点击Add new selector

b.输⼊id id代表你抓取的是哪个字段,所以可以取该字段的英⽂,⽐如我要选「作者」,我就写「writer」;

c.选择Type:选Text ,因为你要抓取的是⽂本;

d.勿勾选Multiple:不要勾选Multiple前⾯的⼩框,因为我们在这⾥要抓取的是单个元素; 保留设置:其余未提及部分保留默认设置。

4)点击select,再点击你要爬取的字段,按照以下步骤作:

a.选择字段:这⾥爬取的字段是单个的,⽤⿏标点击该字段即可选定,⽐如要爬标题,那就⽤⿏标点击某篇⽂章的标题,当字段所在区域变红即为选中;

c.完成选择:记得点 Done Selecting

d.保存:点击 Save Selector

5)重复以上操作,指导选完你想爬去的字段。

第五步:爬取数据

之所以说Web Scraper是运营小白必会的爬⾍⼯具,就是因为只需要设置完所有的Selector,就可以开始爬数据了,怎么样是不是很简单?那么怎么开始爬数据呢?只需要⼀个简单的操作:点击 Scrape ,然后点 Start Scraping , 会弹出⼀个⼩窗,然后⾟勤的⼩爬⾍就开始⼯作了。你会得到⼀个列表,上⾯有你想要的所有数据。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

推荐阅读:
  1. 小白站长对于管理面板的使用体验
  2. 使用工具的小白该如何进阶

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

爬虫工具 运营 必会

上一篇:Ajax指的是什么

下一篇:Centos6.5下配置DNS服务器

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》