什么是网络爬虫技术

发布时间:2020-07-27 10:14:39 作者:Leah
来源:亿速云 阅读:238

今天就跟大家聊聊有关什么是网络爬虫技术,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的技术。网络爬虫又称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常的称为网页追逐者;另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的技术

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:

(1) 预先给定的初始抓取种子样本;

(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;

(3) 通过用户行为确定的抓取目标样例,分为:

(a) 用户浏览过程中显示标注的抓取样本;

(b) 通过用户日志挖掘得到访问模式及相关样本。

其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。

基于目标数据模式

基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

基于领域概念

另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。

看完上述内容,你们对什么是网络爬虫技术有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。

推荐阅读:
  1. 网络爬虫
  2. 爬虫技术详解

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

爬虫 网络

上一篇:postgresql为什么会连接数据库失败

下一篇:Hadoop2.6.0学习笔记(四)TextInputFormat及RecordReader解析

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》