Spark MLlib机器学习是什么

发布时间:2021-12-16 13:48:07 作者:iii
来源:亿速云 阅读:150

这篇文章主要介绍“Spark MLlib机器学习是什么”,在日常操作中,相信很多人在Spark MLlib机器学习是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark MLlib机器学习是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

MLlib是Spark提供的一个机器学习库,通过调用MLlib封装好的算法,可以轻松地构建机器学习应用。它提供了非常丰富的机器学习算法,比如分类、回归、聚类及推荐算法。除此之外,MLlib对用于机器学习算法的API进行了标准化,从而使将多种算法组合到单个Pipeline或工作流中变得更加容易。

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

 

什么是机器学习

Spark MLlib机器学习是什么  

机器学习的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习是人工智能的一个分支学科,主要研究的是让机器从过去的经历中学习经验,对数据的不确定性进行建模,对未来进行预测。机器学习应用的领域很多,比如搜索、推荐系统、垃圾邮件过滤、人脸识别、语音识别等等。

 

大数据与机器学习

大数据时代,数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长,由此诞生了一系列的以Hadoop为代表的大数据技术,这些大数据技术为处理和存储这些数据提供了可靠的保障。

数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题,需要加之人们的一些经验,将其转换为信息,所谓信息,也就是为了消除不确定性,我们常说信息不对称,指的就是在不能够获取足够的信息时,很难消除一些不确定的因素。而知识则是最高阶段,所以数据挖掘也叫知识发现。

机器学习的任务就是利用一些算法,作用于大数据,然后挖掘背后所蕴含的潜在的知识。训练的数据越多,机器学习就越能体现出优势,以前机器学习解决不了的问题,现在通过大数据技术可以得到很好的解决,性能也会大幅度提升,如语音识别、图像识别等等。

 

机器学习分类

机器学习主要分为下面几大类:

 

Spark MLLib介绍

MLlib是Spark的机器学习库,通过该库可以简化机器学习的工程实践工作。MLlib包含了非常丰富的机器学习算法:分类、回归、聚类、协同过滤、主成分分析等等。目前,MLlib分为两个代码包:spark.mllibspark.ml

 

spark.mllib

Spark MLlib是Spark的重要组成部分,是最初提供的一个机器学习库。该库有一个缺点:如果数据集非常复杂,需要做多次处理,或者是对新数据需要结合多个已经训练好的单个模型进行综合计算时,使用Spark MLlib会使程序结构变得复杂,甚至难以理解和实现。

spark.mllib是基于RDD的原始算法API,目前处于维护状态。该库下包含4类常见的机器学习算法:分类回归聚类协同过滤。指的注意的是,基于RDD的API不会再添加新的功能。

 

spark.ml

Spark1.2版本引入了ML Pipeline,经过多个版本的发展,Spark ML克服了MLlib处理机器学习问题的一些不足(复杂、流程不清晰),向用户提供了基于DataFrame API的机器学习库,使得构建整个机器学习应用的过程变得简单高效。

Spark ML不是正式名称,用于指代基于DataFrame API的MLlib库 。与RDD相比,DataFrame提供了更加友好的API。DataFrame的许多好处包括Spark数据源,SQL / DataFrame查询,Tungsten和Catalyst优化以及跨语言的统一API。

Spark ML API提供了很多数据特征处理函数,如特征选取、特征转换、类别数值化、正则化、降维等。另外基于DataFrame API的ml库支持构建机器学习的Pipeline,把机器学习过程一些任务有序地组织在一起,便于运行和迁移。Spark官方推荐使用spark.ml库。

 

数据变换

数据变换是数据预处理的一项重要工作,比如对数据进行规范化、离散化、衍生指标等等。Spark ML中提供了非常丰富的数据转换算法,详细可以参考官网,现归纳如下:

Spark MLlib机器学习是什么  

上面的转换算法中,词频逆文档频率(TF-IDF)、Word2Vec、PCA是比较常见的,如果你做过文本挖掘处理,那么对此应该并不陌生。

 

数据规约

大数据是机器学习的基础,为机器学习提供充足的数据训练集。在数据量非常大的时候,需要通过数据规约技术删除或者减少冗余的维度属性以来达到精简数据集的目的,类似于抽样的思想,虽然缩小了数据容量,但是并没有改变数据的完整性。Spark ML提供的特征选择和降维的方法如下表所示:

Spark MLlib机器学习是什么  

选择特征和降维是机器学习中常用的手段,可以使用上述的方法减少特征的选择,消除噪声的同时还能够维持原始的数据结构特征。尤其是主成分分析法(PCA),无论是在统计学领域还是机器学习领域,都起到了很重要的作用。

 

机器学习算法

Spark支持分类、回归、聚类、推荐等常用的机器学习算法。见下表:

Spark MLlib机器学习是什么    

到此,关于“Spark MLlib机器学习是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

推荐阅读:
  1. 14.spark mllib之快速入门
  2. 1.spark简介

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

spark mllib

上一篇:Spark的failover容错机制是什么

下一篇:Linux sftp命令的用法是怎样的

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》