MaxCompute是什么意思

发布时间:2021-11-09 17:02:32 作者:柒染
来源:亿速云 阅读:238

MaxCompute是什么意思,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

很多刚初次接触MaxCompute的用户,面对繁多的产品文档内容以及社区文章,往往很难快速、全面了解MaxCompute产品全貌。同时,很多拥有大数据开发经验的开发者,也希望能够结合自身的背景知识,将MaxCompute产品能力与开源项目、商业软件之间建立某种关联和映射,以快速寻找或判断MaxCompute是否满足自身的需要,并结合相关经验更轻松地学习和使用产品。

这里将站在一个更宏观的视角来分主题地介绍MaxCompute产品,以期读者能够通过本文快速获取对MaxCompute产品的认识。

概念篇

产品名称:大数据计算服务(英文名:MaxCompute)

产品说明:MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

产品说明的前半部分,将MaxCompute定义为大数据计算服务,可以理解为它的功能定位于支持大数据计算,同时是一款基于云的服务化的产品。后半部分,说明了它的适用场景:大规模数据仓库、海量数据处理、分析。

单从这里还不能了解到大数据计算服务提供了哪些的计算能力,具备怎样的服务化?产品定义中出现了数据仓库字眼,我们能够了解到MaxCompute能够处理较大规模(这里提到了PB级别)结构化数据。而“海量数据处理”除了数据规模大之外,对于非结构化数据的处理有待验证,同时”分析”是否在常见的SQL分析能力之外,提供了其他复杂分析的能力。

带着这样的问题,我们继续开始介绍,希望在后面的内容中能够清晰地回答这些问题。

架构篇

在介绍功能前,先提纲挈领从产品整体逻辑结构开始,让读者有个全貌了解。

MaxCompute是什么意思

MaxCompute提供了云原生、多租户的服务架构,在底层大规模计算、存储资源之上预先构建好了MaxCompute计算服务、服务接口,提供了配套的安全管控手段和开发工具管理工具,产品开箱即用。

用户可以在阿里云控制台,在几分钟内完成服务开通并创建MaxCompute项目,无需进行底层资源开通、软件部署、基础设施运维,系统自动进行(由阿里云专业团队)版本升级、问题修复。

功能篇

数据存储

多种计算模型

需要说明的是,传统数据仓库场景下,实践中有大部分的数据分析需求可以通过SQL+UDF来完成。但随着企业对数据价值的重视以及更多不同的角色开始使用数据时,企业也会要求有更丰富的计算功能来满足不同场景、不同用户的需求。

MaxCompute不仅仅提供SQL数据分析语言,它在统一的数据存储和权限体系之上,支持了多种计算类型。

MaxCompute SQL:

TPC-DS 100% 支持,同时语法高度兼容Hive,有Hive背景开发者直接上手,特别在大数据规模下性能强大。

MapReduce:

MaxCompute Graph图模型:

PyODPS:

用熟悉的Python利用MaxCompute大规模计算能力处理MaxCompute数据。

PyODPS是MaxCompute 的 Python SDK,同时也提供 DataFrame 框架,提供类似 pandas 的语法,能利用 MaxCompute 强大的处理能力来处理超大规模数据。

Spark:

MaxCompute提供了Spark on MaxCompute的解决方案,使MaxCompute提供的兼容开源的Spark计算服务,让它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业。

交互式分析(Lightning)

MaxCompute产品的交互式查询服务,特性如下:

机器学习:

对比篇

为便于读者,特别是有开源社区经验的读者快速建立对MaxCompute主要功能的了解,这里做简单地映射说明。

项目

MaxCompute产品

对开源社区的一些比较说明

SQL

MaxCompute SQL

阿里自研SQL引擎,语法兼容Hive,功能和性能更优

MapReduce

MaxCompute MR

阿里自研,类似并支持Hadoop MapReduce,MaxCompute Open MR做了优化和提升

交互式

MaxCompute Lightning

Serverless的交互式查询服务,功能类似开源生态的Presto、Hawk等

Spark

Spark on MaxCompute

支持原生Spark运行在MaxCompute上,类似Spark on Yarn形态

机器学习

PAI

不同于开源社区的算法库,PAI有更丰富的算法,超大规模处理能力,更是覆盖了ML/DL全流程需求的平台服务。

存储

Pangu

阿里自研分布式存储服务,类似HDFS。MaxCompute对外目前只暴露表接口,不能直接访问文件系统。

资源调度

Fuxi

阿里自研的资源调度系统,类似Yarn。

数据上传下载

Tunnel

不暴露文件系统,通过Tunnel进行批量数据上传下载。

流式接入

Datahub

MaxCompute配套的流式数据接入服务,粗略地类似kafka,能够通过简单配置归档topic数据到MaxCompute表

用户接口

CLT/SDK

统一的命令行工具和JAVA/PYTHON SDK

开发&诊断

Dataworks/Studio/Logview

配套的数据同步、作业开发、工作流编排调度、作业运维及诊断工具。开源社区常见的Sqoop、Kettle、Ozzie等实现数据同步和调度。

整体

不是孤立的功能,完整的企业服务

不需要多组件集成、调优、定制,开箱即用。

问题篇

dataworks和MaxCompute之间的关系与区别?

这是2个产品,MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。

想测试、体验MaxCompute,成本费用高吗?

不高,应该说很低。MaxCompute提供了按作业付费的模式,其中单个作业的费用有和作业处理的数据大小密切相关。开通按量付费服务,并创建1项目。利用MaxCompute客户端工具(ODPSCMD)或者在dataworks里,创建表并上传测试数据,就可以开始测试体验了。数据不大的话,10元钱可以用很长一段时间。

当然,MaxCompute还有独占资源的模式,出于费用可控的考虑,也选择了预付费的模式。

另外,MaxCompute马上推出”开发者版”,每个月为开发者赠送一定的免费额度用于开发、学习。

MaxCompute存储目前只暴露表,能处理非结构化数据吗?

可以,非结构化数据可以存放在OSS上,一种方式是通过外表方式,通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外,也可以用Spark on MaxComputeOSS进行访问,通过Spark程序对OSS目录下的文件进行抽取转换,结果写入MaxCompute表。

支持哪些数据源接入到MaxCompute

通过Dataworks数据集成服务或者自己使用DataX,可以实现阿里云上的各种离线数据源如数据库、HDFSFTP等数据源的接入;

也可以用MaxCompute Tunnel工具/SDK,通过命令或SDK批量进行数据上传、下载;

流式数据,可以利用MaxCompute提供的Flume/logstash插件,将流式数据写入Datahub,然后归档到MaxCompute表;

支持阿里云SLSDTS服务数据写入MaxCompute表;

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

推荐阅读:
  1. IT是什么意思
  2. 怎么在MaxCompute上分析IP来源

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

maxcompute

上一篇:什么是UDP协议

下一篇:Django中的unittest应用是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》