MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
parquetfile的读val parquetFile=sqlContext.read.parquet("hdfs://&quo...
Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, S...
分析spark 的delta datasource的构建要从DataSource.lookupDataSourceV2开始,之后会流向到loadV1S...
一本书中看到完全相反的两个观点。矛盾!!!!谁知道具体细节和结论,给留下个评论1、一边Mapper一边Reducer 2、完成Mapper之后,才进行...