Apache Arrow官方文档-元数据

发布时间:2020-04-14 22:47:34 作者:Lynn_Yuan
来源:网络 阅读:2308

元数据:逻辑类型,模式,数据头

这是Arrow元数据规范的文档,它使系统能够通信

{
  "type" : "DATA|OFFSET|VALIDITY|TYPE",
  "typeBitWidth" : /* int */
}

Type:
{
  "name" :"null|struct|list|union|int|floatingpoint|utf8|binary|fixedsizebinary|bool|decimal|date|time|timestamp|interval"
  // fields as defined in the Flatbuffer depending on the type name
}

Union:
{
  "name" : "union",
  "mode" : "Sparse|Dense",
  "typeIds" : [ /* integer */ ]
}

在Union中的typeIds字段是用于表示每种类型的编码,其可以与从子数组的索引不同。这样就可以使用联合类型ids不需要从0开始枚举。
Int:

{
  "name" : "int",
  "bitWidth" : /* integer */,
  "isSigned" : /* boolean */
}

FloatingPoint:

{
  "name" : "floatingpoint",
  "precision" : "HALF|SINGLE|DOUBLE"
}

Decimal:

{
  "name" : "decimal",
  "precision" : /* integer */,
  "scale" : /* integer */
}

Timestamp:

{
  "name" : "timestamp",
  "unit" : "SECOND|MILLISECOND|MICROSECOND|NANOSECOND"
}

Date:

{
  "name" : "date",
  "unit" : "DAY|MILLISECOND"
}

Time:

{
  "name" : "time",
  "unit" : "SECOND|MILLISECOND|MICROSECOND|NANOSECOND",
  "bitWidth": /* integer: 32 or 64 */
}

Interval:

{
  "name" : "interval",
  "unit" : "YEAR_MONTH|DAY_TIME"
}

Schema:
{
  "fields" : [
    /* Field */
  ]
}

记录数据头

  RecordBatch是顶级命名的等长Arrow数组(或向量)的集合。如果其中一个数组包含嵌套数据,则其子数组不需要与顶级数组的长度相同。
  可以被认为是特定模式的实现。描述特定RecordBatch的元数据称为“数据头”。这是用于RecordBatch数据头的Flatbuffers的IDL

table RecordBatch {
  length: long;
  nodes: [FieldNode];
  buffers: [Buffer];
}

  所述RecordBatch元数据提供与长度超过2^31- 1的记录批次,但Arrow实现不要求实现支持超出这一大小。
  通过对给定的内存中数据集的模式(可能包含嵌套类型)进行深度优先遍历/扁平化,生成nodes和buffers字段。

缓冲区

  缓冲区是描述相对于某些虚拟地址空间的连续内存区域的元数据。这可能包括:

平铺嵌套数据

  嵌套类型以深度优先顺序在record batch中扁平化。当访问嵌套类型树中的每个字段时,元数据将附加到顶级fields数组,并将与该字段相关联的缓冲区(但不是其子级)附加到buffers数组。
  例如,让我们考虑模式:

col1: Struct<a: Int32, b: List<Int64>, c: Float64>
col2: Utf8

其扁平化版本是:

FieldNode 0: Struct name='col1'
FieldNode 1: Int32 name=a'
FieldNode 2: List name='b'
FieldNode 3: Int64 name='item'  # arbitrary
FieldNode 4: Float64 name='c'
FieldNode 5: Utf8 name='col2'

  对于生成的缓冲区,将具有以下内容(如下面对于每种类型的更详细描述):

buffer 0: field 0 validity bitmap

buffer 1: field 1 validity bitmap
buffer 2: field 1 values <int32_t*>

buffer 3: field 2 validity bitmap
buffer 4: field 2 list offsets <int32_t*>

buffer 5: field 3 validity bitmap
buffer 6: field 3 values <int64_t*>

buffer 7: field 4 validity bitmap
buffer 8: field 4 values <double*>

buffer 9: field 5 validity bitmap
buffer 10: field 5 offsets <int32_t*>
buffer 11: field 5 data <uint8_t*>

逻辑类型

  逻辑类型由类型名称和元数据以及对物理内存表示的显式映射组成。这些可能分为不同的类别:

  整数字节顺序当前在模式级别全局设置。如果一个模式设置为little-endian(低位编址),那么出现在其中的所有整数类型都必须是little-endian。整数作为其他数据表示的一部分(如列表偏移量和联合类型)必须与整个Record Batch具有相同的字节顺序。

浮点数字

  我们提供3种类型的浮点数作为固定位宽的基本数组

enum Precision:int {HALF, SINGLE, DOUBLE}

table FloatingPoint {
  precision: Precision;
}

Boolean

  布尔逻辑类型表示为1位宽的基本(原语)物理类型。这些位使用最低有效位(LSB)排序进行编号。
  像其他固定的位宽基本类型一样,布尔数据在数据头中显示为2个缓冲区(一个位图为有效向量,另一个为值)。

List

  List逻辑类型是(和相同名称)列表物理类型的逻辑对应。
  在数据头格式中,List字段节点包含2个缓冲区:

Timestamp

  所有时间戳都以64位整数存储,有四个单位:秒,毫秒,微秒和纳秒。

Date

  支持两种不同的日期类型:

Time

  时间支持相同的单位:秒,毫秒,微秒和纳秒。我们将时间表示为容纳指定单位的最小整数。对于秒和毫秒:32位,其他64位。

字典编码

推荐阅读:
  1. Apache Arrow 晋升为Apache基金会顶级项目
  2. Apache Calcite官方文档中文版- 进阶-4. Lattices

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

arrow metadata flatbuffer

上一篇:PHP获取中文首字母函数

下一篇:php -v 找不到命令

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》