Apache Arrow官方文档-IPC进程间通信

发布时间:2020-06-18 14:25:52 作者:Lynn_Yuan
来源:网络 阅读:1701

封装消息格式

  流和文件格式中的数据组件表示为封装 消息,包括:

 所述metadata_size包括flatbuffer加填充的大小。所述 Message flatbuffer包括版本号,特定消息(作为flatbuffer联合),和消息体的大小:

table Message {
  version: org.apache.arrow.flatbuf.MetadataVersion;
  header: MessageHeader;
  bodyLength: long;
}

  目前,我们支持4种类型的消息:

流式格式

  我们提供用于RecordBatch的流格式。它被作为封装消息的序列呈现,每个消息遵循上述格式。该模式首先在流中,对于以后的所有RecordBatch都是相同的。如果模式中的任何字段都是字典编码的,则一个或多个 DictionaryBatch消息将跟随模式。

<SCHEMA>
<DICTIONARY 0>
...
<DICTIONARY k - 1>
<RECORD BATCH 0>
...
<RECORD BATCH n - 1>
<EOS [optional]: int32>

  当流读取器实现读取流时,在每个消息之后,它可以读取接下来的4个字节以知道以下消息元数据的大小。读取消息flatbuffer后,您可以读取消息体。
  流写入器可以通过写入0长度作为int32或简单地关闭流接口来发送流终端(EOS)信号。

文件格式

  我们以与流格式非常相似的格式定义支持随机访问的“文件格式”。该文件以魔术字符串ARROW1 (加上填充)开始和结束。文件中的内容与流格式相同。在文件末尾,我们编写一个页脚,包括文件中每个数据块的偏移量和大小,以便随机访问是可以实现的。有关文件页脚的精确细节,请参阅 format / File.fbs。
示意, 我们有:

<magic number "ARROW1">
<empty padding bytes [to 8 byte boundary]>
<STREAMING FORMAT>
<FOOTER>
<FOOTER SIZE: int32>
<magic number "ARROW1">

RecordBatch体结构

所述RecordBatch元数据包含一个深度优先(先序)扁平化设置字段的元数据和物理内存缓冲区(Message.fbs 中的一些注释已经缩短/移除):

table RecordBatch {
  length: long;
  nodes: [FieldNode];
  buffers: [Buffer];
}

struct FieldNode {
  length: long;
  null_count: long;
}

struct Buffer {
  /// The shared memory page id where this buffer is located. Currently this is
  /// not used
  page: int;

  /// The relative offset into the shared memory page where the bytes for this
  /// buffer starts
  offset: long;

  /// The absolute length (in bytes) of the memory buffer. The memory is found
  /// from offset (inclusive) to offset + length (non-inclusive).
  length: long;
}

  在文件的上下文中,不使用page,Buffer偏移量用作消息正文开头的参考帧。因此,在通用IPC设置中,这些偏移量可能是一个或多个共享内存区域中的任何位置,在文件格式中偏移量从0开始。
  RecordBatch的位置以及元数据块的大小以及缓冲区的大小存储在文件页脚中:

struct Block {
  offset: long;
  metaDataLength: int;
  bodyLength: long;
}

  一些关于这个的注释

推荐阅读:
  1. Apache Arrow 晋升为Apache基金会顶级项目
  2. Apache Flink官方文档-Flink CEP

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

arrow ipc tensor

上一篇:.Net如何获取iis版本?

下一篇:JVM的类加载机制和应用

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》