携程基于Flink的实时特征平台

发布时间:2020-08-10 06:46:06 作者:Ververica
来源:网络 阅读:886

作者:刘康

本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。

本文主要内容如下:

一、在公司实时特征开发的现状基础上,说明实时特征平台的开发背景、目标以及现状

1、原实时特征作业的开发运维;

1.1、选择实时计算平台:依据项目的性能指标要求(latency,throughput等),在已有的实时计算平台:Storm Spark flink进行选择

1.2主要的开发运维过程:

2、原实时特征作业的开发痛点

3、基于整理的痛点,确定下来的平台目标

4、特征平台系统架构

携程基于Flink的实时特征平台cdn.xitu.io/2019/4/26/16a58bda2256a5fc?w=865&h=525&f=png&s=57691">

现在的架构是标准lamda架构,离线部分由spark sql + dataX组成。现在使用的是KV存储系统Aerospike,跟redis的主要区别是使用SSD作为主存,我们压测下来大部分场景读写性能跟redis在同一个数据量级。

实时部分:使用flink作为计算引擎,介绍一下用户的使用方式:

用户完成上面的操作后,平台将所有信息写入到json配置文件。下一步平台将配置文件和之前准备好的flinkTemplate.jar(包含所有平台所需的flink功能)提交给yarn,启动flink job。

5、平台功能展示

1)平台功能展示-数据源注册
携程基于Flink的实时特征平台

2)实时特征编辑-基本信息
携程基于Flink的实时特征平台

3)实时特征编辑-数据源选择

携程基于Flink的实时特征平台

4)实时特征编辑-SQL计算

携程基于Flink的实时特征平台

5)实时特征编辑-选择输出

携程基于Flink的实时特征平台

二、选择Flink的原因

我们下面一个我们说一下我们选择flink来做这个特征平台的原因。

携程基于Flink的实时特征平台

分为三个维度:最高延迟、容错、sql功能成熟度

携程基于Flink的实时特征平台

2、兼容开发:flink现在没有对Aerospike提供读写支持,所以需要二次开发

携程基于Flink的实时特征平台

3、碰到的坑

携程基于Flink的实时特征平台

四、平台当前效果&未来规划

当前效果:将实时特征上线周期从原平均3天-5天降至小时级。未来规划:

下一步的规划是通过sql或者DSL来描述模型部署和模型训练

携程基于Flink的实时特征平台

更多资讯请访问 Apache Flink 中文社区网站

推荐阅读:
  1. 携程实时计算平台架构与实践丨DataPipeline
  2. Android实现去哪儿携程地址互换效果

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

flink 实时计算 流数据

上一篇:解放虚商和控制台同学的利器,新版控制台运营中心(一期)上线啦!

下一篇:配置PLSQL Developer详细步骤

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》