MLOps调研
背景
MLOps技术方案选型调研
传统机器学习重点 vs. 深度学习重点
聚焦分析探索 vs. 聚焦产品化
关注数据科学平民化 vs. 数据科学专家
专业化方法 vs. 端到端方法
MLOps 平台一览
大厂情况
- Uber:Michelangelo
- Netflix:Metaflow
- Google: kubeflow
调研
Valohai
对标开源的kubeflow。
Kubeflow有四个主要组件:
- JupyterHub:交互式开发
- TFJobs:监控kubernetes训练任务
- Katib:超参数优化
- Pipelines:python编辑的无环图操作
Valohai:
接入方式:更丰富
- Jupyter add-on
- command-line client
- web UI
- open REST API
功能:
- 训练:本地 / git / jupyter notebook触发
- 任务:并发运行超参数优化
- 流水线:支持复杂流水线
- 部署:将serving代码,通过http endpoint部署到自扩缩的集群上
- 数据:数据血缘管理
- Jupyter Add-on:可以从本地 / notebook运行
- 集成性:权限控制,云,硬件,数据存储,CI服务,git账号,docker源等
详见白皮书:kubeflow-valohai-compare