GPU推理学习
背景
本文记录学习一下深度学习模型的知识。
TensorRT
[1]
TensorRT: NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。
Triton
[1]
类似于TensorFlow Serving,但triton包括server和client。
triton serving能够实现不同模型的统一部署和服务,提供http和grpc协议,给triton client请求模型推理。
Triton Inference Server核心的几个功能给大家介绍一下:
[2]
- 多框架支持 :Triton支持了几乎所有主流的机器学习框架,例如Tensorflow、TensorRT、Pytorch、Python、ONNX等;同时也可以custom backend的方式来扩展解码引擎。
- 高性能 :Triton提供了dynamic batching、concurrent execution、optimal model configuration、model ensemble、dali model 等策略来提升在线推理的性能;同时也提供了perf analyze和model analyze工具来辅助我们进行性能调优。
- MLOps :Triton提供了Prometheus exporter、模型在线更新、http server 、grpc server等多种在线服务策略以满足用户生产场景多样化的部署和运维需求。