GPU推理学习

  |   0 评论   |   0 浏览

背景

本文记录学习一下深度学习模型的知识。

TensorRT

[1]

TensorRT: NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。

Triton

[1]

类似于TensorFlow Serving,但triton包括server和client。

triton serving能够实现不同模型的统一部署和服务,提供http和grpc协议,给triton client请求模型推理。

Triton Inference Server核心的几个功能给大家介绍一下:

[2]

  • 多框架支持 :Triton支持了几乎所有主流的机器学习框架,例如Tensorflow、TensorRT、Pytorch、Python、ONNX等;同时也可以custom backend的方式来扩展解码引擎。
  • 高性能 :Triton提供了dynamic batching、concurrent execution、optimal model configuration、model ensemble、dali model 等策略来提升在线推理的性能;同时也提供了perf analyze和model analyze工具来辅助我们进行性能调优。
  • MLOps :Triton提供了Prometheus exporter、模型在线更新、http server 、grpc server等多种在线服务策略以满足用户生产场景多样化的部署和运维需求。

参考

  1. TensorRT&Triton学习笔记(一):triton和模型部署+client
  2. Triton Inference Server介绍