在今年的 GTC 2018 大会上,NVIDIA 发布了 NVIDIA TensorRT™ 4.0,NVIDIA TensorRT™ 是一种高性能深度学习推理优化器和运行时提供低延迟和高吞吐量的深度学习推理的应用程序。使用TensorRT,您可以优化神经网络模型,精确地校准低精度,并最终将模型部署到超大规模的数据中心、嵌入式或汽车产品平台。在对所有主要框架进行训练的模型推理过程中,基于 TensorRT 的 GPU 应用程序的执行速度比CPU快100倍。
TensorRT 提供 INT8 和 FP16 的优化,用于深度学习推理应用,如视频流、语音识别、推荐系统和自然语言处理。减少精度推断可以大大降低应用程序的延迟,这是许多实时服务以及自动和嵌入式应用程序的需求。
现在,您可以从每一个深度学习框架中导入训练过的模型到 TensorRT。在应用优化后,TensorRT 选择了平台特定的内核,并在数据中心、Jetson 嵌入式平台和 NVIDIA 自动驾驶平台上实现 Tesla GPU 的性能最大化。NVIDIA Tesla V100, P100, P4 和 P40 皆可用于生产部署。
TensorRT 的优化
权重和激活精度校准
将模型量化到INT8,同时保持准确性,从而最大化吞吐量
层和张量的融合
通过在内核中融合节点来优化GPU内存和带宽的使用
内核自动调整
基于目标GPU平台选择最佳数据层和算法
动态张量内存
最大限度地减少内存占用并有效地重新使用内存来提高张量使用效率
Multi-Stream执行
可扩展的设计可并行处理多个输入流
TensorRT 4 新亮点
TensorRT 4 可以提供加速语音识别,神经网络机器翻译的和推荐系统的功能。在导入模型的框架如 PyTorch, Caffe2, MxNet, CNTK 和 Chainer 方面,TensorRT 4 中自带的 ONNX 解析器提供了一种简便的方法:
与 CPU 相比,在新层多层感知器(NMLP)和递归神经网络(RNN)处理上,吞吐量实现了 45 倍的提升;
相比于只使用 CPU,TensorRT 导入ONNX 以及配合 NVIDIA GPU V100 处理 ONNX 模型可以达到 50 倍加速;
支持 NVIDIA DRIVE™ Xavier -自动驾驶 AI 处理器
在 VoltaTensor Core 上运行 FP16 定制层和 API 层将达到 3x 推理加速