盼盼网 > 人工智能 > Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率

Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率
2020-05-20 20:31:36   

Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率   9月26日,在Nvidia GPU 技术峰会上,Nvidia 创始人兼CEO 黄仁勋正式发表TensorRT 3 神经网络推理加速器。据官方介绍,TensorRT 3 能极大改善处理性能,削减从云端到边缘装置(自动驾驶汽车、机器人等)的推理开销。TensorRT 3 是在Volta GPU 实现最优推理性能的关键,比起CPU 它能实现高达40 倍的吞吐量,时延在7ms 之内。目前,对于Nvidia 开发者计画成员,现在有针对特斯拉 GPU(P4, P100, V100)和Jetson 嵌入式平台的TensorRT 3 提供免费下载。 关于TensorRT   据了解,Nvidia TensorRT 是一种高性能神经网络推理引擎,用于在生产环境中部署深度学习应用程序。应用有图像分类、分割和目标检测,提供的帧/ 秒速度比只有CPU 的推理引擎高14 倍。   TensorRT 是世界上第一款可程序化推理加速器,能加速现有和未来的网络架构,TensorRT 可编译到广泛的目标CUDA GPU 中,从120 TOPS 到1 TOPS,从250 瓦到低于1 瓦。   它包含一个为优化在生产环境中部署的深度学习模型而创建的数据库,可获取经过训练的神经网络(通常使用32 位元或16 位元数据),并针对降低精度的INT8 运算来优化这些网络。   为何TensorRT 3 有着无可比拟的地位,他提到了以下几点:
    网络设计呈爆发性增长:人工智能推理平台必须具备可程序化性才能执行种类繁多且不断演进的网络架构;新的架构、更深的网络、新的分层设计会继续提升CNN 的性能。 智能机器呈爆发性增长:人工智能智能会发展到2,000 万台云端服务器、上亿台汽车和制造机器人中;最终,以兆计的物联网装置和感测器将智能地监测一切,从心率和血压监测,到需维修装置的震动监测;人工智能推理平台必须可扩展,以解决大量计算的性能、功耗和成本需求。
Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率   TensorRT 3 新的亮点如下: 相较特斯拉 P100,在特斯拉 V100 上能实现3.7 倍的加速,时延在7ms 之内。 在特斯拉 V100 上进行优化和配置TensorFlow 模型时,比起TensorFlow 框架能实现18 倍的推理加速。 轻松使用Python API 接口,生产力得到极大改进。 Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率   黄仁勋在现场介绍, TensorRT 3 的性能非常卓越,在Volta 上执行的TensorRT3 在图像分类方面比最快的CPU 还要快40 倍,在语言翻译方面则要快140 倍。   另外,现场他还提到,神经网络的响应时间或处理延时会对服务质量造成直接影响,在V100 上执行的TensorRT 在处理图像是可实现7ms 的延时,在处理语音是延时不到200ms ,这是标准云端服务的理想目标,单靠CPU 是无法实现的。 Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率   TensorRT 3 能支援Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer 等所有的深度学习框架,将TensorRT 3 和Nvidia 的GPU 结合起来,能在所有的框架中进行超快速和高效的推理传输,支持图像和语言识别、自然语言处理、可视化搜寻和个性化推荐等人工智能服务。 人工智能新纪元   另外,在演讲中,黄仁勋提到,现在已是计算新纪元,包括TensorRT 在内的Nvidia 多个平台已被BAT 等多家科技巨头采用: 目前,Nvidia TensorRT 已经被BAT、科大讯飞、京东所采用。 除了TensorRT,Nvidia 特斯拉 V100 人工智能平台已被BAT、华为、浪潮和联想在内的中国领军IT 公司采用。 Nvidia 人工智能城市平台已被阿里巴巴、海康威视、大华和华为所采用,以解决最大规模的人工智能和推理难题之一。   另外,黄仁勋在现场正式发表全球首款自主机器处理器Xavier,这是迄今为止最复杂的SoC,将于2018 年第一季向早期接触的合作伙伴提供,在2018 年第四季全面推出。这个处理器的发表将揭开人工智能时代新篇章。 Nvidia发表TensorRT 3可程序化推理加速器,比起CPU能实现高达40倍吞吐率   除了Xavier,他们也发表了一个虚拟机器人仿真环境Isaac Lab。谈及为何要创造这个自主机器系统,他提到, 教机器人与外部世界互动和执行复杂的任务一直是个未解决的难题,但相信随着深度学习和人工智能的突破,这个问题最终必将得到解决。在机器人学习执行具体任务的过程中,他们可能会对周边的事物造成损坏,并且需要很长的训练周期。因此,需要创造一个可供机器人学习的虚拟世界──看起来像真实世界,并遵守物理学定律,机器人可以在其中超即时地学习。   在现场,他也强调,Nvidia 将会全力推进「统一架构」CUDA GPU 计算。透过Inception 计画,将支援1,900 家初创公司创建人工智能未来。   究竟Nvidia 能让人工智能跨进怎样的未来,拭目以待!

除特别注明外,本站所有文章均为原创,转载请注明出处来自

热点推荐
今日点击排行