gov-1000-75
京华网
京华网  >   财经  >  正文

H100推理性能最高提升8倍,英伟达发布TensorRT-LLM模型

评论

,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。

英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3,Llama Falcom(180 B)和 Bloom 模型。

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。

该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。

在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

IT之家在此附上报告原文,感兴趣的用户可以深入阅读。

广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。



声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

ad11
bottom1 bottom3 2015123002 cert2017 dbtp01 ft02

注:凡注明来源非本站的作品,均转载自其它媒体,并不代表本网赞同其观点和对其真实性负责。

京华网致力于资讯传播,希望建立合作关系。若有任何不当请我们,我们将会在24小时内删除。

http://www.jhar.cn All Right Reserve 版权所有

版权为京华网所有 未经同意不得复制或镜像