(相关资料图)

Transformer 生成为访存密集型任务,显存及其带宽限制算力利用。

Transformer 作为自回归模型,生成每一个新的token,都需要将所有输入过的token 反复计算,实际产业中,会将已经计算过的量(K、V 值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer 模型在生成过程中对访存的需求更高。目前全球最先进AI 芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs 的需求,更重要的瓶颈在于访存。

目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU 利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU 利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT 为代表的LLM 模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。

支撑GPT-3.5 推理任务的A100 数量或至少在5 万张左右。根据我们测算,若以GPT-3.5 当前的流量情况以及token 生成速度,大约需要5 万张左右的A100 才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4 若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。

英伟达L40s 开启降本第一步,应用有望加速落地。L40s 在特定场景下性价比超越A100,供货周期较短。我们认为,L40s 的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H 系列仍具有不可代替的能力,L40s 的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H 系列芯片又仍将需求旺盛。

投资建议:见正文

风险提示:AI 技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。

推荐内容