华泰证券研报表示,模型压缩技术是实现AI大模型在边/端部署的核心技术。当前,谷歌、微软、腾讯等厂商在该领域均有布局,将加速AI技术与智能终端融合,国内SoC设计公司有望深度受益。模型压缩技术可在保有大模型原有性能和精度基本不变前提下降低对推理算力的需求:1)量化:将浮点计算转成低比特定点计算;2)网络剪枝:去除神经网络中冗余的通道、神经元节点等;3)知识蒸馏:将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。
全文如下华泰 | 电子:关注AI大模型在终端侧的轻量化应用
高通、华为实现AI大模型在终端的轻量化部署,关注边/端侧算力机会
3 月 2 日,高通在 MWC 2023 大会发布全球首个运行在 Android 手机上的Stable Diffusion终端侧演示 Stable Diffusion 模型参数超过10亿,高通利用其 AI 软件栈对模型进行量化、编译和硬件加速优化,使其成功在搭载第二代骁龙 8 移动平台的手机上运行 。此外,华为新一代 P60系列手机将于 5 月上线智慧搜图功能,该功能通过对模型进行小型化处理 ,实现其在端侧轻量化应用。我们认为模型压缩技术是实现 AI 大模型在边/端部署的核心技术。当前,谷歌、微软、腾讯等厂商在该领域均有布局,将加速 AI 技术与智能终端融合, 国内SoC设计公司有望深度受益 。
模型压缩技术:有效降低推理算力需求,助力大模型的边/端侧部署
模型压缩技术可在保有大模型原有性能和精度基本不变前提下降低对推理算力的需求:1)量化:将浮点计算转成低比特定点计算 2)网络剪枝:去除神经网络中冗余的通道 、神经元节点等;3)知识蒸馏:将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。以清华大学唐杰教授团队2022年8月发布的1300亿参数模型 GLM-130B 为例,原模型支持在一台 A100 40G*8)或 V100 32G*8 )服务器上进行推理,而将模型量化至 INT 4精度后,相较INT 8精度其所需 GPU 内存降低50%,且可在一台4×RTX 3090(24G)或 8×RTX 2080Ti (11G )服务器上进行推理。
全球洞察:谷歌等已将模型压缩技术紧密结合移动端模型部署框架/工具
上世纪学术界率先提出网络剪枝技术,并一直引领模型压缩技术的突破。业界的发展紧随其后,并进一步将模型压缩技术集成至移动端模型部署框架/工具,主要部署的模型包括:1)深度学习框架厂商:谷歌(ML Kit)、Meta(PyTorch Mobile);2)硬件厂商:英伟达(TensorRT)、英特尔(NNCF)、高通(AIMET)等;以及3)云服务厂商:微软(ONNX Runtime)等。以谷歌2018年推出的ML Kit为例,核心功能Learn2Compress模型压缩技术结合网络剪枝、量化以及知识蒸馏三项技术,可实现在CIFAR-10图像分类测试任务中生成较NASNet尺寸缩小94倍的轻量化模型,且仍保持90%以上精度。
国内现状:互联网厂商引领发展,国内SoC设计企业有望受益
2018年腾讯推出全球首款自动化深度学习模型压缩框架PocketFlow,2022年百度开源的文心ERNIE-Tiny在线蒸馏方案可得到参数规模仅为原模型0.02%且效果相当的轻量级模型。我们认为伴随模型压缩技术发展,AI将加速与终端设备融合应用。
风险提示:
1) 中美贸易摩擦风险:若中美贸易摩擦加剧,将导致我国 AI 行业上中下游厂商进出口受阻,中国上述厂商的发展将受到进一步的限制,导致相关公司业绩难以释放。
2) AI 及技术落地不及预期虽然AI技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。