昇腾MindStudio模型量化方案,助力企业轻量级部署DeepSeek
- 厂商稿件
- 2025-02-21 12:06
最近AI圈可以说是被新晋“顶流”DeepSeek刷屏了,新发布的 V3/R1 系列模型,直接在全球火出圈,它的性能强劲到足以和全球顶尖模型一较高下!不过你知道吗?虽然网络版和App版已经足够好用,但只有把模型搬进自家地盘,进行本地部署,你才能享受到真正的“私人定制”,让DeepSeek R1的“深度思考”完全为你所用。
不过呢,问题也来了。原版的 DeepSeek - R1 671B 全量模型,文件体积大得离谱,足足有720GB!这就好比你要搬一座大山回家,绝大部分个人和企业看到这样庞大的部署成本,都被吓得望而却步。
别担心,量化技术来救场!这项技术就像神奇的魔法,一边稳稳保住 DeepSeek 模型的高精度,一边还能把模型的计算效率和资源占用问题轻松搞定。这样一来,模型在实际应用中就能表现得更加出色,开发者和企业也能享受到更加灵活高效的部署方式。
什么是大模型量化
近年来,随着人工智能的发展和Transformer等架构的提出,使得深度学习的模型参数达上万亿规模,从而使得模型变得越来越大,计算和存储资源的需求也急剧增加。因此,为了降低计算和存储的开销,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型推理的性能。模型压缩主要有几种方法:量化、知识蒸馏、剪枝和低秩分解。
量化(Quantization)是通过降低模型当中的参数精度(权重或者激活值)将从较高位宽转化为(如32为浮点数)转化为较低位宽(如8位整数或4位整数),实现模型的压缩和优化,从而降低模型的占用显存和算力,提高运行效率。通常会伴随着一定量精度的损失,需要注意的是,在计算过程中我们还会将量化后的整数反量化为浮点数,得到结果。通过量化主要有以下收益:
1. 减少内存(显存)占用
整数数据类型(如8位整数)占用的内存比浮点数(如32位浮点数)少得多。假设一个模型有1亿个参数,使用FP32数据格式表示,需要的内存为:内存占用4x108字节,将字节转换为MB(1MB=1,048,576字节):内存占用约381.47MB;若使用INT8表示数据参数:内存占用=1x108字节,将字节转换为MB(1MB=1,048,576字节):内存占用约95.37MB。所以bit越短,内存占用越少,对硬件要求越低。
2. 提升计算效率
在硬件层面,整数运算更容易实现,许多处理器和加速器专门优化了整数运算,提供张量运算的专用指令集,所以整数运算(加法、乘法等)通常比浮点运算更简单和快速。
3. 能耗降低
整数运算搬运的数据量变少,减少了访存开销,同时计算过程中,NPU 所需的乘法器数目也减少,所以消耗的能量通常比浮点运算低。
当前模型量化主要包括后训练量化(Post-Training Quantization, PTQ)和量化感知训练(Quantization Aware Training, QAT)。PTQ可以在没有原始的训练过程的情况下,就能将预训练的FP32模型直接转换为定点计算的网络。PTQ最大的特点就是不需要数据或者只需要很少的校准数据集,且几乎不需要调整超参数,使得我们可以很方便的进行模型量化,是一种在训练期间模拟量化操作的方法。QAT 通过在模型中插入伪量化节点(FakeQuant)来模拟量化误差,并在训练过程中最小化这些误差,最终得到一个适应量化环境的模型。
量化在降低显存占用和算力的同时,不可避免存在一些挑战,如量化方法的精确性、低比特数带来的精度损失,与此同时,模型大小与精度之间也存在一种权衡。一般来说,模型越小,其表达能力和容纳参数的能力也越有限,所以较小模型,量化后精度损失可能更加显著。
在进行模型量化时,要综合考虑任务、模型大小、精度要求以及实际的应用场景,以确定最合适的量化策略。基于以上场景,MindStudio模型压缩工具可以支持DeepSeek系列模型的量化,并且更加高效。
MindStudio模型压缩工具介绍
msModelSlim(MindStudio模型压缩工具),是一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。
当前msModelSlim根据开发者差异化需求,提供了模型蒸馏、大模型量化、大模型稀疏量化和权重压缩、训练后量化等多种模型压缩方案。
针对DeepSeek系列模型,msModelSlim提供了支持W8A8、W8A16的量化方案,同时也在开发W4A16、W4A8量化算法,满足不同客户需求。
同时,针对DeepSeek-V3/R1的W8A8动态量化方案,大体分为三步:
1. 调整离群值抑制:通过一致量化过程中异常值,使能后续的量化更优。针对V3/R1版本,采用SmoothQuant优化算法。
2. 量化参数的选择:根据以往经验,选择指定的层回退(即对精度敏感的层使用浮点数计算);激活值量化方式选择Min-Max方式;采用混合量化方式,即MoE层选用W8A8-Dynamic量化,MLA层选用W8A8量化。
3. 校准集调整,通过更新业务校准集进行Label-Free量化。
量化流程如下:
基于msModelSlim模型压缩工具的量化压缩能力,互联网、运营商、金融等20+行业客户均在本地部署上线DeepSeek-V3/R1满血版量化模型。
结语
随着深度学习模型变得越来越庞大和复杂,高效地将其知识迁移至小型、轻量化的模型,已经成为AI技术走向实际生产的关键路径。msModelSlim支持多种模型压缩算法(包括量化压缩、稀疏压缩等),为开发者提供更加灵活、高效的模型压缩量化方案。在保障精度的同时,以更低的资源消耗实现更快的推理速度,助力企业快速部署上线,为AI技术的普及和落地提供了强有力的支持。
msModelSlim工具已开源发布昇腾社区及Gitee社区,诚邀大家点击阅读原文下载使用。
阅读原文:
https://gitee.com/ascend/msit/tree/master/msmodelslim/README.md
- 助力
- DeepSeek
相关文章
资讯
- 4天前
Moka AI 探索实践:七年技术深耕,从单点突破到招聘全流程闭环
- 2周前
AI赋能新一代工业软件,第四届工业软件创新应用大赛颁奖典礼圆满举办
- 3周前
探索DeepSeek全场景部署实践,优刻得举办AI专题分享会
- 1个月前
神州鲲泰问学一体机DeepSeek版发布:垂直场景深度赋能,破局企业AI落地难题
- 1个月前
易联众“智鼎云帆大模型平台”全面接入DeepSeek
- 2024-12-21
第五届中国人工智能大赛成果发布会成功举办
- 2024-12-13
北京电信聚焦“上云用数” 推动国产算力应用与智算创新发展
- 2024-12-05
讯飞智作超拟人数字人功能全面开放,开启全民定制新潮流
- 2024-11-25
探索未来之路 激发AI创新 “天翼云·息壤杯”高校AI大赛北京区域赛开赛
- 2024-11-24
亚马逊向Anthropic追加40亿美元投资 加速人工智能创新与应用
- 2024-11-24
科大讯飞:拟推首期员工持股计划
- 2024-11-17
彰显青年风采 传承科学家精神 中国科技青年风采荟在浙江温州举行
- 2024-11-12
2024AI+研发数字(AiDD)峰会深圳站圆满收官!
- 2024-11-09
200余支队伍蓉城“百模论剑”,“人工智能+”全国性赛事报名倒计时3天
- 2024-10-19
三个老发明家献给盛世的礼物---“录味机”
原创
荐读
-
5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中,作为向世界展示智能制造全面能力的窗口,联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤,折叠起来之后的厚度大约为24毫米。当保持半开状态时,可以像拿本书一样握住,并且能同时运行两个应用程序。使用固定在中间的键盘之后,瞬间变...
-
智能手机竞争中失败,日本在联网汽车领域举步维艰
据外媒报道,在制造带有数字联网服务的汽车的竞争中,丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是,日本消费者不愿意为这些联网功能和服务买单。结果就是:日本只有10%的汽车...
-
2020年河南省将推广应用3万台工业机器人
到2020年,推广应用3万台工业机器人,建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日,在2018两岸智能装备制造郑州论坛上,河南省工信委发布了《2017年河南省智能制造白皮书》,河南智能制造的2020...