如何优化语言模型大小以进行部署

作者： Iván Palomares Carrascosa 发布于 2025 年 6 月 10 日在语言模型 1

How to Optimize Language Model Size for Deployment

如何优化语言模型大小以进行部署。
作者 | Ideogram 提供图片

语言模型，尤其是**大型语言模型** (LLM) 的兴起，已经达到如此巨大的规模，以至于渗透到现代 AI 应用的各个方面——从聊天机器人和搜索引擎到企业自动化和编程助手。尽管如此，这种爆炸式增长并非没有挑战，尤其是在部署这些模型时，如何优化其大小以在性能、可访问性、能源和计算资源消耗之间取得恰当而微妙的平衡。

由于LLM的大小很重要，本文对模型大小优化的概念和实践策略进行了探索性讨论。

LLM 简化的架构方法

为了精确了解语言模型呈指数级增长的速度，从 GPT-2 到 GPT-4 的演变过程涉及将参数从 1.5B 扩展到超过 175B。这是一个惊人的增长速度。

虽然这种规模的扩大有助于解锁非凡的文本生成、推理和交互能力，但在设备端、基于云和实时环境中高效部署此类模型时，仍然出现了明显的挑战。除了训练或微调这些模型的成本之外，推理速度也很重要，因为延迟直接影响用户体验，尤其是在交互式应用程序中。同时，量化的权衡是另一个值得关注的问题，因为它们可以显著减小模型大小和计算需求——但通常以牺牲精度或鲁棒性为代价。

模型大小可以通过各种策略在架构上进行优化，例如蒸馏、剪枝、层数减少以及模块化或基于适应的架构。

**模型蒸馏**（也称为知识蒸馏）采用教师-学生范式来训练一个较小的模型，其中“学生”（两个模型中较小的一个）通过观察教师生成的输出进行学习，即迭代的下一个词预测结果和最可能词的概率分布，在此基础上生成下一个词。后者是教师对生成每个输出的置信度的指标。应用模型蒸馏通常需要权衡准确性和紧凑性。可以使用损失函数来平衡这两者并指导简化模型的训练过程。

output = teacher_model(input)
loss = distillation_loss(student_model(input), output)

1 2	output = teacher_model(input) loss = distillation_loss(student_model(input), output)

**模型剪枝**继承了剪枝决策树以降低其复杂性和大小的思想。该技术包括移除对模型输出贡献最小的权重；换句话说，那些值最低的权重。训练期间的动态稀疏技术允许模型逐步学习要保留或丢弃哪些权重——层之间的连接。在推理时，剪枝产生的更稀疏的模型可以减少内存使用并可能提高计算速度。以下示例展示了此策略的简化视图。

import torch

def prune_small_weights(model, threshold=1e-3):
    with torch.no_grad():
        for name, param in model.named_parameters():
            if "weight" in name:
                mask = param.abs() > threshold
                param.mul_(mask)  # zero out small weights

import torch

def prune_small_weights(model, threshold=1e-3):

with torch.no_grad():

for name, param in model.named_parameters():

if "weight" in name:

mask = param.abs() > threshold

param.mul_(mask) # 将小权重归零

同时，**层数减少**，顾名思义，旨在使 LLM 架构中的整体神经网络组件变得更浅，具体而言，通过减少编码和解码器中编码语言信息逐渐应用非线性转换的层数，从而减少 LLM 底层 Transformer 架构的层数。何时层数更少意味着更好的 LLM？简而言之，当语言任务不需要深刻的上下文推理，或者延迟和资源限制超过额外深度带来的边际收益时。

层数减少可以在更高层次上应用，不一定只在单层上，以去除一些重复的编码器或解码器层，如下所示：

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased")

# Keeping only the first 6 encoder layers (this Bert Model has 12)
model.encoder.layer = model.encoder.layer[:6]

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased")

# 只保留前 6 个编码器层（此 Bert 模型有 12 个）

model.encoder.layer = model.encoder.layer[:6]

最后，还有先进的插件模块化方法，例如 LoRA (Low-Rank Adaptation)，它通过将轻量级、可训练的组件注入到冻结权重的预训练模型中来简化模型适应。这些方法在资源受限和多任务环境中特别有效，因为它们减少了为系统预期处理的每个任务微调或部署多个全尺寸模型的需要。

权重级优化

与通过减少层数或剪枝整个神经元权重来改变模型结构的架构方法不同，权重级优化不侧重于组件的硬简化或权重消除，而是尝试压缩或数值近似权重，以产生更高效、可用于生产的模型。这些方法包括**量化、权重共享和压缩编解码器**，它们可以减少内存占用并提高推理速度，通常对精度影响最小。

量化是一种非常流行的方法，可以实现对原本庞大的模型进行更快的微调和推理，尤其是在边缘和受限机器中。权重共享使用张量分解将大型权重矩阵近似为较小的组件，从而减少冗余值。压缩编解码器是一种算法方法，用于在模型的某些操作阶段（通常是模型存储和加载）压缩或解压缩权重。与模型量化不同，它们不会去除权重精度表示的一部分，并且可以在以后完全解压缩。

让我们通过一些简单但具有说明性的例子来结束，这些例子展示了如何应用这些权重级优化技术。

量化以将权重精度从 32 位降低到 8 位

import torch

model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
quantized_model = torch.quantization.prepare(model, inplace=False)
quantized_model = torch.quantization.convert(quantized_model, inplace=False)

import torch

model.qconfig = torch.quantization.get_default_qconfig('fbgemm')

quantized_model = torch.quantization.prepare(model, inplace=False)

quantized_model = torch.quantization.convert(quantized_model, inplace=False)

基于张量分解的权重共享

import torch.nn as nn

original = nn.Linear(512, 512)
factorized = nn.Sequential(nn.Linear(512, 64), nn.Linear(64, 512))

import torch.nn as nn

original = nn.Linear(512, 512)

factorized = nn.Sequential(nn.Linear(512, 64), nn.Linear(64, 512))

压缩感知权重存储

import torch
torch.save(model.state_dict(), "model.pt")

import zipfile
with zipfile.ZipFile("model.zip", 'w') as zf:
    zf.write("model.pt")

import torch

torch.save(model.state_dict(), "model.pt")

import zipfile

with zipfile.ZipFile("model.zip", 'w') as zf:

zf.write("model.pt")

结论

在本文中，我们探讨并讨论了减少语言模型大小的最突出技术和策略：这是确保在生产环境中高效运行的关键方面。

导航

如何优化语言模型大小以进行部署

LLM 简化的架构方法

权重级优化

结论

关于此主题的更多信息

对《如何优化语言模型大小以进行部署》的回复

发表评论点击此处取消回复。

导航

LLM 简化的架构方法

权重级优化

结论

关于此主题的更多信息

对《如何优化语言模型大小以进行部署》的回复

发表评论 点击此处取消回复。

发表评论点击此处取消回复。