Efficient Deep Learning and Embodiment Group （高效深度学习与具身智能小组）

近年来，人工智能已逐渐在日常生活、工业生产中发挥着至关重要的作用。然而，这些人工智能应用背后的深度学习模型仍需大量计算资源（通常在集中式的云上）来驱动其训练与预测（推理）过程，这极大程度上限制了智能应用在有高即时性需求，高隐私保障条件下的使用，或是在资源受限场景下的部署。

这个页面总结了清华大学深圳国际研究生院王智教授课题组在模型轻量化方向已完成的课题，并由模型轻量化小组维护。若对我们的工作感兴趣，欢迎通过以下方式联系我们：

联系方式：

王智教授（清华大学深圳国际研究生院）： - 个人主页：https://pages.mmlab.top/ - 邮箱：[email protected] 孟媛（清华大学计算机系）： - 个人主页：https://mengyuan404.github.io/ - 邮箱：[email protected]

李也（清华大学深圳国际研究生院）:

邮箱：[email protected]

研究方向概览

本小组的具体研究方向分为两个部分：

高效深度学习
- 高效训练与微调
  - 高效语言模型训练/无监督训练（Efficient Training）
  - 量化感知的参数高效微调（Quantization-aware Parameter-efficient Fine-tuning）
- 高效推理优化
  - 神经网络设计（Neural Architecture Design）：使用自动机器学习的方法进行硬件感知的轻量化模型设计，兼顾效率与准确率
  - 部署友好的模型优化（Deployment-friendly Optimization）：对模型进行高效量化、剪枝、微调，加强其可用性
高效具身智能
- 高效，安全，可控的具身大模型
- 高效的动作生成扩散策略

近期工作

高效训练与微调：

Untitled

bert2bert: Towards reusable pretrained language models**,** ACL, 2022.
- Paper: bert2BERT: Towards Reusable Pretrained Language Models | PDF (arxiv.org)
- 通过重用小模型的训练参数来初始化大模型，探索了高效预训练的新方向，并在语言模型上成功扩展了函数预服务方法，进一步提出了高级知识初始化方法，可以有效地将小模型的知识迁移到大模型，提高BERT、GPT等模型的预训练效率。效果：通过重用几乎一半大小的模型，节省了预训练BERT Base和GPT Base约45%和47%的计算成本。

Untitled

Fully Self-Supervised Learning for Semantic Segmentation***, CoRR, 2022***
- Paper: Fully Self-Supervised Learning for Semantic Segmentation | PDF (arxiv.org)
- 我们为全自监督语义分割任务设计了一种新颖有效的训练管线，对广泛开放世界的识别场景具有很大的实用价值。具体来言，我们提出了一种新颖的上下文感知嵌入模块，该模块同时利用语义特征和原始图像特征来改进特征，并找到了一种非平凡的方法来避免在使用原始特征时出现坍缩结果。

高效推理优化:

PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference. T-PAMI 2025.
- Paper: https://arxiv.org/abs/2407.05010
- Code: https://github.com/ChildTang/PRANCE
- 现有的模型轻量化技术总体上分为数据压缩和模型压缩两类，其本质都是对冗余信息的删减。然而，这两类技术并非正交，不能叠加使用。如何同时删减数据冗余和模型冗余，在保证精度的前提下降低计算量，提升推理速度，是一个亟待解决的问题。因此，本文提出了一种联合token优化与结构剪枝的轻量化推理框架 PRANCE。该方法从模型架构与输入数据双维度入手，设计了支持可变通道的meta-network，并利用基于PPO的轻量化选择器在样本级别动态决策token数量与模型通道配置，避免了固定压缩率带来的显著精度损失。同时引入“Result-to-Go”训练机制，将稀疏奖励转换为稠密奖励，显著提升了模型收敛效果。PRANCE可兼容token剪枝、token合并以及二者结合等多种优化策略，在 ImageNet上实现了在仅保留约10% token的情况下保持无损Top-1准确率，FLOPs平均减少超过一倍，性能全面超越现有轻量化方法。

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers, CVPR 2025.
- Paper: https://arxiv.org/pdf/2406.17343
- Code: https://github.com/Juanerx/Q-DiT
- 本研究旨在深入探讨DiT量化的核心难点，并提出有效的方法，将DiT压缩至低比特。我们发现了DiT量化面临的两个主要挑战：权重的输入通道和激活的特征维度呈现出显著的方差以及激活分布会随着扩散采样步数的变化而动态变化。为了解决这些问题，我们提出了两项关键方法：自动化量化粒度分配策略和基于样本的动态量化方法。最终，我们的方法在W6A8的设置下实现了无损量化，同时在与现有SOTA DiT量化方法的对比中，FID下降了约20%。

截屏2025-02-21 14.46.02.png

Joint Automatic Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration, AAAI 2025.
- Paper: https://arxiv.org/pdf/2501.05339
- 模型结构、量化位宽和硬件加速器架构的联合优化具有很广阔的前景，因为三者联合优化可以比单独优化一种获得更好的性能。为了实现联合搜索的目标，先前的研究主要集中在将量化技术融入网络和加速器的联合搜索中，但在低比特情况下，仍未能取得令人满意的结果。尽管如此，现有方法仍面临许多挑战，尤其是在低比特优化和硬件设计的结合方面。关键挑战包括：（1）量化操作对显存的需求很大。将低比特加入到量化位宽的候选中，量化位宽的搜索范围会扩大，显著增加搜索过程中显存的占用，从而导致显存爆炸。（2）由于硬件参数的离散性，以及编译器映射优化与各个算子之间的复杂耦合关系，导致加速器搜索过程非常耗时。这些挑战使得联合优化变得更加困难。为了解决上述关键挑战，我们提出了一个框架，能够高效优化网络结构、超低混合精度位宽和加速器架构。在算法层面，该框架通过通道级稀疏量化算法解决显存瓶颈问题，显著降低显存消耗。在硬件层面，该框架通过硬件生成网络优化加速器设计，同时编码所有编译映射的候选，选择最优的策略。这种方法不仅解决了显存和时间效率的问题，还提高了加速器设计的整体性能。

Untitled

Retraining-free Model Quantization via One-Shot Weight-Coupling Learning, CVPR 2024.
- Paper: https://arxiv.org/pdf/2401.01543.pdf
- Code: https://github.com/1hunters/retraining-free-quantization
- 我们识别并分析了权重共享量化模型中的位宽干扰问题，揭示了其对优化挑战、训练稳定性和收敛性的影响。为了训练权重共享量化模型，我们首先设计一种新的位宽调度器，在训练期间冻结干扰位宽，确保适当的收敛，并解决由于引入额外位宽造成的不稳定问题。此外，我们还提出一种受信息论启发的策略，将表现较差的位宽与表现良好的位宽对齐，减轻动态训练中的信息失真，提高整体性能。我们最终得到的量化模型没有重训练成本，且性能超过目前已有方法。

Untitled

Investigating the Impact of Quantization on Adversarial Robustness, ICLR PML4LRS Workshop
- Paper: https://arxiv.org/pdf/2404.05639.pdf
- 当前关于量化对模型的对抗鲁棒性影响的研究存在结论不一致的问题，我们首次提出通过对量化流水线进行定义并对其中的组件进行分析，明确将对抗防御设置在不同的量化组件所产生的不同影响。