近年来,人工智能已逐渐在日常生活、工业生产中发挥着至关重要的作用。然而,这些人工智能应用背后的深度学习模型仍需大量计算资源(通常在集中式的云上)来驱动其训练与预测(推理)过程,这极大程度上限制了智能应用在有高即时性需求,高隐私保障条件下的使用,或是在资源受限场景下的部署。
这个页面总结了清华大学深圳国际研究生院王智教授课题组在模型轻量化方向已完成的课题,并由模型轻量化小组维护。若对我们的工作感兴趣,欢迎通过以下方式联系我们:
联系方式:
王智教授(清华大学深圳国际研究生院):
- 个人主页:https://pages.mmlab.top/
- 邮箱:[email protected]
孟媛(清华大学计算机系):
- 个人主页:https://mengyuan404.github.io/
- 邮箱:[email protected]
李也(清华大学深圳国际研究生院):
研究方向概览
本小组的具体研究方向分为两个部分:
- 高效深度学习
- 高效训练与微调
- 高效语言模型训练/无监督训练(Efficient Training)
- 量化感知的参数高效微调(Quantization-aware Parameter-efficient Fine-tuning)
- 高效推理优化
- 神经网络设计(Neural Architecture Design):使用自动机器学习的方法进行硬件感知的轻量化模型设计,兼顾效率与准确率
- 部署友好的模型优化(Deployment-friendly Optimization):对模型进行高效量化、剪枝、微调,加强其可用性
- 高效具身智能
- 高效,安全,可控的具身大模型
- 高效的动作生成扩散策略
近期工作
高效训练与微调:

- bert2bert: Towards reusable pretrained language models**,** ACL, 2022.

- Fully Self-Supervised Learning for Semantic Segmentation***, CoRR, 2022***
高效推理优化:

- Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers, CVPR 2025.

- Joint Automatic Architecture Design and Low-Bit Quantization with
Hardware-Software Co-Exploration, AAAI 2025.
- Paper: https://arxiv.org/pdf/2501.05339
- 模型结构、量化位宽和硬件加速器架构的联合优化具有很广阔的前景,因为三者联合优化可以比单独优化一种获得更好的性能。为了实现联合搜索的目标,先前的研究主要集中在将量化技术融入网络和加速器的联合搜索中,但在低比特情况下,仍未能取得令人满意的结果。尽管如此,现有方法仍面临许多挑战,尤其是在低比特优化和硬件设计的结合方面。关键挑战包括:(1)量化操作对显存的需求很大。将低比特加入到量化位宽的候选中,量化位宽的搜索范围会扩大,显著增加搜索过程中显存的占用,从而导致显存爆炸。(2)由于硬件参数的离散性,以及编译器映射优化与各个算子之间的复杂耦合关系,导致加速器搜索过程非常耗时。这些挑战使得联合优化变得更加困难。为了解决上述关键挑战,我们提出了一个框架,能够高效优化网络结构、超低混合精度位宽和加速器架构。在算法层面,该框架通过通道级稀疏量化算法解决显存瓶颈问题,显著降低显存消耗。在硬件层面,该框架通过硬件生成网络优化加速器设计,同时编码所有编译映射的候选,选择最优的策略。这种方法不仅解决了显存和时间效率的问题,还提高了加速器设计的整体性能。

- Retraining-free Model Quantization via One-Shot Weight-Coupling Learning, CVPR 2024.

- Investigating the Impact of Quantization on Adversarial Robustness, ICLR PML4LRS Workshop

- ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices, ICCV 2023.