近年来,人工智能已逐渐在日常生活、工业生产中发挥着至关重要的作用。然而,这些人工智能应用背后的深度学习模型仍需大量计算资源(通常在集中式的云上)来驱动其训练与预测(推理)过程,这极大程度上限制了智能应用在有高即时性需求,高隐私保障条件下的使用,或是在资源受限场景下的部署。
这个页面总结了清华大学深圳国际研究生院王智教授课题组在模型轻量化方向已完成的课题,并由模型轻量化小组维护。若对我们的工作感兴趣,欢迎通过以下方式联系我们:
联系方式:
王智教授(清华大学深圳国际生院):
- 个人主页:https://www.mmlab.top/
- 邮箱:[email protected]
唐辰(清华大学深圳国际研究生院):
- 个人主页:https://www.chentang.cc/
- 邮箱:[email protected]/[email protected]
研究方向概览
本小组的具体研究方向分为两个部分:
- 高效训练与微调
- 高效语言模型训练/无监督训练(Efficient Training)
- 量化感知的参数高效微调(Quantization-aware Parameter-efficient Fine-tuning)
- 高效推理优化
- 神经网络设计(Neural Architecture Design):使用自动机器学习的方法进行硬件感知的轻量化模型设计,兼顾效率与准确率
- 部署友好的模型优化(Deployment-friendly Optimization):对模型进行高效量化、剪枝、微调,加强其可用性
近期工作
高效训练与微调:
- bert2bert: Towards reusable pretrained language models**,** ACL, 2022.
- Fully Self-Supervised Learning for Semantic Segmentation***, CoRR, 2022***
高效推理优化:
- Retraining-free Model Quantization via One-Shot Weight-Coupling Learning, CVPR 2024.
- Paper: https://arxiv.org/pdf/2401.01543.pdf
- Code:
- 我们识别并分析了权重共享量化模型中的位宽干扰问题,揭示了其对优化挑战、训练稳定性和收敛性的影响。为了训练权重共享量化模型,我们首先设计一种新的位宽调度器,在训练期间冻结干扰位宽,确保适当的收敛,并解决由于引入额外位宽造成的不稳定问题。此外,我们还提出一种受信息论启发的策略,将表现较差的位宽与表现良好的位宽对齐,减轻动态训练中的信息失真,提高整体性能。我们最终得到的量化模型没有重训练成本,且性能超过目前已有方法。
- Investigating the Impact of Quantization on Adversarial Robustness, ICLR PML4LRS Workshop
- ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices, ICCV 2023.
- Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and Adaptive Inference Approach**,** ACM Multimedia (MM) 2022.
- Mixed-Precision Neural Network Quantization via Learned Layer-Wise Importance, ECCV 2022.
- SEAM: Searching Transferable Mixed-Precision Quantization Policy through Large Margin Regularization, ACM Multimedia (MM) 2023.
- Paper: https://arxiv.org/pdf/2302.06845.pdf
- 通过对权重共享的多比特网络的分析,我们提出了一种新颖的方法来训练逐层可量化的超级网络。该网络仅存储一个单一权重的模型,可以在运行时根据需求进行逐层位宽切换。此外,我们还提出了一个基于深度强化学习(DRL)的框架,以从充分训练的多比特权重共享网络中为不同的输入样本动态选择合适的量化位宽。效果:通过在代理数据集上利用类别信息,部署时所需的数据量节省了约160倍。