【计算机视觉知识蒸馏系列-1】知识蒸馏概述

导读

上海交通大学人工智能学院Linfeng Zhang助理教授于2025年出版了一本关于计算机视觉知识蒸馏的的专著《Knowledge Distillation in Computer Vision》。本书据说是第一本系统介绍知识蒸馏的专著，涵盖知识定义与量化、知识传递效率以及高低层视觉任务知识蒸馏应用等方面的知识。

全书近150多页，为英文著作。由于本公众号的作者近期专攻知识蒸馏方向的实践和应用，通过知识梳理注意到这本书的重要性，因此开通本系列【计算机视觉知识蒸馏系列】，该系列是对《Knowledge Distillation in Computer Vision》进行的原文翻译以及适当增减整理，以期为大家带来系统性的知识蒸馏认识，启迪更有目标性的实践。

本文是【计算机视觉知识蒸馏系列】第一期，本期介绍计算机视觉中知识蒸馏的背景知识。本文可以带给你从宏观上了解计算机视觉中知识蒸馏模型压缩的定义，流程以及相关前沿工作。

该系列预计有七期，分别是：知识蒸馏概述、知识蒸馏中的教师模型和学生模型、知识蒸馏中的知识量化与表征，高层视觉任务中的知识蒸馏、低层视觉任务中的知识蒸馏、超越模型压缩的知识蒸馏、总结与挑战。

目录：

1.前言

2.知识蒸馏背景

3.本系列组织结构

前言

知识蒸馏是对人类教育系统中师生学习模式的计算化延伸。在人类社会中，学生通过吸收经验更丰富的教师传授的知识实现加速学习 —— 人工智能研究者巧妙地将这一过程迁移到神经网络中。该范式让紧凑的学生模型向复杂的教师模型学习，借助教师提炼的特征表示，实现比仅在原始数据上训练更高的学习效率。这种人类认知策略与机器学习机制的概念桥梁，体现了生物智能与人工智能的有趣融合。

然而与深度学习领域的许多进展一样，知识蒸馏研究主要通过实验探索发展，而非系统的理论分析。尽管在实际应用中取得了显著成效，但该领域目前缺乏严谨的理论基础与系统化框架来指导网络结构设计和知识迁移方案。这种以实验为主的特性，限制了可适用于不同领域与模型架构的通用原则的发展。

本书通过构建知识蒸馏的结构化方法填补这一关键空白。首先将知识蒸馏过程拆解为两个核心挑战：

可迁移知识的量化与表征；
异构网络结构间知识传递效率的优化。

针对每个挑战，提出以理论为支撑的解决方案，并辅以严谨的数学分析。后续将展开知识蒸馏在计算机视觉高层视觉任务与低层视觉任务中的领域适配方法，同时为研发人员提供面向任务的蒸馏工程化设计原则。

本书的核心围绕人工智能的根本问题展开：机器学习模型中的 “知识” 究竟是什么？它如何在智能系统中生成、组织与迁移？尽管本书聚焦视觉知识蒸馏，但其对特征表示动态与信息瓶颈理论的系统性分析，可为更广泛的人工智能研究提供基础见解。书中提出的方法，有望成为解决机器智能领域重大挑战的基石 —— 这些挑战可能还会占据研究者们数十年的研究重心。

希望通过理论严谨性与工程实践相结合的视角，将知识蒸馏从一门 “实验性技艺” 提升为机器知识迁移的系统化科学。本书提出的框架不仅能推动现有模型压缩技术的发展，还能加深我们对人工神经网络如何获取、处理与传递语义信息的理解，这是迈向真正可解释、高效率人工智能系统的关键一步。

愿本专题中的 “知识” 能被成功 “蒸馏” 到你的手中。

知识蒸馏背景

深度神经网络在计算机视觉领域的快速发展带来了前所未有的性能提升，但其日益增长的复杂度给自动驾驶、边缘设备等低延迟场景的部署带来了严峻挑战。知识蒸馏（Knowledge Distillation, KD） 成为解决这一矛盾的关键范式，它将复杂教师模型的知识迁移到轻量学生模型中。

1. 人工智能模型部署面临的挑战

过去十几年，计算机视觉技术迎来重大变革，最显著的特征是神经网络的广泛普及。这一变革得益于深度学习算法的突破性进展，卷积神经网络（CNN）、循环神经网络（RNN）、视觉 Transformer（ViT）及其变体相继涌现。受人类视觉系统复杂机制启发，这些模型在图像识别、目标检测、图像分割、图像生成、人脸识别、视觉推理、三维视觉、视频识别等各类视觉识别任务中展现出卓越性能。

计算资源的空前增长进一步推动了神经网络在计算机视觉流程中的应用，使得在海量视觉数据上训练越来越复杂的模型成为可能。ImageNet、COCO、Open Images、Kinetics、ModelNet、LAION等知名数据集相继出现，为研究者提供了丰富的标注视觉数据用于训练与评估。

依托先进神经网络与数据集，计算机视觉领域取得了突破性进展，推动了智慧城市、智能监控、自动驾驶、AIGC 等应用的落地。

过去十年间，神经网络结构不断演进、复杂度持续提升，模型参数量呈指数级增长。为追求各类视觉任务的性能提升，更深、更宽、结构更复杂的网络被不断提出。例如，先进视觉 Transformer 模型 Swin-L参数量达 1.97 亿，单次推理计算量高达 103.9 GFLOPs。

尽管超大模型在图像分类、语义分割等任务上表现惊艳，但其缺点同样突出：推理阶段的计算与存储开销巨大。

超大参数量带来高昂的推理成本，严重限制了模型的普及与规模化部署。参数量的提升会指数级增加模型推理所需的计算资源，推高硬件基础设施成本与运行开销。这不仅让资源受限环境难以使用 AI 技术，还阻碍了其在商业化产品与服务中的大规模落地。
超大参数量导致模型无法部署在边缘设备上。手机、物联网设备、嵌入式系统等边缘设备的计算能力、存储容量与功耗均受到严格限制，大模型难以在这类设备上运行。
超大参数量无法满足实时性要求高的应用，如自动驾驶。大模型的计算负担会阻碍模型及时做出决策，而这对自动驾驶等安全关键系统至关重要。实时响应能力对检测行人、障碍物、交通信号等动态环境信息、保障安全行驶不可或缺。但大模型庞大的计算需求使其难以满足安全关键系统严苛的延迟约束，在毫秒级决策关乎生命的场景中引入了不可接受的风险。

上述现象表明，学术研究中的神经网络与工业落地应用的模型之间存在显著鸿沟。为解决这一问题，大量模型压缩与加速方法被提出，例如：

神经网络剪枝与神经架构搜索：获取高效轻量的网络结构；
神经网络量化：用更少比特数表示参数与特征值。

尽管这些技术不断进步，模型压缩通常仍会导致精度下降。为攻克这一难题，Hinton 等人于 2014 年提出知识蒸馏（KD），作为一种训练策略，在保证压缩后模型精度接近压缩前的前提下实现模型压缩。目前，知识蒸馏已成为各领域模型压缩流程中不可或缺的组成部分。

2. 经典知识蒸馏

早在 2010 年代神经网络研究兴起之前，Vapnik 等人就在支持向量机研究中提出 “用机器教导机器” 的思想，被称为特权信息学习。2008 年，Buciluǎ等人进一步提出将多个神经网络集成的知识迁移到单个网络中以实现压缩与加速。但受限于当时机器学习的发展水平，这些工作未能成功推广到深度神经网络与更复杂的任务中。

2014 年，Hinton 等人首次正式提出知识蒸馏，通过将单个深度大网络的知识迁移到单个轻量网络实现模型压缩。具体来说，Hinton 的知识蒸馏流程分为两步：

以标准训练方式训练一个庞大、过参数化的模型作为教师模型；
训练一个轻量学生模型，使其输出与教师模型的预测结果（分类任务中的类别概率分布）尽可能一致。

在这一过程中，教师模型的预测结果作为监督信号指导学生模型训练，让学生吸收教师的 “暗知识”。理想情况下，经过蒸馏后，学生模型可输出与教师模型相同的预测结果，达到相近精度。因此在推理阶段，可用学生模型替代教师模型，实现压缩与加速。Hinton 等人在提出该方法时，已在自然语言与视觉任务上验证了其有效性。

关于Hinton 等人提出的方法的详细介绍，请参考：神经网络中的知识蒸馏基础

3. 结构化知识蒸馏

随着知识蒸馏的发展，逐渐形成结构化知识蒸馏的概念。目前尚无明确的统一定义，本书认为结构化知识蒸馏与早期方法的区别在于：

采用更系统化的蒸馏策略，不局限于单一知识类型，而是蒸馏多种教师知识，实现更全面的性能提升。例如在语义分割的结构化蒸馏工作中，同时使用基于特征、基于关系、基于输出概率的蒸馏。
采用更体系化的设计方法，具备成熟的研究思路。早期知识蒸馏多基于直观经验设计，缺乏结构化框架；而本书提出将蒸馏拆解为两个基础问题，并针对不同任务设计专用蒸馏方法。
用于解决更具挑战性的任务。早期方法主要面向分类等简单视觉与语言任务，而结构化知识蒸馏用于复杂应用场景中的困难问题。

本系列组织结构

本系列针对计算机视觉任务的深度神经网络压缩与加速，系统性研究结构化知识蒸馏方法：

1. 如何构建学生模型与教师模型；
2. 应该蒸馏何种知识。

3. 将知识蒸馏应用于真实场景中的复杂任务。形成面向不同任务的系统化蒸馏设计方法论。
4. 拓展知识蒸馏超越模型压缩的应用价值。证明知识蒸馏可用于提升模型对图像污染的鲁棒性，打破知识蒸馏的应用边界。