某次心血来潮翻看会议文章集记录的一点内容

A Guide to NeurIPS 2022 — 10 Topics and 50 Papers You Shouldn't Miss （nips2022) 2672 main papers, 63 workshops, 7 invited talks, and finally in person again. Language Models, Brain-Inspired research, Diffusion Models, Graph Neural Networks... NeurIPS comes packed with world-class AI research insights, and this guide will help you find where to focus your attention.

知识蒸馏模型（Knowledge Distillation Model）

https://blog.csdn.net/m0_37723079/article/details/123954975

Untitled

Teacher模型：首先，我们需要一个原始的“大”模型——Teacher模型，这个模型可以不限制其结构、参数量、是否集成，要求这个模型尽可能精度高，并且对于给定的输入X可以给出输出的监督信息Y，这个Y在分类任务中就是softmax的结果，也就是输出对应类别的概率值。这里我们称Y为soft targets，而训练数据的标注好的标签，我们称为hard targets。

Student模型：这个部分的模型选择会有很多限制，要求其参数量小，结构相对简单，当然最好是单模型。并且需要注意的是，训练过程中student模型学习的不再是单纯的hard targets（标注好的真实标签），而是融入teacher模型输出的soft targets（监督信息Y），这里也被称为knowledge transfer。蒸馏的损失函数distillation loss分为两部分：一部分计算teacher和student之间输出预测值的差别（student预测的y 和 soft targets），另一部分计算student原本的loss（student预测的y 和 hard targets），这两部分做凸组合作为整个模型训练的损失函数来进行梯度更新，最终获得一个同时兼顾精度和性能的student模型。

从训练方式区分

论文：Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks

Untitled

离线蒸馏方式，即为传统的知识蒸馏，如上图（a）。一般来讲，Teacher模型的参数在蒸馏训练过程中保持不变，选用的Teacher模型和Student模型准确性相对悬殊比较大，并且Student模型会在很大程度上依赖Teacher模型。

半监督训练方式，利用了Teacher模型的预测信息作为标签来对Sudent网络进行监督学习，如上图（b），不同于传统的离线蒸馏方式，在对Student模型训练之前，先输入部分未标记的数据，利用Teacher网络输出的标签作为监督信息，再输入到Student网络中来完成蒸馏，这样可以使用更少的标注数据，达到提升模型精度的目的。在online蒸馏中，Student模型和Teacher模型将同时更新，整个知识提炼框架是可以从端到端训练的。给出一篇online蒸馏的文章：Online Knowledge Distillation with Diverse Peers

自监督蒸馏，相比于传统的离线蒸馏方式，是不需要提前训练一个Teacher模型的，而是Student网络本身的训练是一个蒸馏过程，如上图（c）。具体的实现方式有很多种，比如训练Student模型时，在整个训练过程的最后几个epoch的时候，利用前面训练的Student模型作为监督模型，在剩下的几个epoch中对模型进行蒸馏。这样做的好处，是不需要提前训练一个Teacher模型，可以做到边训练边蒸馏，节省整个蒸馏过程的训练时间。同样给出一篇自监督的蒸馏：Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation

从知识来源位置区分

论文：Knowledge Distillation: A Survey

Untitled

Response-Based的知识是从teacher模型的output layer中学习到的，而Feature-Based是从hidden layer中学习到的知识，Relation-Based则是学习input-hidden-output之间的关系。

Untitled

蒸馏在NLP中的应用

在NLP的大部分任务中，我们可能习惯上追崇Bert大法，但是Bert本身参数量比较大，在一些特殊情况下，我们需要部署一个小而美的模型，这时候我们需要给Bert进行“瘦身”。一般认为比较有效的瘦身方法有上面介绍的蒸馏、量化（Quantization）、剪枝（Pruning）。这里我们介绍几个效果不错的Bert蒸馏模型。

DistillBERT

论文地址：https://arxiv.org/pdf/1910.01108.pdf

TinyBERT

论文地址：https://arxiv.org/pdf/1909.10351.pdf

项目地址：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

扩散模型（Diffusion Model）

https://blog.csdn.net/weixin_47772355/article/details/128475726

功能

1、文字生成图片

2、根据给定的图片生成相似风格画作

3、图片延展

生成模型对比

Untitled

原理：扩散现象

物理：物质分子从高浓度向低浓度区域转移，直到均匀分布。

AI：由熵增定律驱动，先给一幅图片增加噪声，让其变得极其混乱，再训练AI把混乱的照片变回有序（实现图片生成）。

实现方式

Untitled

1、前向过程（加噪）

2、反向过程（去噪）

增强学习（Reinforcement Learning）

自监督（Self-supervision）

Untitled

定义

自监督学习（Self-Supervised Learning） 是无监督学习里面的一种，也被称作(pretext task)。自监督学习主要是利用辅助任务（pretext）从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。自监督学习的优势，就是可以在无标签的数据上完成训练，而监督学习需要大量的有标签数据，强化学习需要与环境的大量交互尝试，数据为王的时代，此特点也使得大家充分相信自监督学习才是人工智能的发展方向。

自监督学习的主要方法

● 基于上下文（Context based）

基于数据本身的上下文信息，我们可以构造很多任务，如NLP领域中重要的Word2vec算法。Word2vec主要是利用语句的顺序，例如CBOW通过利用周围词来预测中心词，而Skip-Gram通过中心词来预测周围的词。

图 1 Word2vec的两种方法

在图像领域，研究人员通过一种名为Jigsaw（拼图）的方式来构造辅助任务（pretext）。将一张图分成9个部分，然后通过预测这几个部分的相对位置来产生损失。比如输入这张图中小猫的眼睛和右耳朵，然后让模型学习到猫的右耳朵是在眼睛的右上方的，如果模型能够很好得完成这个任务，那么就可以认为模型学习到的表征是具有语义信息的。

基于上下文预测的无监督视觉表征学习

● 基于时序（Temporal Based）

在基于上下文的方法中大多是基于样本本身的信息，而样本间其实也具有很多的约束关系，因此可以利用时序约束来进行自监督学习。最能体现时序的数据类型就是视频（video）。

在视频领域可以基于帧的相似性进行研究，对于视频中的每一帧存在特征相似的概念，简单来说可以认为视频中的相邻帧的特征是相似的，而相隔较远的视频帧之间的相似度较低。通过构建这种相似（positive）和不相似（negative）的样本来进行自监督约束。

● 基于对比（Contrastive Based）

第三类自监督学习的方法是基于对比约束，它通过学习对两个事物的相似或不相似进行编码来构建表征。在第二部分中所介绍的基于时序的方法已经涉及到了基于对比的约束，其通过构建正样本（positive）和负样本（negative），然后度量正负样本的距离从而实现自监督学习。

自编码器（Auto-encoder)

https://zhuanlan.zhihu.com/p/561216882

示意图

Untitled

一些其他热门方向

类脑（Brain-Inspired）
域外泛化（Out-of-domain Genelization）
图神经网络（Graph Neural Networks）
Learning Theory
Language Models and Prompting
Adversarial Robustness, Federated Learning, Compression

深度学习2023笔记

知识蒸馏模型（Knowledge Distillation Model）

从训练方式区分

从知识来源位置区分

蒸馏在NLP中的应用

DistillBERT

TinyBERT

扩散模型（Diffusion Model）

功能

生成模型对比

原理：扩散现象

实现方式

增强学习（Reinforcement Learning）

自监督（Self-supervision）

定义

自监督学习的主要方法

● 基于上下文（Context based）

● 基于时序（Temporal Based）

● 基于对比（Contrastive Based）

自编码器（Auto-encoder)

示意图

一些其他热门方向

相关文章：