Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation
论文复现 - Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation
前记:这篇文章基于20年半监督学习的SOTA:FixMatch。他们发现FixMatch可以在半监督语义分割任务上媲美最近的SOTA,故在此基础上进行了多角度优化,思路很有借鉴意义。
下面,我们将通过论文介绍和实验复现两部分详细展示论文复现工作。
论文介绍
因为论文是基于FixMatch
做的一些工作,所以我们先回归一下FixMatch
1. FixMatch
根据论文的意思,由于半监督学习SSL的先进方法都引入了太多复杂的结构,FixMatch
希望可以构建一个simple却又精确的模型。如图1所示,对于一张未标记的图片,模型通过预测weakly-augmented
后的图片得到伪标签(注意,只有置信度高于阈值的才被使用,否则忽略),然后最小化strongly-augmented
后图片的预测分布和伪标签的“距离”。这里距离的衡量是使用H(p,q): Cross Entropy
.
那么,为什么可以这么做?为什么weak
和strong
的预测分布是相近的?于是我们引出FixMatch
的2个核心思想:
Consistency regularization
一致性正则化,它有一个很强的假设,就是同一图像经过不同扰动后输入模型,其输出的预测应该是接近或者类似的。故其loss fuction表示为:
其中
Pseudo-labeling
伪标签的思想,是希望利用置信度高的数据进行自我训练,从而提高模型性能,具体而言,体现为下面的损失函数:
可以看到,上式设置了一个阈值
FixMatch
结合了这两个思想:即使用弱扰动的图像通过模型生成的伪标签,来监督强扰动的预测结果。具体来说,模型先预测弱扰动图像的分布,并得到硬标签。如果该标签的置信度高于阈值,则将强扰动图像的预测输出和该标签做一个交叉熵损失:
其中
最后,数据增广也是FixMatch
关键的一环,在原论文中,作者对增广做了如下设置:
- 弱扰动:标准的
flip-and-shift
增广,即水平翻转或垂直翻转; - 强扰动:作者认为基于强化学习的AutoAugment需要很多带标签的数据,并不适合SSL任务。所以作者采用了以下两个增广方式:
RandAugment
:只需要搜索增强操作的数量N
和全局的增强幅度M
(分为10个等级,10为最强),代码如下:python1
2
3
4
5
6
7
8
9
10
11
12
13# Identity是恒等变换,不做任何增强
transforms = ['Identity', 'AutoContrast', 'Equalize', 'Rotate', 'Solarize',
'Color', 'Posterize', 'Contrast', 'Brightness', 'Sharpness',
'ShearX', 'ShearY', 'TranslateX', 'TranslateY']
def randaugment(N, M):
"""Generate a set of distortions.
Args:
N: Number of augmentation transformations to apply sequentially.
M: Magnitude for all the transformations.
"""
sampled_ops = np.random.choice(transforms, N)
return [(op, M) for op in sampled_ops]CTAugment
:一种在线学习的方法。该方法先定义一组transforms(如旋转、裁剪等)以及每种变换可能的幅度(旋转的角度等),然后维护一个变换-幅度-概率表
,记录每种变换和幅度的概率,初始化为均匀分布。对于每一张unlabelled图像,从表中随机采样弱增强(变换+幅度)和强增强(变换+幅度),然后利用弱增强生成伪标签。如果置信度高于阈值则计算伪标签和强增强的预测分布之间的交叉熵损失。最后,根据损失大小更新概率表,损失小,则提高相应概率。
2. UniMatch
UniMatch
建立在FixMatch引入图像级强扰动的思想上。直观地说,它的成功在于该模型更有可能对 FixMatch
的强扰动是性能优越的关键(或者说weak-to-strong框架非常优越)。于是作者认为可以进一步发挥强扰动的潜力。它们做了2个方向的改进:
2.1 UniPerb - Perturbations for Images and Features
即同时对image和feature扰动的方法。作者将模型 encoder
decoder

使用公式可以表示为:
其中,
2.2 DusPerb - Dual-Stream Perturbations
作者受到其他工作的影响,认为为无标签图像数据构建多个view作为输入可以更好的利用扰动空间。简单地,他们为一张图像设置2个强扰动视图:

作者将该结构的优越性归功于 对比学习 (而不是单纯doubled unlabeled batch size):

最终模型结合了UniPerb
和DusPerb
,Loss表示为
3. 实验结果和消融研究
由于是新的SOTA,论文在三个数据集上展现出了强劲表现。这里简单摘录在pascal voc 2012
数据集上的一些表现(因为下文复现时仅使用该数据集 )。
labelled data数量

可以看到UniMatch不仅准确率高,还比较稳定,在标注数据较少(如,92)的情况下依然还有较高精度。
labelled data占比

UniMatch在标注数据占比较少(如,1/16)的情况下依然还有较高精度。
消融实验
这一块我们简单列举一下论文的结论:
- The improvement of diverse perturbations is non-trivial:即多种类型的强扰动(2×image+feature)是比简单设置3个image强扰动有效的;
- The improvement of dual-stream perturbation is non-trivial:论文证明双流扰动的成功不是因为增加了一个batch内的unlabelled data;
- The necessity of separating image- and feature-level perturbations into independent streams:即分离不同类型的扰动是有效的;
- More perturbation streams:论文证明图像级多流扰动提升有限,双流以已经足够了;
…
实验结果复现
下文分析和修改的代码源自论文仓库: https://github.com/LiheYoung/UniMatch .
1. 下载代码、模型和数据
1.1 代码下载
关于代码的Installation
,直接按照默认方法:
1 | cd UniMatch |
值得强调的是,代码其实包含一些Bug,需要简单处理一下:
- 在
requirements.txt
中,需要将sklearn
改成scikit-learn
,保证pip install 顺利进行; - 在
unimatch.py
中,切记将下面这行代码改为python1
parser.add_argument('--local_rank', default=0, type=int)
不然你的local-rank参数不被识别;python1
parser.add_argument('--local-rank', default=0, type=int)
- 如果你是单机单卡或者单机多卡(例如我),可以将
train.sh
配置为无需设置port等参数。shell1
2
3
4
5
6
7
8export CUDA_VISIBLE_DEVICES=0,1,2,3
python -m torch.distributed.launch \
--nnodes 1 \
--nproc_per_node=$1 \
$method.py \
--config=$config --labeled-id-path $labeled_id_path --unlabeled-id-path $unlabeled_id_path \
--save-path $save_path 2>&1 | tee $save_path/$now.log
1.2 预训练模型下载
预训练的模型在原仓库中有3种:ResNet50
/ResNet101
/xception
,在复现时默认使用resnet101,如果时间允许,我们将尝试其他模型的复现。
1.3 数据集下载
数据集由于时间和资源有限,仅仅复现关于Pascal VOC 2012
数据集的一些结果。
- Pascal: JPEGImages | SegmentationClass
其他数据集见原仓库。
2. 训练的实现
我们准备好了数据,可以按照下面的算法图完成模型训练:
2.1 数据增广
这里说的数据增广,其实是指
strong view
的强扰动和weak view
的弱扰动。相关文件:./dataset/semi.py
在图7中指代下面这几行代码:
1 | # one weak view and two strong views as input |
源代码在实现这几行时,首先让每一张图像完成弱扰动:
1 | img, mask = resize(img, mask, (0.5, 2.0)) |
其中img
是RGB图像,mask
是分割的掩码。现在,这个经过弱扰动的图像img
就是strong view
,实现Dual-Stream Perturbations
。
1 | img_w, img_s1, img_s2 = deepcopy(img), deepcopy(img), deepcopy(img) |
进行强扰动的代码(以处理
1 | if random.random() < 0.8: |
因为这些数据增强方法设置了概率,故不同的epoch或者是CutMix
操作还比较好奇,去查看了函数定义。发现CutMix就是mask掉一块区域(该区域的宽高和位置都是一定程度随机的),然后用其他图片中相同位置的区域来填充。
由于Pascal
数据集的标注图像mask
中包含254这个无效像素值,没有对应类别,作者使用ignore_mask
忽略它:
1 | ignore_mask = Image.fromarray(np.zeros((mask.size[1], mask.size[0]))) |
取值为255是因为
crop
操作对哪些裁剪时遇到的padding都设置值为255,同样也是无效区域,这里相当于合并了。于是,经过图像增广等操作后,我们的输入数据可能就包含以下几个部分:
: 即img_w
,在return时还需要normalize一下; : 即img_s1
,经过强扰动,且已经normalize; : 即img_s2
,经过强扰动,且已经normalize;- ignore_mask: 用于忽略无效的像素;
- cutmix_box1: 从
获取的mask掉的CutMix区域; - cutmix_box2: 从
获取的mask掉的CutMix区域;
了解增广的细节后,我们可以构建3个数据集,分别是有标签监督数据、无标签数据、和验证数据:
1 | trainset_u = SemiDataset(cfg['dataset'], cfg['data_root'], 'train_u', |
将它们分别转为Dataloader后,通过下面的代码进行分批训练:
1 | loader = zip(trainloader_l, trainloader_u, trainloader_u) |
接下来的分析,都在上述循环中,请关注从
loader
中取出的这些数据!
最后一步,将cutmix
操作完成,具体来说,我们用第二个trainloader_u
中获取的数据来填充我们的
1 | img_u_s1[cutmix_box1.unsqueeze(1).expand(img_u_s1.shape) == 1] = \ |
2.2 模型预测
在图7中,这部分表示为:
1 | # feature of weakly perturbed image |
在
unimatch.py
中,并没有展现出将dropout2d
应该包含在model里了。我们截取了下面代码,作为上述部分的实现,并提供解释:1 | num_lb, num_ulb = img_x.shape[0], img_u_w.shape[0] |
2.3 Loss计算
在图7中指代一下部分:
1 | # hard (one-hot) pseudo mask |
由于CutMix
,而mask_w
很复杂,因此损失的计算并不简单。我们基于现有参数逐步分析:
首先,对于用来填充cutmix的数据img_u_w_mix
,我们利用模型预测其分割结果mask_u_w_mix
;同时,pred_u_w
(见2.2),我们同样可以获得mask_u_w
:
1 | with torch.no_grad(): |
由于我们知道了CutMix
框的位置,所以我们直接将上面的两个图像的mask结合,就可以得到自监督label:
1 | # 由于cutmix框不一样,这里分别获得cutmixed1和cutmixed2的mask及其conf等 |
最后,我们给出4个损失:
第一个损失:有监督损失。使用img_x的预测结果pred_x
和标签mask_x
计算:
1 | loss_x = criterion_l(pred_x, mask_x) |
第二&三个损失:图像层面自监督损失。通过
1 | loss_u_s1 = criterion_u(pred_u_s1, mask_u_w_cutmixed1) |
第四个损失:特征层面的自监督损失。通过pred_u_w_fp
和
1 | loss_u_w_fp = criterion_u(pred_u_w_fp, mask_u_w) |
Total
1 | loss = (loss_x + loss_u_s1 * 0.25 + loss_u_s2 * 0.25 + loss_u_w_fp * 0.5) / 2.0 |
3. 模型结构解析
模型结构在本文中显然是Encoder-Decoder架构,具体而言,我们进行如下分析:
3.1 Encoder
该论文的Encoder设置为ResNet和xception,为了便于讨论,只以ResNet101为例。这里不再展示模型的结构,直接看它的forward
:
1 | def base_forward(self, x): |
我们以一张大小为
(3,224,224)
的图片为例,相关提示已经在上面的注释中。通过resnet,我们已得到两种视角的特征:c1
和c4
。
3.2 Decoder
首先介绍Decoder的一个模块ASPPModule
,由ASPPConv
和ASPPPooling
等组合而成。
ASPPConv
引入了空洞卷积,其维度计算公式为:
1 | H_out = (H_in + 2 * padding - dilation * (kernel_size - 1) - 1) / stride + 1 |
其实现代码如下:
1 | def ASPPConv(in_channels, out_channels, atrous_rate): |
ASPPPooling
的代码为:1 | class ASPPPooling(nn.Module): |
举例而言,数据维度经过如下变化:
1 | 设 x.size = (2048, 7, 7) |
最后,ASPPModule
通过这些模块组合而成,代码为:
1 | class ASPPModule(nn.Module): |
经过该模块的数据,例如
(2048,7,7)
,最终变为(256, 7, 7)
。Decoder的具体实现见3.3.
3.3 Total model
我们将分析写成了注释,添加在下面的代码中:
1 | class DeepLabV3Plus(nn.Module): |
4. 复现结果
由于时间仓促,目前只复现了backbone为ResNet101
在数据集Pascal
上的表现,如下表所示:
Pascal / UniMatch | ResNet101 | 92 | 183 | 366 | 732 | 1464 |
---|---|---|---|---|---|
Paper | 75.2 | 77.2 | 78.8 | 79.9 | 81.2 |
OurWork | 75.2 | 76.8 | 78.5 | 79.2 | 80.8 |
Pascal / UniMatch | ResNet101 | 1/16 | 1/8 | 1/4 |
---|---|---|---|
Paper | 321 | 76.5 | 77.0 | 77.2 |
OurWork | 321 | 76.6 | 77.4 | 77.4 |
我们的复现基本接近或者达到论文中的精度,证明有效。我们展示两张复现时的截图,可供参考:
3. 基于FlexMatch的改进
由于作者认为FixMatch
足够强大、足够简单,所以以其为baseline。我们尝试使用FlexMatch
方法为baseline设计一个类似的UniMatch
模型。
FlexMatch
方法,就是将下式固定的
这种动态调整方法被称为Curriculum Pseudo Labeling (CPL)
方法。
FlexMatch认为一个类别预测的置信度越低,说明对该类的学习仍不够充分,应该降低阈值鼓励学习,即阈值和类别的学习效果有关。论文中使用预测属于该类且置信度大于阈值的无标签数据数量衡量一个类别的学习效果:
</a>
其中
</a>
实际上这个动态阈值
最后损失函数修改为:
1. 改进的代码
通过调研TorchSSL
代码库,我们可以对FlexMatch
方法有更清晰的认识。我们考虑在fixmatch.py
和unimatch.py
上修改代码,加入动态阈值。
1.1 fixmatch.py
在每一轮开始之前,我们要预定义2个变量:
selected_label
:一个存储分类情况的变量。在flexmatch的源码实现中,该参数将记录所有未标记图片的类别硬标签。但在语义分割任务中,一张图片的类别标签大小为(W,H)
,一旦图像数量较大则会导致空间占用较多、运行速度变慢,所以这里采用一个队列queue
来实现它。当队列已满时,将最早进入队列的batch移除,将新的batch移入。默认的队列长度queue_length
为batch_size
的100倍。classwise_acc
:记录每个类别的学习情况,即公式(7)的 。
1 | # selected_label.size = (N,W,H),记录每个像素的类别 |
在每一个step计算loss之前,我们需要根据式(8)得到归一化值。
1 | pseudo_counter = torch.bincount(selected_label.reshape(-1)) # 各类别预测数量 |
接着我们根据式(9,10)可以得到动态阈值,并以此计算loss:
1 | # u_w_cutmixed_thresh为动态阈值 |
一个batch的阈值矩阵大小为
(B,W,H)
,我们使用one-hot编码使其可以直接与classwise_acc
相乘。在计算完loss之后,我们要更新selected_label
(记录队列中图像的语义分割标签),以供下一个step使用。一般我们只需要更新队列末尾的那个batch即可。
最后,我们需要代码来完成队列的push和pop,以实现动态的变化:
1 | new_batch_data = cfg["nclass"] * torch.ones( |
2. 简单的实验验证
由于时间比较局促,目前只验证了model=ResNet101
,dataset=Pascal
中的部分实验:
实验1:在crop=321的情况下:
Pascal / ResNet101 | 92 | 183 | 366 | 732 | 1464 |
---|---|---|---|---|---|
Paper - UniMatch | 75.2 | 77.2 | 78.8 | 79.9 | 81.2 |
OurWork - FlexUniMatch | / | 73.9 | 76.2 | 78.5 | / |
实验2:FixMatch vs. FlexMatch
目前只测试了一组数据,在pascal-crop_321-732-resnet101
的设置下,结果为76.79
,与FixMatch
的对应值77.8
还有不小的差距。
3. 一些实验感悟与未来探讨
很遗憾,在实验中并没有把FlexMatch方法做到与FixMatch方法接近。其中loss_u
和loss_fp
损失依然较大,没能下降到原有水平。
我对造成这个问题的原因的进行了简单分析:
- 我们为了提高效率选择了使用一个队列,损失了较多数据的信息,队列中的类别可能不能反映整体数据分布;
- 我们还没有对类别分布展开分析,如果每一个step的类别分布不均衡的话会影响效果;
- 我们没有调整任何超参数(即,和
UniMatch
完全一致),可能会导致lr等不合适的情况; - 我们没有修改扰动的组合,也没有尝试验证特征扰动和多流扰动的其他可能;
- 尽管
FlexMatch
并没有显式增加参数,但由于对于动态阈值调整的变量 涉及到全部数据的类别信息、以及非线性函数的选择,在语义分割的像素级分类上应用并不简单。
不过,我们也发现增加队列的长度对提升模型效果有一定帮助,但效果增长有限。