我院袁春教授團(tuán)隊(duì)在長尾數(shù)據(jù)下的標(biāo)簽噪聲問題的最新研究成果,以“When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration Method”為題,被計(jì)算機(jī)視覺領(lǐng)域世界三大頂級會議之一的ICCV 2023錄用,獲得最佳論文提名獎。ICCV 2023有效投稿數(shù)為8260篇,其中最佳論文提名的僅有17篇(入選率0.2%)! ICCV,英文全稱International Conference on Computer Vision,中文全稱國際計(jì)算機(jī)視覺大會,由IEEE主辦,每兩年在世界范圍內(nèi)召開一次,得到世界各地研究者的高度認(rèn)可。
深度學(xué)習(xí)在許多領(lǐng)域取得了快速進(jìn)展,這很大程度得益于大規(guī)模和高質(zhì)量的標(biāo)注數(shù)據(jù)集,而在現(xiàn)實(shí)中我們很難獲得如此完美的數(shù)據(jù)集。這來源于兩個方面,一是部分?jǐn)?shù)據(jù)標(biāo)注錯誤,二是數(shù)據(jù)類別不平衡,呈現(xiàn)出長尾分布。在現(xiàn)實(shí)環(huán)境中,兩種不完美的情況通常同時存在。深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合能力。網(wǎng)絡(luò)在帶有不平衡且?guī)уe誤標(biāo)簽的數(shù)據(jù)集上進(jìn)行訓(xùn)練,會導(dǎo)致網(wǎng)絡(luò)過擬合,進(jìn)而嚴(yán)重降低模型的泛化性能。雖然長尾分布學(xué)習(xí)和標(biāo)簽噪聲學(xué)習(xí)都已經(jīng)有了一定的研究,但是這種更加實(shí)際且具有挑戰(zhàn)性的長尾數(shù)據(jù)下的標(biāo)簽噪聲任務(wù)卻未被充分探索。
圖1 長尾數(shù)據(jù)下的標(biāo)簽噪聲問題示意圖
最直觀解決這個復(fù)合問題的方法是將標(biāo)簽噪聲學(xué)習(xí)的算法和長尾數(shù)據(jù)學(xué)習(xí)算法進(jìn)行復(fù)合。然而通過調(diào)研相關(guān)文獻(xiàn),發(fā)現(xiàn)算法的簡單復(fù)合并不能有效解決這一具有挑戰(zhàn)性問題,主要有以下挑戰(zhàn)點(diǎn):(1)如何在帶有錯誤標(biāo)注的數(shù)據(jù)中去學(xué)習(xí)到“真實(shí)”的長尾數(shù)據(jù)分布。(2)如何將尾部類數(shù)據(jù)與錯誤標(biāo)注的樣本進(jìn)行區(qū)分。因此,針對以上挑戰(zhàn),袁春教授團(tuán)隊(duì)提出了深層表征校準(zhǔn)方法RCAL。該方法的目的是希望從深層表征的角度去還原潛在的平衡且干凈的數(shù)據(jù)分布,并提供正確的信息幫助網(wǎng)絡(luò)訓(xùn)練。
該研究的方法由三部分組成:對比學(xué)習(xí)預(yù)訓(xùn)練、分布校準(zhǔn)和個體校準(zhǔn)。
圖2 算法總流程示意圖
第一步,采用對比學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練以獲得原始數(shù)據(jù)的深層表征,該表征可以捕獲同一類內(nèi)的相似特征并學(xué)習(xí)不同類之間的可鑒別特征。使用對比學(xué)習(xí)的原因是,它是一種自監(jiān)督的方法,不受噪聲標(biāo)簽的影響。此外,其學(xué)習(xí)到的特征可以表現(xiàn)出聚類特性,為后續(xù)操作提供支持。
第二步,經(jīng)過對比預(yù)訓(xùn)練后,進(jìn)行分布校準(zhǔn)以減輕噪聲標(biāo)簽和長尾問題。該方法基于這樣的假設(shè):在數(shù)據(jù)污染之前,每個類數(shù)據(jù)的深層表征滿足一個多元高斯分布。基于此,可以估計(jì)每個類別的均值和協(xié)方差矩陣,以進(jìn)行后續(xù)的校準(zhǔn)。
具體來說,首先在深層表征上使用異常值檢測算法,以識別可能不正確的標(biāo)注數(shù)據(jù)并將其刪除。然后,可以估計(jì)每個類別的均值和協(xié)方差矩陣。對于樣本量較小的尾部類,進(jìn)一步使用與其接近的頭部類信息來幫助其估計(jì)。獲得每一類分布后,對這些高斯分布進(jìn)行重新采樣,以減輕類別不平衡。
第三步,聯(lián)合采樣數(shù)據(jù)和原始數(shù)據(jù)集訓(xùn)練最終的分類器。同時,將fine-tune得到的表征與對比學(xué)習(xí)學(xué)到的表征的距離作為正則化項(xiàng),以保留通過對比學(xué)習(xí)學(xué)到的知識。最終的目標(biāo)函數(shù)是在校準(zhǔn)數(shù)據(jù)集上評估的交叉熵?fù)p失加上正則化項(xiàng)。
從實(shí)驗(yàn)上,在合成的CIFAR-10和 CIFAR-100數(shù)據(jù)集上,該研究觀察到在不同的噪聲率和不平衡率下,RCAL幾乎可以超越所有基線。隨著任務(wù)更具挑戰(zhàn)性,RCAL表現(xiàn)出更明顯的優(yōu)勢。
圖3 CIFAR-10、CIFAR-100 合成數(shù)據(jù)下的測試準(zhǔn)確度
在真實(shí)數(shù)據(jù)集上可以看出,與其他最先進(jìn)的方法相比,RCAL+在 WebVision驗(yàn)證集和 ImageNet ILSVRC12驗(yàn)證集上均取得了最佳結(jié)果。
圖4 WebVision和ImageNet ILSVRC12 的測試準(zhǔn)確度
該研究進(jìn)行了多種消融實(shí)驗(yàn),探究算法有效的原因。
圖5 消融實(shí)驗(yàn)
圖6 t-sne 可視化下的表征
圖7 ICCV 2023論文獲獎候選列表
我院2021級碩士生張曼怡為該文章的第一作者,通訊作者為袁春教授,論文共同作者還包括上海交通大學(xué)黃維然副教授、華為諾亞方舟實(shí)驗(yàn)室姚駿、北京大學(xué)博士生趙旭陽。
論文鏈接:
文/圖:張曼怡
編輯:萬欣宜
審核:陳超群