【新致遠簡介】只需要幾張圖片和文字,就可以生成任意年齡段的圖片,用戶反饋準(zhǔn)確率高達80%!
目前的“人臉識別系統(tǒng)”抗衰老能力非常弱。 人臉老化會顯著降低識別性能,每隔一段時間就需要更換人臉數(shù)據(jù)。
提高人臉識別系統(tǒng)的魯棒性需要收集有關(guān)個體衰老的高質(zhì)量數(shù)據(jù)。 然而,近年來發(fā)布的數(shù)據(jù)集通常規(guī)模較小且時間不夠長(例如大約5年),或者具有不同的特征,例如姿勢、光照、背景。 人臉數(shù)據(jù)等方面發(fā)生了重大變化。
近日,紐約大學(xué)的研究人員提出了一種通過潛在擴散模型來保留不同年齡的身份特征的方法,并且只需要少量樣本的訓(xùn)練,并且可以直觀地使用“文本提示”來控制模型輸出。
論文鏈接:
研究人員引入了兩個關(guān)鍵組件:身份保留損失和小型(圖像、描述)正則化集合,以解決現(xiàn)有基于 GAN 的方法所施加的限制。
在對兩個基準(zhǔn)數(shù)據(jù)集 CeleA 和 AgeDB 的評估中,與常用生物識別保真度指標(biāo)上最先進的基線模型相比,該方法將錯誤錯配率降低了約 44%。
追蹤面孔的年齡變化
夢想展位
本文提出的方法基于潛在擴散模型DreamBooth,可以通過微調(diào)文森圖擴散模型將單個主體置于其他上下文中(重新上下文化)。
Dreambooth的輸入要求是目標(biāo)主題的多張圖像,以及包含主題唯一標(biāo)識符和類標(biāo)簽的文本提示,其中類標(biāo)簽是多個實例的集合表示,主題對應(yīng)于屬于哪個具體示例到班級。
Dreambooth 的目標(biāo)是將唯一標(biāo)識符與每個代理(類的特定實例)相關(guān)聯(lián),然后在文本提示的指導(dǎo)下,在不同上下文中重新創(chuàng)建同一代理的圖像。
類別標(biāo)簽需要利用指定??類別的預(yù)訓(xùn)練擴散框架的先驗知識。 不正確或缺失的類標(biāo)簽可能會導(dǎo)致輸出質(zhì)量下降。 獨特的標(biāo)記充當(dāng)對特定主題的引用,并且需要足夠稀有以避免與其他常用概念發(fā)生沖突。
原作者使用了一組少于3個的Unicode字符序列作為token,并使用T5-XXL作為tokenizer。
DreamBooth 使用特定于類的先驗保留損失來增加生成圖像的可變性,同時確保目標(biāo)對象和輸出圖像之間的偏差最小。 原始訓(xùn)練損失如下:
DreamBooth可以借助預(yù)先保存,有效合成狗、貓、卡通等主題圖像。 然而,本文主要關(guān)注結(jié)構(gòu)更復(fù)雜、紋理更細致的人臉圖像。
雖然類標(biāo)簽“人”可以捕獲類人特征,但由于個體差異,它可能不足以捕獲身份特征。
因此,研究人員在損失函數(shù)中引入了身份保留項,可以最小化原始圖像與生成的圖像生物特征之間的距離,并利用新的損失函數(shù)對 VAE 進行微調(diào)。
公式中的第三項表示被拍攝物體的真實圖像與生成圖像之間的生物距離,其中B表示兩幅圖像的L1距離。 相同像距接近于0。該值越大,兩個被攝體之間的差異越大。 ,使用預(yù)先訓(xùn)練的 VGGFace 作為特征提取器。
下一步是針對特定目標(biāo)對其進行微調(diào),使用凍結(jié)的 VAE 和文本編碼器,同時保持 U-Net 模型未凍結(jié)。
UNet 對 VAE 編碼器產(chǎn)生的潛在表示進行去噪,并使用身份保留對比損失進行訓(xùn)練。
研究人員采用SimCLR框架,利用正負樣本對之間的歸一化溫度尺度交叉熵損失來增強潛在表示,即下式中的S函數(shù)。
使用加權(quán)項 λs = 0.1 和溫度值 = 0.5 計算無噪聲輸入 (z0) 和去噪輸出 (zt) 的潛在表示之間的對比度損失。
U-Net 架構(gòu)中潛在表示之間的對比損失使模型能夠針對不同主題微調(diào)擴散模型。
除了定制損失之外,研究人員還使用正則化集賦予潛在擴散模型面部年齡進展和回歸的概念,該正則化集包括類別的所有代表性圖像(在本例中為人)。
如果目標(biāo)是生成真實的人臉圖像,那么從互聯(lián)網(wǎng)上選擇一組正則化的人臉圖像就足夠了。
然而,本文的任務(wù)是讓模型學(xué)習(xí)衰老和返老還童的概念,并且必須應(yīng)用于不同的個體,因此研究人員選擇使用不同年齡段的人臉圖像,然后將它們與文字描述相結(jié)合(單字標(biāo)題)進行配對。
圖像描述對應(yīng)六個年齡段:兒童、青少年、青壯年、中年、老年和老年。
與數(shù)字提示(20歲、40歲)相比,年齡描述的表現(xiàn)更好,并且擴散模型可以在推理中用文本提示((〈令牌〉〈類別標(biāo)簽〉為〈年齡組〉 )
實驗結(jié)果
實驗裝置
研究人員對在 Stable Diffusion v1.4 中實現(xiàn)的 DreamBooth 進行了實驗,使用 CLIP 文本編碼器(在 laion-aesthetics v25+ 上訓(xùn)練)和矢量量化 VAE 來執(zhí)行年齡變化,并且在訓(xùn)練擴散模型時文本編碼器保持凍結(jié)狀態(tài)。
研究人員使用了 CelebA 數(shù)據(jù)集中 100 名受試者的 2258 張面部圖像和 AgeDB 數(shù)據(jù)集中 100 名受試者的 659 張圖像來形成訓(xùn)練集。
除了二元屬性“Young”之外,CelebA數(shù)據(jù)集沒有受試者的年齡信息; AgeDB數(shù)據(jù)集包含精確的年齡值,研究人員選擇了圖像數(shù)量最多的年齡組并將其用作訓(xùn)練集,而其余圖像則用于測試集(總共2369張圖像)。
研究人員使用(圖像,描述)數(shù)據(jù)對作為正則化集,其中每個人臉圖像都與一個說明其相應(yīng)年齡標(biāo)簽的標(biāo)題相關(guān)聯(lián),具體來說該孩子是 65 歲,使用四個罕見標(biāo)記作為標(biāo)記:wzx、sks、ams , 英國
比較結(jié)果
研究人員使用 IPCGAN、AttGAN 和 Talk-toEdit 作為基線模型進行評估和比較。
由于IPCGAN是在CACD數(shù)據(jù)集上訓(xùn)練的,研究人員對CACD數(shù)據(jù)集中的62個受試者進行了微調(diào),可以觀察到FNMR=2%,而論文中提出的方法FNMR(False NonMatch Rate)=11%
可以看出,IPCGAN默認無法進行老化或再生操作,導(dǎo)致FNMR值非常低。
研究人員使用 DeepFace 年齡預(yù)測器進行自動年齡預(yù)測。 可以觀察到,與原始圖像和IPCGAN生成的圖像相比,本文方法合成的圖像會使年齡預(yù)測更加分散,表明年齡編輯操作已經(jīng)成功。
當(dāng)在CelebA數(shù)據(jù)集上應(yīng)用AttGAN和對話編輯時,在圖像比較和生物特征匹配性能方面,可以觀察到當(dāng)FMR=0.01時,本文的方法在“年輕”類別的圖像上比AttGAN好19%,在“舊的類別圖像上比 AttGAN 好 7%”
用戶研究
研究人員收集了 26 條用戶反饋,Rank-1 生物特征識別準(zhǔn)確率(回復(fù)總數(shù)的平均值)達到 78.8%。 各年齡段的正確識別準(zhǔn)確率分別為:兒童=99.6%、青少年=72.7%、青少年=68.1%、中年=70.7%、老年人=93.8%
也就是說,用戶能夠以相當(dāng)高的準(zhǔn)確度成功地區(qū)分來自不同年齡組的生成圖像。