(資料圖)
6月7日,國際人工智能頂會CVPR 2023舉辦的第一屆大模型挑戰(zhàn)賽(CVPR 2023 Workshop on Foundation Model:1st foundation model challenge)落下帷幕,本次比賽吸引了來自全球著名高校和知名企業(yè)的1024名參賽者。經(jīng)過為期2個月的激烈角逐,天翼云AI團隊(隊名CTRL)在多任務大模型賽道中表現(xiàn)出色,榮獲本屆大賽冠軍。
(圖片來源:攝圖網(wǎng))
CVPR會議是由IEEE主辦的關(guān)于計算機視覺和模式識別的國際學術(shù)會議,收錄了該領域最新的研究成果和技術(shù)發(fā)展,是全球計算機視覺三大頂級會議之一。
傳統(tǒng)的視覺模型生產(chǎn)流程通常采用單任務,從零開始訓練,各個任務之間無法相互借鑒。由于單任務數(shù)據(jù)有限,導致模型的實際效果過于依賴任務數(shù)據(jù)分布,通常對于不同場景的泛化效果不佳。
近年來,大數(shù)據(jù)預訓練技術(shù)迅速發(fā)展,通過利用大量數(shù)據(jù)學習通用知識并將其遷移到下游任務中的方法,本質(zhì)上實現(xiàn)了不同任務之間的相互借鑒。基于海量數(shù)據(jù)獲得的預訓練模型具有較好的知識完備性,即使在下游任務中使用少量數(shù)據(jù)進行微調(diào),仍然能夠獲得良好的效果。然而,基于預訓練+下游任務微調(diào)的模型生產(chǎn)流程需要為每個任務單獨訓練模型,這在研發(fā)上消耗了大量資源。相比之下,多任務訓練方案通過使用多個任務的數(shù)據(jù)訓練一個功能強大的通用模型,可以直接應用于處理多個任務,從而有效提高模型生產(chǎn)效率和泛化能力。
在本次競賽中,參賽者需要使用單一模型同時完成交通場景下的分類、檢測和分割三個代表性任務的聯(lián)合訓練。天翼云AI團隊在模型設計方面憑借豐富的算法開發(fā)經(jīng)驗,選擇了參數(shù)量僅為第2名60%的預訓練模型,用更少的參數(shù)卻獲得了更高的精度。
為了解決多任務訓練中各分支損失函數(shù)和梯度不一致導致收斂緩慢的問題,天翼云AI團隊采用了損失均衡和梯度尺度統(tǒng)一的方法,以此來平衡各任務分支的損失函數(shù),并使梯度具有一致的尺度,從而提高模型的訓練效率和收斂速度。此外,天翼云AI團隊還通過精心設計的任務專屬特征金字塔和注意力機制,使各分支任務能夠利用骨干網(wǎng)絡中對自身任務更有效的特征,進一步提升了整體模型的精度和性能。
通過以上模型設計和訓練策略,天翼云AI團隊在競賽中取得了優(yōu)異成績,充分展示了在圖像、音頻及多模態(tài)領域的深厚積累和持續(xù)創(chuàng)新能力。未來,天翼云將繼續(xù)在廣闊的人工智能領域進行創(chuàng)新和探索,以更先進的技術(shù)和卓越的成果惠及更多用戶,為千行百業(yè)的數(shù)字化發(fā)展提供支撐。