菁菁校園 NAVIGATION
計(jì)算機(jī)與信息工程學(xué)院1項(xiàng)成果被CCF A類(lèi)國(guó)際學(xué)術(shù)會(huì)議ACM Multimedia 2024錄用
近日,國(guó)際頂級(jí)會(huì)議ACM Multimedia 2024在澳大利亞墨爾本舉辦,由朱艾春和董冠男老師指導(dǎo)的、計(jì)算機(jī)與信息工程學(xué)院2022級(jí)研究生張旭同學(xué)(第一作者)的長(zhǎng)文“TVPR: Text-to-Video Person Retrieval and a New Benchmark”被大會(huì)錄用。ACM Multimedia是計(jì)算機(jī)學(xué)科多媒體領(lǐng)域的頂級(jí)國(guó)際會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的該領(lǐng)域唯一的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議。ACM Multimedia 2024共有4385篇投稿進(jìn)入審稿階段,經(jīng)過(guò)Rebuttal后,最終有1149篇論文(26.20%)被錄用。
該論文提出了一個(gè)文本-視頻行人檢索(TVPR)新任務(wù)以及一個(gè)新數(shù)據(jù)集,并在此基礎(chǔ)上提出了一種多元特征引導(dǎo)的片段化學(xué)習(xí)策略(Multielement Feature Guided Fragments Learning strategy,MFGF)。
該策略利用跨模態(tài)文本-視頻表征來(lái)提供強(qiáng)大的文本-視覺(jué)和文本-運(yùn)動(dòng)匹配信息,以應(yīng)對(duì)不確定的遮擋沖突和可變運(yùn)動(dòng)細(xì)節(jié)。該模型利用ViT和S3D聯(lián)合提取行人視頻的特征,增強(qiáng)視頻特征中的動(dòng)作信息,同時(shí)利用BERT編碼文本描述,提取文本特征。
此外,MFGF為文本和視頻特征協(xié)作學(xué)習(xí)建立了兩個(gè)潛在的跨模態(tài)空間,進(jìn)一步縮小文本和視頻之間的跨模態(tài)語(yǔ)義鴻溝,提升模型對(duì)文本-視頻跨模態(tài)信息中語(yǔ)義共性的理解,進(jìn)而提高了檢索精度。
作者:朱艾春(計(jì)算機(jī)與信息工程學(xué)院(人工智能學(xué)院));審核:高輝慶、萬(wàn)夕里