中國團(tuán)隊(duì)成功構(gòu)建全球首個(gè)圖文音三模態(tài)預(yù)訓(xùn)練模型

時(shí)間:2021-07-09來1源:中國新聞網(wǎng) 作者:佚名

中新網(wǎng)北京7月8日電 (記者孫自法)記者8日從中國科學(xué)院自動(dòng)化研究所(中科院自動(dòng)化所)獲悉，該所科研團(tuán)隊(duì)成功構(gòu)建全球首個(gè)圖文音(視覺-文本-語音)三模態(tài)預(yù)訓(xùn)練模型，將解鎖更多智能之美，讓人工智能(AI)更接近人類想象力。

目前，已有的多模態(tài)預(yù)訓(xùn)練模型通常僅考慮“圖像和文本”或者“視頻和文本”兩個(gè)模態(tài)，忽視了周圍環(huán)境中普遍存在的語音信息，并且模型極少兼具理解與生成能力，難以在生成任務(wù)與理解類任務(wù)中同時(shí)取得良好表現(xiàn)。

針對(duì)這些問題，中科院自動(dòng)化所科研團(tuán)研究隊(duì)提出圖文音三模態(tài)預(yù)訓(xùn)練模型，將文本、語音、圖像、視頻等多模態(tài)內(nèi)容聯(lián)合起來進(jìn)行學(xué)習(xí)。該模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構(gòu)成，采用分別基于詞條級(jí)別、模態(tài)級(jí)別以及樣本級(jí)別的多層次、多任務(wù)三級(jí)預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式，更關(guān)注圖文音三模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)特性以及跨模態(tài)轉(zhuǎn)換問題，對(duì)更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。

科研團(tuán)隊(duì)指出，圖文音三模態(tài)預(yù)訓(xùn)練模型不僅可實(shí)現(xiàn)圖像識(shí)別、語音識(shí)別等跨模態(tài)理解任務(wù)，也能完成從文本生成圖像、從圖像生成文本、語音生成圖像等跨模態(tài)生成任務(wù)。同時(shí)，引入語音模態(tài)后的多模態(tài)預(yù)訓(xùn)練模型，可突破性直接實(shí)現(xiàn)三模態(tài)的統(tǒng)一表示，特別是首次實(shí)現(xiàn)“以圖生音”和“以音生圖”。

此外，該模型靈活的自監(jiān)督學(xué)習(xí)框架可同時(shí)支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，能有效降低多模態(tài)數(shù)據(jù)收集與清洗成本，從而取得預(yù)訓(xùn)練模型突破性進(jìn)展。

中科院自動(dòng)化所表示，圖文音三模態(tài)預(yù)訓(xùn)練模型的提出和構(gòu)建，將改變當(dāng)前單一模型對(duì)應(yīng)單一任務(wù)的人工智研發(fā)范式，大幅提升文本、語音、圖像和視頻等領(lǐng)域的基礎(chǔ)任務(wù)性能，并在多模態(tài)內(nèi)容的理解、搜索、推薦和問答；語音識(shí)別和合成；人機(jī)交互和無人駕駛等商業(yè)應(yīng)用中具有潛力巨大的市場價(jià)值。

未來，“大數(shù)據(jù)+大模型+多模態(tài)”的多任務(wù)統(tǒng)一學(xué)習(xí)，將引領(lǐng)人工智能技術(shù)發(fā)展的潮流。(完)

中國-博士人才網(wǎng)發(fā)布

聲明提示：凡本網(wǎng)注明“來源：XXX”的文/圖等稿件，本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的，并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，文章內(nèi)容僅供參考。

相關(guān)文章

精品视频国产狼友视|亚洲人成精品久久熟女|91精品国产色综合久久|亚洲欧美日韩国模久久精品|成人欧美一区二区三区免费|青草青草久热精品视频99|東热精品中字久久无码五月天|福利美女在线观看一区二区三区

英國《物理世界》雜志戰(zhàn)略合作伙伴，海內(nèi)外高層次人才服務(wù)中心！

高層動(dòng)態(tài)

哲學(xué)類：

經(jīng)濟(jì)學(xué)類：

文學(xué)類：

歷史學(xué)類：

管理學(xué)類：

藝術(shù)學(xué)類：

地區(qū)
招聘

熱點(diǎn)
招聘

關(guān)注微信

人才工作

人才論點(diǎn)

高層動(dòng)態(tài)

科研動(dòng)態(tài)

中國團(tuán)隊(duì)成功構(gòu)建全球首個(gè)圖文音三模態(tài)預(yù)訓(xùn)練模型

重點(diǎn)招聘