人工智能大模型多模態(tài)：讓機(jī)器更懂人類的世界

發(fā)布日期：2023-08-17 瀏覽次數(shù)：13

　　　　人工智能(AI)是一門致力于讓機(jī)器具有人類智能的科學(xué)。人類智能是一種復(fù)雜而多樣的現(xiàn)象，它涉及到多種信息的獲取、處理、理解和表達(dá)。例如，我們可以通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感知環(huán)境，也可以通過(guò)語(yǔ)言、圖像、音樂(lè)等表達(dá)思想和情感。這些不同類型的信息，我們稱之為不同的模態(tài)(modality)。在人類的認(rèn)知過(guò)程中，不同模態(tài)的信息是相互關(guān)聯(lián)和協(xié)同的，比如我們可以通過(guò)看圖說(shuō)話，也可以通過(guò)聽(tīng)歌畫畫。這種跨模態(tài)(cross-modal)的能力是人類智慧的重要體現(xiàn)之一。

　　那么，機(jī)器是否也能夠像人類一樣，同時(shí)處理和學(xué)習(xí)多種模態(tài)的信息呢?這就是多模態(tài)人工智能(multimodal AI)的研究目標(biāo)。多模態(tài)人工智能是人工智能的一個(gè)子領(lǐng)域，它旨在開(kāi)發(fā)能夠同時(shí)處理和學(xué)習(xí)圖像、文本、音頻等多種模態(tài)數(shù)據(jù)的模型。多模態(tài)人工智能有助于提升機(jī)器對(duì)人類世界的理解和生成能力，從而實(shí)現(xiàn)更自然、更流暢、更高效的人機(jī)交互。

　　多模態(tài)人工智能的核心技術(shù)之一是多模態(tài)預(yù)訓(xùn)練大模型(multimodal pre-trained large model)。這種模型利用海量的無(wú)標(biāo)注或弱標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)，從而學(xué)習(xí)到不同模態(tài)數(shù)據(jù)之間的共性和關(guān)聯(lián)性，并形成一個(gè)統(tǒng)一的知識(shí)表示空間。在這個(gè)空間中，不同模態(tài)的數(shù)據(jù)可以相互轉(zhuǎn)換和生成，比如從圖像生成文本描述，或者從文本生成語(yǔ)音播報(bào)。這種模型可以有效地降低對(duì)數(shù)據(jù)標(biāo)注的依賴性，同時(shí)提高對(duì)不同場(chǎng)景和任務(wù)的泛化性。

　　近年來(lái)，隨著計(jì)算資源和數(shù)據(jù)規(guī)模的增長(zhǎng)，多模態(tài)預(yù)訓(xùn)練大模型取得了令人矚目的進(jìn)展。國(guó)內(nèi)外的研究機(jī)構(gòu)和企業(yè)紛紛推出了各自的多模態(tài)大模型，并在各種應(yīng)用場(chǎng)景中展示了其強(qiáng)大的性能和潛力。例如：

　　中國(guó)科學(xué)院自動(dòng)化研究所發(fā)布了“紫東太初”跨模態(tài)通用人工智能平臺(tái)1，該平臺(tái)以三模態(tài)(視覺(jué)-文本-語(yǔ)音)預(yù)訓(xùn)練大模型為核心，可支撐全場(chǎng)景AI應(yīng)用。該平臺(tái)首次實(shí)現(xiàn)了“以圖生音”和“以音生圖”的功能，對(duì)視頻配音、語(yǔ)音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等多元媒體業(yè)務(wù)場(chǎng)景提供了技術(shù)支撐。

　　阿里達(dá)摩院發(fā)布了萬(wàn)億參數(shù)AI大模型M62，該模型是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)商業(yè)化落地的多模態(tài)大模型。M6已經(jīng)作為AI助理設(shè)計(jì)師正式上崗阿里新制造平臺(tái)犀牛智造2，通過(guò)結(jié)合潮流趨勢(shì)進(jìn)行快速設(shè)計(jì)、試穿效果模擬，有望大幅縮短快時(shí)尚新款服飾設(shè)計(jì)周期。

　　谷歌推出了CLIP和DALL-E兩個(gè)多模態(tài)大模型，分別實(shí)現(xiàn)了從圖像到文本和從文本到圖像的轉(zhuǎn)換和生成。CLIP可以根據(jù)文本提示從海量圖像中檢索出最相關(guān)的圖像，或者給出圖像的文本描述。DALL-E可以根據(jù)任意的文本輸入生成逼真的圖像，甚至可以創(chuàng)造出一些不存在的事物，比如“一個(gè)穿著西裝的鱷梨”或者“一個(gè)長(zhǎng)著貓耳朵的蛋糕”。

　　這些多模態(tài)大模型不僅展示了機(jī)器對(duì)多種模態(tài)數(shù)據(jù)的理解和生成能力，也體現(xiàn)了機(jī)器具有一定的認(rèn)知和創(chuàng)造能力。這些能力是通向通用人工智能(AGI)的重要步驟，也是人工智能領(lǐng)域的前沿探索。多模態(tài)人工智能的未來(lái)必將風(fēng)光無(wú)限，讓我們拭目以待!

聲明:凡資訊來(lái)源注明為其他媒體來(lái)源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé).您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑,請(qǐng)立即與本網(wǎng)站聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理.
聯(lián)系QQ:1325426082
郵箱:1325426082@qq.com

上一篇：數(shù)字人未來(lái)社會(huì)的新

下一篇：柔性加熱一種具有多種