
那么,機器是否也能夠像人類一樣,同時處理和學習多種模態(tài)的信息呢?這就是多模態(tài)人工智能(multimodal AI)的研究目標。多模態(tài)人工智能是人工智能的一個子領域,它旨在開發(fā)能夠同時處理和學習圖像、文本、音頻等多種模態(tài)數(shù)據(jù)的模型。多模態(tài)人工智能有助于提升機器對人類世界的理解和生成能力,從而實現(xiàn)更自然、更流暢、更高效的人機交互。
多模態(tài)人工智能的核心技術之一是多模態(tài)預訓練大模型(multimodal pre-trained large model)。這種模型利用海量的無標注或弱標注數(shù)據(jù)進行自監(jiān)督學習,從而學習到不同模態(tài)數(shù)據(jù)之間的共性和關聯(lián)性,并形成一個統(tǒng)一的知識表示空間。在這個空間中,不同模態(tài)的數(shù)據(jù)可以相互轉換和生成,比如從圖像生成文本描述,或者從文本生成語音播報。這種模型可以有效地降低對數(shù)據(jù)標注的依賴性,同時提高對不同場景和任務的泛化性。
近年來,隨著計算資源和數(shù)據(jù)規(guī)模的增長,多模態(tài)預訓練大模型取得了令人矚目的進展。國內外的研究機構和企業(yè)紛紛推出了各自的多模態(tài)大模型,并在各種應用場景中展示了其強大的性能和潛力。例如:
中國科學院自動化研究所發(fā)布了“紫東太初”跨模態(tài)通用人工智能平臺1,該平臺以三模態(tài)(視覺-文本-語音)預訓練大模型為核心,可支撐全場景AI應用。該平臺首次實現(xiàn)了“以圖生音”和“以音生圖”的功能,對視頻配音、語音播報、標題摘要、海報創(chuàng)作等多元媒體業(yè)務場景提供了技術支撐。
阿里達摩院發(fā)布了萬億參數(shù)AI大模型M62,該模型是國內首個實現(xiàn)商業(yè)化落地的多模態(tài)大模型。M6已經作為AI助理設計師正式上崗阿里新制造平臺犀牛智造2,通過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計周期。
谷歌推出了CLIP和DALL-E兩個多模態(tài)大模型,分別實現(xiàn)了從圖像到文本和從文本到圖像的轉換和生成。CLIP可以根據(jù)文本提示從海量圖像中檢索出最相關的圖像,或者給出圖像的文本描述。DALL-E可以根據(jù)任意的文本輸入生成逼真的圖像,甚至可以創(chuàng)造出一些不存在的事物,比如“一個穿著西裝的鱷梨”或者“一個長著貓耳朵的蛋糕”。
這些多模態(tài)大模型不僅展示了機器對多種模態(tài)數(shù)據(jù)的理解和生成能力,也體現(xiàn)了機器具有一定的認知和創(chuàng)造能力。這些能力是通向通用人工智能(AGI)的重要步驟,也是人工智能領域的前沿探索。多模態(tài)人工智能的未來必將風光無限,讓我們拭目以待!