忘記密碼
如同人類的“五感”互相連通密不可分,人工智能的視覺、語言、音頻等模態間的邊界日漸融合,隨著人工智能感知、交互和生成能力的快速發展,多模態大模型正推動人工智能邁進“通感”時代。
上海人工智能實驗室(上海AI實驗室)于近日發布書生通用大模型體系,其中,書生多模態大模型(以下簡稱“書生·多模態”;InternLMM,Intern Large Multimodal Model)是具備真實世界理解能力,可實現跨模態生成與交互的大模型。書生·多模態包含200億參數,由80億海量多模態樣本訓練而成,支持350萬語義標簽的識別和理解,覆蓋開放世界常見的類別和概念,在80余種多模態與視覺任務中性能國際領先。
目前,書生·多模態具備開放世界理解、跨模態生成、多模態交互三大核心能力。
在多項多模態和視覺任務上達到世界頂尖水平
【核心能力一:開放世界理解】
在人工智能的研究中,“開放世界”指非預設、非學術集或封閉集定義的真實世界。傳統研究中,人工智能僅能完成預定義任務,即學術集或封閉集定義的任務, 然而這種任務范圍與真實的開放世界存在很大差距。例如,ImageNet-1K學術集包含1000種物體,其中約有2種花、48種鳥和21種魚;而在真實世界中,花鳥魚的種類數量分別約為45萬、1萬和2萬。在開放世界中,書生·多模態正通過不斷學習,獲得更接近人類的感知和認知能力。在語義開放方面,書生·多模態可以識別和理解開放世界中超過350萬種語義,覆蓋日常生活中常見的物體類別、物體動作和光學字符等。書生·多模態完成了從解決預定義任務到執行開放任務的蛻變,為未來多模態AGI模型研究提供了有力的支持。在任務開放方面,書生·多模態可以將圖像視為一種新的語言,用戶可利用自然語言指令,靈活定義和管理任意視覺任務。該大模型同時擁有多種級別的自定義視覺感知、理解和邏輯推理能力,能力范圍覆蓋目標對象、輸出格式、任務內容等模塊。
【核心能力二:跨模態生成】
通過聯合學習,書生·多模態可實現模態間的相互轉換。研究人員嘗試讓書生·多模態根據張大千的《湖山清夏圖》創作七言絕句。驗證結果表明,經過聯合學習,書生·多模態已經具備了較好的由圖像到文本的跨模態生成能力,并且已經擁有了相當深厚的中國文化積累。生成文本的同時,書生·多模態還給出了創作思路:根據圖片確定描繪的是山水清幽的自然景色畫面;從畫面中尋找能夠表達出詩人思想情感的元素,如山峰高聳、云霧繚繞、松濤入畫;根據元素構思出詩句;最后根據詩句的韻律和格律進行完善。書生·多模態還特別描述了第四句的靈感:借鑒了唐代詩人韋莊的名句“春水碧于天,畫船聽雨眠”。
書生·多模態根據張大千的《湖山清夏圖》創作的七言絕句
【核心能力三:多模態交互】
書生·多模態繼承在上一代書生在常規預定義視覺任務上性能的同時,還創新了人機交互的方式,用戶通過光標點擊、聊天等方式,即可精準傳達指令。書生·多模態降低了AI任務的門檻,使AI成為萬千大眾都能使用的生產工具。多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向。面向未來,書生·多模態將持續通過原始創新提升模型能力,通過開源開放賦能創新生態,讓大模型更好服務于人。