書生多模態大模型：邁向通用人工智能

如同人類的“五感”互相連通密不可分，人工智能的視覺、語言、音頻等模態間的邊界日漸融合，隨著人工智能感知、交互和生成能力的快速發展，多模態大模型正推動人工智能邁進“通感”時代。

上海人工智能實驗室（上海AI實驗室）于近日發布書生通用大模型體系，其中，書生多模態大模型（以下簡稱“書生·多模態”；InternLMM，Intern Large Multimodal Model）是具備真實世界理解能力，可實現跨模態生成與交互的大模型。書生·多模態包含200億參數，由80億海量多模態樣本訓練而成，支持350萬語義標簽的識別和理解，覆蓋開放世界常見的類別和概念，在80余種多模態與視覺任務中性能國際領先。

目前，書生·多模態具備開放世界理解、跨模態生成、多模態交互三大核心能力。

在多項多模態和視覺任務上達到世界頂尖水平

【核心能力一：開放世界理解】

在人工智能的研究中，“開放世界”指非預設、非學術集或封閉集定義的真實世界。傳統研究中，人工智能僅能完成預定義任務，即學術集或封閉集定義的任務, 然而這種任務范圍與真實的開放世界存在很大差距。例如，ImageNet-1K學術集包含1000種物體，其中約有2種花、48種鳥和21種魚；而在真實世界中，花鳥魚的種類數量分別約為45萬、1萬和2萬。在開放世界中，書生·多模態正通過不斷學習，獲得更接近人類的感知和認知能力。在語義開放方面，書生·多模態可以識別和理解開放世界中超過350萬種語義，覆蓋日常生活中常見的物體類別、物體動作和光學字符等。書生·多模態完成了從解決預定義任務到執行開放任務的蛻變，為未來多模態AGI模型研究提供了有力的支持。在任務開放方面，書生·多模態可以將圖像視為一種新的語言，用戶可利用自然語言指令，靈活定義和管理任意視覺任務。該大模型同時擁有多種級別的自定義視覺感知、理解和邏輯推理能力，能力范圍覆蓋目標對象、輸出格式、任務內容等模塊。

【核心能力二：跨模態生成】

通過聯合學習，書生·多模態可實現模態間的相互轉換。研究人員嘗試讓書生·多模態根據張大千的《湖山清夏圖》創作七言絕句。驗證結果表明，經過聯合學習，書生·多模態已經具備了較好的由圖像到文本的跨模態生成能力，并且已經擁有了相當深厚的中國文化積累。生成文本的同時，書生·多模態還給出了創作思路：根據圖片確定描繪的是山水清幽的自然景色畫面；從畫面中尋找能夠表達出詩人思想情感的元素，如山峰高聳、云霧繚繞、松濤入畫；根據元素構思出詩句；最后根據詩句的韻律和格律進行完善。書生·多模態還特別描述了第四句的靈感：借鑒了唐代詩人韋莊的名句“春水碧于天，畫船聽雨眠”。

書生·多模態根據張大千的《湖山清夏圖》創作的七言絕句

【核心能力三：多模態交互】

書生·多模態繼承在上一代書生在常規預定義視覺任務上性能的同時，還創新了人機交互的方式，用戶通過光標點擊、聊天等方式，即可精準傳達指令。書生·多模態降低了AI任務的門檻，使AI成為萬千大眾都能使用的生產工具。多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向。面向未來，書生·多模態將持續通過原始創新提升模型能力，通過開源開放賦能創新生態，讓大模型更好服務于人。

comm@pjlab.org.cn

上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

滬ICP備2021009351號-1

新聞動態

書生多模態大模型：邁向通用人工智能

網站地圖