<pre id="j9nnl"></pre>
        <ruby id="j9nnl"></ruby>
          <pre id="j9nnl"></pre><ruby id="j9nnl"><mark id="j9nnl"></mark></ruby>
          <p id="j9nnl"><mark id="j9nnl"><progress id="j9nnl"></progress></mark></p>

              <p id="j9nnl"><cite id="j9nnl"></cite></p>

                  <ruby id="j9nnl"></ruby>

                  <del id="j9nnl"><dfn id="j9nnl"><th id="j9nnl"></th></dfn></del>

                        <ruby id="j9nnl"><mark id="j9nnl"><thead id="j9nnl"></thead></mark></ruby>
                        <p id="j9nnl"></p>

                        <p id="j9nnl"><mark id="j9nnl"></mark></p>
                          <p id="j9nnl"><del id="j9nnl"><thead id="j9nnl"></thead></del></p>

                          新聞動態

                          Dynamics

                          首頁 >  新聞動態  > 詳情

                          書生多模態大模型:邁向通用人工智能

                          如同人類的“五感”互相連通密不可分,人工智能的視覺、語言、音頻等模態間的邊界日漸融合,隨著人工智能感知、交互和生成能力的快速發展,多模態大模型正推動人工智能邁進“通感”時代。

                          上海人工智能實驗室(上海AI實驗室)于近日發布書生通用大模型體系,其中,書生多模態大模型(以下簡稱“書生·多模態”;InternLMM,Intern Large Multimodal Model)是具備真實世界理解能力,可實現跨模態生成與交互的大模型。書生·多模態包含200億參數,由80億海量多模態樣本訓練而成,支持350萬語義標簽的識別和理解,覆蓋開放世界常見的類別和概念,在80余種多模態與視覺任務中性能國際領先。

                          090aba1d1e5105c0c5e0af60985e74f.png

                          目前,書生·多模態具備開放世界理解、跨模態生成、多模態交互三大核心能力。

                          7033c5437d550b30441570e0b689417.png

                          在多項多模態和視覺任務上達到世界頂尖水平


                          【核心能力一:開放世界理解】

                          在人工智能的研究中,“開放世界”指非預設、非學術集或封閉集定義的真實世界。傳統研究中,人工智能僅能完成預定義任務,即學術集或封閉集定義的任務, 然而這種任務范圍與真實的開放世界存在很大差距。例如,ImageNet-1K學術集包含1000種物體,其中約有2種花、48種鳥和21種魚;而在真實世界中,花鳥魚的種類數量分別約為45萬、1萬和2萬。在開放世界中,書生·多模態正通過不斷學習,獲得更接近人類的感知和認知能力。在語義開放方面,書生·多模態可以識別和理解開放世界中超過350萬種語義,覆蓋日常生活中常見的物體類別、物體動作和光學字符等。書生·多模態完成了從解決預定義任務到執行開放任務的蛻變,為未來多模態AGI模型研究提供了有力的支持。在任務開放方面,書生·多模態可以將圖像視為一種新的語言,用戶可利用自然語言指令,靈活定義和管理任意視覺任務。該大模型同時擁有多種級別的自定義視覺感知、理解和邏輯推理能力,能力范圍覆蓋目標對象、輸出格式、任務內容等模塊。


                          【核心能力二:跨模態生成】

                          通過聯合學習,書生·多模態可實現模態間的相互轉換。研究人員嘗試讓書生·多模態根據張大千的《湖山清夏圖》創作七言絕句。驗證結果表明,經過聯合學習,書生·多模態已經具備了較好的由圖像到文本的跨模態生成能力,并且已經擁有了相當深厚的中國文化積累。生成文本的同時,書生·多模態還給出了創作思路:根據圖片確定描繪的是山水清幽的自然景色畫面;從畫面中尋找能夠表達出詩人思想情感的元素,如山峰高聳、云霧繚繞、松濤入畫;根據元素構思出詩句;最后根據詩句的韻律和格律進行完善。書生·多模態還特別描述了第四句的靈感:借鑒了唐代詩人韋莊的名句“春水碧于天,畫船聽雨眠”。 

                          6891c0ada4bbe6e97d2076752f4fc5c.png

                          書生·多模態根據張大千的《湖山清夏圖》創作的七言絕句

                          【核心能力三:多模態交互】

                          書生·多模態繼承在上一代書生在常規預定義視覺任務上性能的同時,還創新了人機交互的方式,用戶通過光標點擊、聊天等方式,即可精準傳達指令。書生·多模態降低了AI任務的門檻,使AI成為萬千大眾都能使用的生產工具。多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向。面向未來,書生·多模態將持續通過原始創新提升模型能力,通過開源開放賦能創新生態,讓大模型更好服務于人。


                          comm@pjlab.org.cn

                          上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                          滬ICP備2021009351號-1

                          <pre id="j9nnl"></pre>
                                <ruby id="j9nnl"></ruby>
                                  <pre id="j9nnl"></pre><ruby id="j9nnl"><mark id="j9nnl"></mark></ruby>
                                  <p id="j9nnl"><mark id="j9nnl"><progress id="j9nnl"></progress></mark></p>

                                      <p id="j9nnl"><cite id="j9nnl"></cite></p>

                                          <ruby id="j9nnl"></ruby>

                                          <del id="j9nnl"><dfn id="j9nnl"><th id="j9nnl"></th></dfn></del>

                                                <ruby id="j9nnl"><mark id="j9nnl"><thead id="j9nnl"></thead></mark></ruby>
                                                <p id="j9nnl"></p>

                                                <p id="j9nnl"><mark id="j9nnl"></mark></p>
                                                  <p id="j9nnl"><del id="j9nnl"><thead id="j9nnl"></thead></del></p>
                                                  韩国伦理电影