人類對世界的認知中,80%的信息來自視覺,人們希望人工智能未來也能像人一樣敏銳地觀測、認知和預(yù)測世界。在中國工程院院士潘云鶴看來,實現(xiàn)視覺知識表達、推理、學(xué)習(xí)和應(yīng)用的技術(shù)將是人工智能(AI)2.0取得突破的重要方向之一。
近日,潘云鶴首次系統(tǒng)地提出“視覺知識”概念,在接受《中國科學(xué)報》專訪時對其進行了具體闡述和解釋。
《中國科學(xué)報》:您提出視覺知識這一概念的背景是什么?
潘云鶴:
視覺處理技術(shù)對AI發(fā)展有重要影響。
首先,近年來,圖像識別水平的快速提升推動了AI熱潮的形成。圖像識別技術(shù)的突破不僅提高了計算機對人臉、文字、指紋及生物特征、醫(yī)學(xué)圖片等識別的準確率,而且進一步推動了智能制造等領(lǐng)域的發(fā)展。中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院按技術(shù)分類對2018年中美AI企業(yè)數(shù)量進行了統(tǒng)計,可以看出,提供和應(yīng)用圖像識別技術(shù)的企業(yè)占一半以上。
其次,傳統(tǒng)的知識表達方式有顯著缺陷。早期圖像識別和計算機視覺建立在圖像處理技術(shù)之上;深度神經(jīng)網(wǎng)絡(luò)的使用以數(shù)據(jù)驅(qū)動的方法來學(xué)習(xí)特征表達,有效提高了圖像分類和識別的準確率。
不過,作為AI知識表達的一種方式,深度神經(jīng)網(wǎng)絡(luò)難以解釋、不可推理,以及因需大量標識的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)參數(shù)而難以避免地會引入數(shù)據(jù)偏見等不足。因此,我們需要研究一種全新的知識表達——視覺知識。
這啟示我們,數(shù)字視覺領(lǐng)域是推動AI發(fā)展的重要領(lǐng)域;更好的知識表達是推動數(shù)字視覺發(fā)展的關(guān)鍵技術(shù);克服深度神經(jīng)網(wǎng)絡(luò)缺陷是“視覺知識”研究的關(guān)鍵方向。
《中國科學(xué)報》:什么是視覺知識?它有哪些特征?
潘云鶴:
視覺知識是知識表達的一種新形式,它能表達世界的時空結(jié)構(gòu)與變化特征。計算機圖形學(xué)經(jīng)過長期發(fā)展,提供了視覺知識表達與操作的技術(shù)基礎(chǔ)。但是,對視覺知識進行表達及其推理等操作,還需在此基礎(chǔ)上加以改造與重構(gòu)。
視覺知識與迄今為止人工智能所用知識表達方法不同。視覺概念具有典型與范疇結(jié)構(gòu)、層次結(jié)構(gòu)與動作結(jié)構(gòu)等要素。視覺概念能構(gòu)成視覺命題,包括場景結(jié)構(gòu)與動態(tài)結(jié)構(gòu)。視覺命題能構(gòu)成視覺敘事。重構(gòu)計算機圖形學(xué)成果可實現(xiàn)視覺知識表達及其推理與操作,重構(gòu)計算機視覺成果可實現(xiàn)視覺知識學(xué)習(xí)。
實現(xiàn)視覺知識表達、推理、學(xué)習(xí)、使用的理論和技術(shù)將是AI 2.0取得突破的重要方向之一。
視覺知識因為難以用語言符號表達,曾被統(tǒng)歸為常識,而以往AI研究的一大弱點便是視覺知識研究不足。因此,視覺知識的研究與運用將會是AI 2.0的一個重要發(fā)展方向。
《中國科學(xué)報》:如何構(gòu)建視覺知識體系?
潘云鶴:
視覺知識體系構(gòu)建與利用需要解決的首要問題是視覺知識學(xué)習(xí),這也是一個知識學(xué)習(xí)的無人區(qū)。建立一個系統(tǒng)的知識體系,往往更需要自頂向下的設(shè)計,在這個過程中,諸如3D形狀重建等計算機視覺研究成果為系統(tǒng)的視覺知識學(xué)習(xí)提供了發(fā)展土壤。
不過,視覺知識學(xué)習(xí)要將目標從視覺形狀重建進一步深入到視覺知識重建,還需要對現(xiàn)有計算機視覺技術(shù)作進一步研究,比如,重建3D形狀的層次結(jié)構(gòu),定位其在概念范疇中的位置等。
除了視覺概念,還要研究視覺命題與視覺敘事的表達和學(xué)習(xí)。
《中國科學(xué)報》:視覺知識有哪些應(yīng)用?
潘云鶴:
從當前AI熱潮中視覺識別技術(shù)的廣泛滲透,可推知視覺知識的應(yīng)用極廣。這里我舉例說明視覺知識的各種應(yīng)用。
基于知識的識別方法,如用于圖像識別。例如“貓”,根據(jù)“貓”的視覺概念的典型與范疇等,使用綜合推理方法自動生成貓的范疇內(nèi)外各種圖像大數(shù)據(jù),并根據(jù)范疇內(nèi)外自動標識為正、負范例。然后,用上述范例大數(shù)據(jù)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò),最后,用訓(xùn)練過的多層神經(jīng)網(wǎng)絡(luò)識別圖像。
事實上,視覺知識有著獨特的優(yōu)點,能夠提供綜合生成能力、時空比較能力和形象顯示能力,而這些正是字符知識所缺乏的重要能力。它們能在創(chuàng)造、預(yù)測和人機融合等方面為AI新發(fā)展提供基礎(chǔ)動力。
《中國科學(xué)報》:關(guān)于視覺知識,未來,我們需要關(guān)注的重點還有哪些?
潘云鶴:
建設(shè)視覺知識詞典將是十分重要的,這是一個巨大而實用的知識平臺和數(shù)據(jù)平臺,應(yīng)當聯(lián)合全球人工智能、計算機圖形學(xué)和計算機視覺科技工作者共同建設(shè)。為了順利而高效地完成視覺知識詞典的建設(shè),群智組織模式不可或缺。