2021 03 14 通用人工智慧會出現嗎？

那福忠，網路作者。

	*西海岸數位隨筆* 美國西海岸吸取太平洋與陽光精華隨時有精彩故事發生
	March 14, 2021 通用人工智慧會出現嗎？
	請把你的想法寫信給我： [email protected]

用電腦辨認物件與影像，能像我們人一樣精準嗎？
photo by Pixabay

我們用電腦搜尋已經成為生活的一部份，輸入幾個字就能出現很多圖畫讓我們瀏覽選擇，輸入「騎馬」，就會出現各種姿勢騎馬的圖片，輸入「騎驢看唱本」，則會出現各樣古裝繪畫，有的還會把歇後語「走著瞧」寫出來。如果反過來，把一張騎馬的照片掃描給電腦，電腦也許會用文字回答是「騎馬」，假設電腦有識別照片物件的能力。但假如把一幅沒有文字說明的「騎驢看唱本」繪畫輸入電腦，不妨想想看，電腦會怎麼回答？

這就進入了 AGI (Artificial General Intellience) 通用人工智慧的領域，也就是普通人的言行舉止，既不是圍棋高手，也不是頂尖科學家。對人類來說，這也許僅算常識，但對電腦正好相反，下棋、自動開車反較容易，人類的常識才是高難度的智慧。研發 AGI 的 OpenAI，近年發表的 GTP-3 最引人注目，出一個題目，給一點提示，就會自動寫出一篇文章。OpenAI 日前又推出「對比式語言影像訓練」 (Contrastive Language–Image Pre-training, CLIP) 的軟體，可以閱讀文字並將影像歸類。

CLIP 的研發人員在自行測試的時候，發現閱讀文字與解譯影像的能力既是強項也是弱點，把一個蘋果給 CLIP 看，答案是蘋果，在蘋果上貼一張紙條寫著 iPod，答案卻是 iPod，不是蘋果。給 CLIP 看一隻貴賓狗的照片，答案是貴賓狗，把照片上畫幾個簡單的小 $$$，答案卻成了是儲蓄銅板的小豬豬 (Piggy Bank)。研發人員說這像是駭客的「文字攻擊」，把結構複雜的 AI 神經網路，僅用紙跟筆就攻破了，讓 CLIP 看不見字條後面的蘋果，僅看見照片上細小的＄卻看不見照片裡一隻大狗。

研發人員自然不能一笑置之，除了認為對文字解讀能力過強，還認為對影像的抽象描述，過於含蓄而複雜，而簡化到概括。如同許多深層網路，模型的最高層受制於高層的抽象描述，CLIP 的多重關連神經元 (Multimodal Neuron)，運作於文字與標示之間，有如劍的兩面刃。且不管這些 AI 的解釋，所得到的就是前面的結果，研發人員覺得可笑之餘，也發現了訓練資料產生的問題。

CLIP 的模型（Model、AI 用語、用資料訓練過的演算法），是經過大批影像與文字的關連資料訓練而成的，但關連的原始製作，難免有錯誤與偏差，有些關連可能對個人或族群有所貶抑性的傷害。像「中東」這個神經元（指電腦程式）與恐怖主義關連，「移民」與拉丁美洲關連，同時也發現一個神經元會同時觸動深色皮膚與大猩猩兩個程式。這些關連在 CLIP 都列為不能接受的偏差，在大型的影像應用系統，成為一大挑戰。

OpenAI 為此發表論文，告訴研發同儕潛在的問題，系統中的偏頗關連一時難以消除，顯性或隱性的效應會在運轉中呈現，但這些偏差很難預知，使得驗證與更正益加困難。CLIP 的發表供研究使用，也同時提供工具，希望幫助研發同儕預先找出這些關連，避免問題發生。OpenAI 承認自己也在瞭解 CLIP 的運作行為，現在僅在表皮還未深入，所以邀請同儕一起參加研究，來增進對 CLIP 及類似模型的瞭解。

AGI 所以有通用性，是因為沒有領域的限制，CLIP 辨識影像並歸類，並不指定影像的類別，可以是水果、動物、儲蓄，甚至新的影像概念。為了更接近通用性，研發人員從網路挑選 4 億筆「影像--文字」的關連組合，如前所述，訓練成 CLIP 模型。訓練之後，可以用自然語言來連接已知的影像，以及用來描述新的影像，這樣就能零次 (Zero-shot) 的將模型轉換成下游的工作，經 30 種電腦視覺資料集的驗證效果良好，這就是 CLIP 的精華所在。

AGI 是 AI 的理想境界，也就是電腦有了人類的智慧，有了自主的意識與繼續學習能力，AI 也就到達了頂點 (Singularity)，人類進入另一個進化時期。月前近千名專家預測 AGI 一定會來臨，因為人的智慧是固定的，只有藉助機器才能提升，而 AGI 需要的運算與記憶能量，都在繼續增加之中，AGI 需要的演算法，人類也不斷的優質提供，讓機器的運算與記憶能量充分發揮。專家預估 AGI 到達的時間，是 2060 年。

學者們反駁 AGI 的有三個主要理由。一、智慧是多面導向的，許多動物的智慧對人類也有益。二、光靠智慧不能解決所有問題，許多問題需要累積的實驗去解決。三、電腦不可能模擬真的人腦，所以 AGI 不可能成立。

且不論 AGI 能否來臨，我們真想看到一個影像識別的 AI，對「騎驢看唱本」這幅繪畫怎麼回應，當然最希望看到的回應是「走著瞧」三個字。

上一篇 │ 下一篇 │ 索引