2020 11 15 AI的成果發表與學術論文

那福忠，網路作者。

	*西海岸數位隨筆* 美國西海岸吸取太平洋與陽光精華隨時有精彩故事發生
	November 15, 2020 AI的成果發表與學術論文
	請把你的想法寫信給我： [email protected]

AI 的論文發表無數，有科學價值或僅是技術成果的展示？
Photo by Karolina Grabowska from Pexels

今年一月「自然」(Nature)期刊登載了一篇 Google Health 的文章，說他們研究的 AI 可以從女性乳腺的掃描影像，找出乳癌的徵兆，比放射學家判斷的更精確更快速，有擴大發展的潛力。不料這篇文章立即引起學者的質疑，說這個結果在方法上說的不夠詳細，也沒有提供演算法與程式碼，在別的研究人員無法複製重現之下，這一項研究失去科學價值，不過是技術的發表。隔月由 31 位學者聯名投書自然期刊，十月刊登出來。

包括美國、加拿大、歐洲的 31 位學者，投書的標題是AI的透明度與重現性(Transparency and Reproducibility)，這確實觸及到AI的根本。科學的發展在透明，研究成果可以分享同儕，讓大家引用、評估、或作為進一步發展的根基，大家互踩肩膀的進展。AI 的研究或有其特殊性，也有人說AI還在實驗階段，所以相對封閉。根據「2020 AI勢態報告」，僅有15%的研究項目供人分享程式碼，而業界較學界更為謹慎，尤其像 OpenAI 與 DeepMind 更把編碼包得緊緊的。

說起來AI從實驗室走進我們的生活，在應用上出現了不少偏差，現在慢慢走進醫療的領域，如果不加透明度與重現性的查證，就立即應用，在安全上不無顧慮，Google 的乳癌 AI 經學者指出之後，大概就不會臨床應用了。實驗室的成功，在現實環境可能失敗，讓不同的研究人員在不同的環境複製，可以快速的讓問題出現，AI 也會因此更為成熟。

話雖如此，有人擔憂 AI 已經有「黑盒子」的現象了，我們雖然設計了機器學習模型，但經過重複的運轉，幾乎很難知道如何產生所得到的結果，有誰知道圍棋高手 AlphaGo 是怎麼算出來下一步棋的？2020 的報告說，AI 重現的條件有三：程式、資料、硬體，但要滿足這個三條件到一定的程度，能讓 AI在另一環境重複出現，困難重重，有的甚至不可能。

拿到了程式碼，就可以在電腦上還原 AI 的功能？專家說沒那麼容易，因為 AI 模型涉及許多細節，像是增加參數、調整數值，任何的改變都會影響結果，所以除了程式碼，還需要元數據 (Metadata)，來描述模型的調整與訓練，否則單有程式碼並無用處。另外有的實驗室，用特別的軟體運轉他們的模型，這些軟體又可能有所有權，是否願意與人分享無從得知。

資料分享也是同樣情形，多是專屬不願分享他人，尤其像敏感如醫療個資更不能分享。AI 需要大量資料來訓練模型，只有像臉書等大型數位機構才能從用戶取得大量資料，一般試驗室或學校都要花很大精力取得。在不願意分享之下，專家建議可以指引方向，告訴別人有哪些地方或有類似的資料。

AI需要龐大的電腦能量來訓練功能，功能越複雜需要的能量越大。例如訓練會寫文章的 GPT-3，一位投資人估算可能花了 OpenAI 一千萬美元，還不包括系統發展與雛形訓練的花費，全數恐要加兩三倍，這種預算非小型研究機構或學校所能負擔，一般的 AI 實驗室與學校只能用普通的硬體設備。

所以 AI 的重現確實困難，而論文的發表卻一年多於一年，學者們越感到認證的困難，於是有人從基層發動了。McGill 大學也是臉書的 AI 學者 Joelle Pineau，設計一套發表論文的清單，除了文章，還包括程式碼，以及詳細敘述實驗的過程，期望研究人員在大型會議上發表這結構的論文。另有學者讓學生把資料較齊全的 AI 論文，把AI功能還原重現，做為機器學習的課堂作業。又有學者設計網站，做為論文附帶程式碼的連結。

這些學者們的努力，希望 AI 走向更科學化的發展，並建議有份量的科學期刊，能把有科學價值的論文，與技術成果的發表，分開處理，以維護期刊的信譽。

上一篇 │ 下一篇 │ 索引