2016 04 11 唬弄電腦

那福忠，知名電子出版專家、網路作家。

	唬弄電腦
	那福忠 April 11, 2016
	請把你的想法寫信給我： [email protected]

電腦是人做的，軟體是人寫的，人當然可以有辦法開個玩笑，騙它一騙。不久以前看到了一篇 DIY，一個人從市面上買了幾樣簡單的電子零件，東連西連，一按鈕就把一輛汽車打著了火，而且沒有碰觸汽車任何地方。電腦軟體更不用說了，惡意的病毒、釣魚、駭客，防不勝防。唬弄電腦，有點像覺得電腦好欺負，跟它鬧著玩。先看看下面三幅圖片，左圖是一輛巴士，右圖也是一輛巴士，中間的圖一片模糊，看不出是什麼東西。

(圖片取自 popsci.com)

對電腦來說，中間的圖不但是「東西」，而且扮演了關鍵角色。人工智慧可以辨識物件，無論是實物或是照片，多可以辨認出來，左圖是大巴士，電腦也認出來是巴士，但加上中圖的「材料」之後的右圖，對人來說怎麼看還是大巴士，中間的材料對我們視覺沒有什麼影響，但電腦的辨認邏輯，卻以高百分比的辨認率，認做右圖是一隻「鴕鳥」。

這是怎麼回事？原來是人工智慧的科家的研究實驗，這個實驗證明了人工智慧一旦遭受攻擊可能產生的結果，在原圖上的「加料」稱為「對抗樣本」 (Adversarial Examples)，可以把原圖上的物件，認做是毫不相干的另一種物件。這個實驗的成功，就可以研究防範的方法，現在的日常生活很多事要依靠人工智慧，試想無人駕駛汽車認錯道路標誌，會有什麼後果。

我們看見一輛巴士、或是一隻鴕鳥，就立刻辨認出是巴士與鴕鳥，是因為腦子裡已經有了記憶，眼睛的視覺資訊傳到腦子特定部位辨認。人工智慧要辨認一個特定物件，也要先有記憶，也就是先有巴士與陀鳥的類別，才能與以後的圖片比對辨識。

人工智慧產生記憶，不像人類這麼容易，是要經過機器學習的過程，把成千上萬不同式樣、不同顏色、不同角度的巴士圖片輸入系統，運算出一個結果數據，我們就命名這個數據為「巴士」，以後遇到高度近似的數據，人工智慧就認定是巴士。

機器學習用的是目前最流行的神經網路，也就模仿人腦的軟體結構，把資訊分散給千百個不同程式（如同腦細胞）同時處理，然後再進入下一層次的千百個程式同時處理，正如人腦的資訊處理方式。機器學習的過程如此，以後物件辨識的過程也是如此，所不同的是學習要閱讀上萬張圖片，才能定義物件的類別，而物件辨識只需經過一次。

辨識物件也就是辨識物件的數位圖片，對電腦來圖片說僅是像素 (Pixel) 的組合，在神經網路把像素分開處理的時候，正好給對抗樣本可乘之機，攻擊者在處理過程之中加入簡單的像素，就足以改變最後運算的結果，而改變了辨認的類別。

科學家研究的結果，如果知道辨識的內容專門製作的對抗樣本，改變後的辨認率高達 99%，如果不知道內容而用一般的對抗像素，改變的辨認率也高達 80%，這類對抗稱為黑箱樣本，而現實環境也是可最可能發生的。

除了圖像，語音也可以同樣對抗，現在語音控制電腦日漸普及，像大家熟悉的 Siri 與 Google Now，在對話之中插入對抗音波指令，讓原來的語音指令失效。對抗音波，人聽起來好像低強度的背景雜訊，有如白噪音，無法辨別有任何意義，但卻讓電腦的語音辨識功能加料。據科學家的實驗，對抗語音的「準確度」可高達 90%。

科學家自己尋找漏洞，以子之矛攻子之盾，經過修正補強，減少以後駭客攻擊的機會，尤其對日常生活越用越多的人工智慧，重要性自不待言。多年來的電腦化與自動化，都是由人撰寫的電腦程式依序進行，我們都能掌握運作的情況，但機器學習，特別是深度機器學習 (Deep Machine Learning)，模仿人腦的複雜反覆運算，已經不容易掌控發生的狀況，所以有人以脫韁之馬形容，科學家現在要做的，恐怕是怎麼樣把馬韁拉緊一點。

對抗樣本的研究也有十年，直到近年神經網路用在人工智慧上，研究更為深入，Google 最近的一篇論文「解釋與牽制對抗樣本」，例舉一隻 57% 辨認率的熊貓（左），加上僅有 8% 辨認率的條蟲（中），電腦軟體結果辨認出是一隻長臂猿（右），辨認率竟然高達99%。這篇論文沒有過深的理論，有興趣的讀者或可瀏覽。

(左圖：57%熊貓中圖：8%條蟲右圖：電腦辨認99%長臂猿）
(取自 kdnuggets.com)

另一個例子，下圖是交通號誌路牌，上面一行是原來的路牌，下面一行是加過對抗樣本產生的路牌，如果無人駕駛汽車「看到」這樣的路牌，不知有什麼反應動作。

(圖片取自 popsci.com)

│

索引