HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  電腦學著自動搜尋圖像
  那福忠 May 30, 2008
  請把你的想法寫信給我: [email protected]
   

    資料搜尋的技術,現在雖然先進,唯僅限於文字,圖像的搜尋,只有碰運氣。因為圖像的搜尋,基本上還是文字的搜尋,也就是用輸入的關鍵詞、去比對圖像裡的文字註解,圖像沒有註解、或註解文字裡沒有輸入的關鍵詞,這張圖像就被排除在外。圖像的註解沒有標準,不同的應用領域,用不同的註解方式,日期、檔名、人名、地名、事件敘述,都能用作註解,註解過於簡單,就不能忠實反應圖像內容。一張狗在公園裡的照片,如果僅用「我家的小黃」來註解,那「狗」與「公園」的圖像就技術的消失了。

   十多年來,電腦科學家一直在這個題目上花費心思,搜尋不是問題,註解才是問題,一張圖像如果在儲存之前,能有軟體自動把圖像裡的景物找出來註解,再儲存到圖像庫,以後搜尋就準確得多了。要軟體辨識圖像裡的物件,不是一件容易的事,最好的方法是讓軟體可以學習,美國加州大學聖地牙哥分校,正發展這樣的軟體邏輯。像這張草叢中的老虎照片(如圖、點選放大),人工的註解為「貓、虎、森林、草」,軟體自動註解則為「貓、虎、植物、葉子、草」,可見這個軟體已經有相當的基本功力。

   軟體辨識圖像裡的景物,是一種機器學習 (Machine Learning) 的程序,軟體程式設計之後,要經過訓練學習,功能才逐步加強。當然首先要設計分析圖像的邏輯,依圖像物件的輪廓、色彩、線條結構,找出特徵,然後要開始訓練軟體,大量輸入圖像,強化尋找出的特徵,使更具代表性,最後一步是驗證軟體的可靠程度,同樣圖像用人工註解與軟體註解比較。

   圖像經過軟體掃瞄,先分成許許多多 8 x 8 畫素的小方塊,從中擷取重要資訊,然後匯集全圖的重要資訊,經過運算得到的結果,便是這張圖像的特徵。一張圖像沒有代表性,所以再輸入同類別的圖像,比如說是「山」,用同樣運算取得第二張「山」的特徵。這樣週而復始,連續輸入幾百張不同的「山」之後,把每一張「山」的特徵匯集,就演變成「山」類別的特徵,以後圖像裡一旦發現有高或然率(如60%)的山類特徵,就把這張圖像歸類、註解為「山」。

   這一軟體經人控制,學習辨識任何的具體景物,稱為 Supervised Multiclass Labeling (SML),山、水、花、貓、老虎、樹、草、魚、建築物,每一類別的圖像大量輸入,找出這一類別的特徵,輸入同類的圖像越多,特徵也就越準確。加大聖地牙哥分校的研究員,用六百類別、六萬張照片,每類別一百張,作為訓練軟體的基礎,已經歸納出四百多類物件的特徵,一張圖像裡的物件只要在這四百種類別之內,都能一一識別、自動註解。

   根據研究人員的驗證,這個軟體所產生的註解,與人工加註不相上下,有時候還勝過人工,像上述的老虎照片,軟體就比人工多了「葉子、植物」兩個註解。例如驗證測試裡的北極熊(如圖、點選放大),人工註解為「北極、熊、雪、凍原」,軟體的自動註解為「北極、凍原、熊、雪、冰」。珊瑚礁的照片,人工註解為「珊瑚、魚、海洋、礁」,軟體的自動註解為「礁、珊瑚、海洋、遊戲、魚」。把這一軟體與其餘的圖片辨識系統比較,研究人員說優於40%,也就是產生無意義的註解比別的系統減少了四成。

   初步成功,當然距理想甚遠,幾百種類別的辨識,僅能用在簡單、物件明顯的特定圖像,至於是否能用於龐大網路,許多人就質疑其實際功效。目前的軟體邏輯,也僅是用於具體有形的物件上,概念性、感性的辨識,像是照片裡是否有歡樂氣氛,就超出目前辨識的技術能力。研究人員說,這一軟體雖不完美,但可左為輔助,提升搜尋的機率,要進一步辨識圖像的情緒,至少要再等午年。

   數位照相機讓大家隨手拍照,圖像的數量越來越多,終有超過文字的一天,果能自動辨識內容,甚至把辨識邏輯放到照相機裡,隨照隨自動註解,即使對個人圖像的儲存與查找,也不無小補,更不用說各個應用領域的圖像庫了。看樣子,圖像片辨識與搜尋,仍是資訊科技今後幾年的一大挑戰。

上一篇   下一篇 索 引