HOME

 

 

Steve Outing 為 Poynter Institute for Media Studies 資深編輯,
同時為Editor & Publisher Interactive 等多種專業刊物撰寫專欄
   
steve outing pic
  用「隱藏的互聯網」作研究工作
Using the "Invisible" Web In Research
  By Steve Outing November 20, 2001
  請把你的想法寫信給我: [email protected]
eandpletter 本專欄獲 Mr. Steve Outing Editor&Publisher Dot-Com 授權翻譯轉載
擁有版權 每月刊出一次

  除非你是做研究工作的,否則會認為搜尋引擎萬能,能替你找到網上任何東西,那你就大錯特錯了。  如果你依賴 GoogleAltavistaHotbotLycos 等搜尋引擎,那僅能取得網上資料的一小部分。互聯網對新聞從業人員來說,是非常好的報導與研究的工具,但對一個沒受過訓練的人,有太多的事要學了。  作家兼搜尋大師 Chris Sherman Gary Price 估計,儲存在網上的免費資訊,約為主要搜尋引擎所能取得的兩倍到 50 倍,他們管這叫「隱藏的互聯網」,在他們出版的新書 The Invisible Web: Uncovering Information Sources Search Engines Can't SeeCyberAge Books 發行、2001 年出版)中詳細解說。這是一本很重要的書,來幫助新聞從業人員了解如何從網上能獲取更多的資料。

  這個隱藏的互聯網,到底有多大,很難估計,這兩位作家才用了 2 50 倍的安全估算(原估算為 300 倍)。但 Sherman 指出,目前「看得見」的互聯網約有 20 億到 40 億網頁,以最完整的搜尋引擎 Google 來說,也僅整理出 16 億網頁。所以,即使你僅在這看得見的網頁裡搜尋,也得動用好幾個搜尋引擎才行。(這是第一課:如果在一個搜尋引擎找不到,就用另一個,或者用 Metasearch 引擎如 Dogpile MetaCrawler 作跨引擎搜尋。)

為什麼隱藏?

  很明顯的問題,如果在網上出版的內容都是可以隨欲取得的,那搜尋引擎為什麼不納入其搜尋範圍?Sherman 指出,其實並不是「隱藏」,只是搜尋引擎被設定的不去看而已。  許多被隱藏起來的內容,是呈各種不同的資料格式,網上機器人(進入各網站擷取資料的程式)並沒有被設定來檢驗這些資料格式。例如,語音與影視就沒被搜尋引擎列其索引,大多數搜尋引擎也不進入資料庫網站擷取資料,除了 Google 之外 PDF 格式資料也不被列入。用資料庫驅動的網站,網頁臨時動態建構,則常被搜尋引擎作忽略。  搜尋引擎,在理論上能把網上的全部資料製作索引,Sherman 說,如果搜尋公司願意花錢,就能在一個月內,把大部分隱藏內容製成索引,哪些網上內容可被索引、供讀者搜尋,純粹是經濟因素。(值得一提的是,企業版的搜尋引擎,較免費供給大眾的版本有更多的資料格式,例如 Altavista 企業版就支援 225 種資料格式,免費的 Altavista.com 僅支援六種。)

  Sherman 說,重點是任何能在網頁瀏覽器顯示的,都能納入搜尋引擎。

怎麼用這個隱藏互聯網?

  用互聯網作工具的記者,要學著運用隱藏性的互聯網。Sherman Price 都說,這比現在用引擎搜尋建好的網上資料,要花上更大的力氣,但所得到的結果,卻極為值得。  最簡單的技術來開鑿隱藏的資料,就是在網站上搜尋,而不是靠搜尋引擎。有些網站的內容,可能用搜尋引擎所不支援的規格製作,所以沒有列入索引。這種情況之下,比如用 Google 去搜尋,就查不到。  WorldBank.com 就是一個好例子,這個網站供人免費查閱,大多數網頁也都是預製靜態的,也都會在主要的搜尋引擎出現。但一些很有價值的資料,是以資料庫查詢的方式儲存,對搜尋引擎就成了隱性的,所以要我們自己在網站搜尋,才能發掘。國會圖書館網站也是一樣,對搜尋引擎而言,有顯性資料,也有隱性資料。  你不太會用 Google 來查詢國會圖書館的資料,所以搜尋的策略,應以少屬網站為主。例如用 Google 查到一家特定的公司,然後再就其公司的網站逐頁查詢。關鍵在許多資訊儲存在資料庫、免費供人查閱,但是隱性的,你得花時間鑽鑿。  從搜尋引擎得來的結果,有時候也變成寶藏,值得進一步往下搜尋。以搜尋「種植花生」為例,可能找到種植花生的參考資料庫,但沒有列出資料庫的內容。Sherman 就建議一個小技巧,以「種植花生資料庫」來搜尋,這樣至少可以知道有這樣的資訊來源。  網上有許多以資料庫為平台的網站,隱藏於搜尋引擎之後。Biography.com 就是一例,數以千計的傳記藏在資料庫,搜尋引擎都視而不見(或者更正確的說,是不讓它看見)。

  美國疾病控制中心(CDC),就有很多關於碳疽熱(Anthrax)的資訊,但要在其網站內搜尋才查得到。

語音與影視的搜尋

  寬頻網路繼續普及,有更多的內容以語音與影視方式儲存,而搜尋引擎卻不能處理。Price 說有個重要的趨勢,就是會有人將語音轉成文字,然後根據文字內容來搜尋。

  例如,Newshour with Jim Lehrer 新聞網站,就有搜尋的功能,來查詢公共電視(PBS)的節目;Bloomberg 財經新聞網,提供 Video Player 功能,能用關鍵詞搜尋廣播節目的內容。最好的是 Compaq 的實驗網站 SpeechBot,本身就是一個搜尋網站,能搜尋其餘網站所播放的語音與影視節目內容。

專業記者的工具

  Sherman 說,隱藏的互聯網,對專業記者比對一般記者更是好的工具,因為一般記者含蓋面較廣,如果你有專業知識,在隱性網路裡搜尋意義更大,但這也要花時間。  Price 把從隱藏網上學習,比作一個記者學習新的專業,有如耕耘、學習在哪裡能找到資源,以備一旦需要即可直接取得。更重要的是,隱藏互聯網是一個快速變化的動態環境,連維繫都是長期的挑戰。  在隱藏互聯網裡查詢,是一件艱苦的工作,但新聞從業人員花力氣去學著運用,所獲得的報償是無價的。

蹊蹺...

  聽起來都不錯?對新聞從業人員而言,現在的顯性互聯網已經成為節省時間的研究工具,有成噸的資訊等著去取用,隱性互聯網的出現,會使資訊過剩的情況轉好、還是更壞?我們已經在網頁與資料庫的大海裡漂浮,難道需要更多的資料使情況惡化麼?  我還是秉持新聞的理論,吸取資訊永嫌不足。在這個新的隱藏網路裡,新聞從業人員處於非常好的位置來擷取財富,而一般大眾則不能。當網上資訊數量增加的時候,新聞從業人員就有工具來釐清。

  隱藏互聯網僅是記者的另一工具,學著用它。

上一篇   下一篇 索 引