用「隱藏的互聯網」作研究工作

Steve Outing 為 Poynter Institute for Media Studies 資深編輯，
同時為Editor & Publisher Interactive 等多種專業刊物撰寫專欄

	用「隱藏的互聯網」作研究工作 Using the "Invisible" Web In Research
	By Steve Outing November 20, 2001
	請把你的想法寫信給我： [email protected]

本專欄獲 Mr. Steve Outing Editor&Publisher Dot-Com 授權翻譯轉載
擁有版權每月刊出一次

除非你是做研究工作的，否則會認為搜尋引擎萬能，能替你找到網上任何東西，那你就大錯特錯了。如果你依賴 Google、Altavista、Hotbot、Lycos 等搜尋引擎，那僅能取得網上資料的一小部分。互聯網對新聞從業人員來說，是非常好的報導與研究的工具，但對一個沒受過訓練的人，有太多的事要學了。作家兼搜尋大師 Chris Sherman 與 Gary Price 估計，儲存在網上的免費資訊，約為主要搜尋引擎所能取得的兩倍到 50 倍，他們管這叫「隱藏的互聯網」，在他們出版的新書 The Invisible Web: Uncovering Information Sources Search Engines Can't See（CyberAge Books 發行、2001 年出版）中詳細解說。這是一本很重要的書，來幫助新聞從業人員了解如何從網上能獲取更多的資料。

這個隱藏的互聯網，到底有多大，很難估計，這兩位作家才用了 2 到 50 倍的安全估算（原估算為 300 倍）。但 Sherman 指出，目前「看得見」的互聯網約有 20 億到 40 億網頁，以最完整的搜尋引擎 Google 來說，也僅整理出 16 億網頁。所以，即使你僅在這看得見的網頁裡搜尋，也得動用好幾個搜尋引擎才行。（這是第一課：如果在一個搜尋引擎找不到，就用另一個，或者用 Metasearch 引擎如 Dogpile 或 MetaCrawler 作跨引擎搜尋。）

為什麼隱藏？

很明顯的問題，如果在網上出版的內容都是可以隨欲取得的，那搜尋引擎為什麼不納入其搜尋範圍？Sherman 指出，其實並不是「隱藏」，只是搜尋引擎被設定的不去看而已。許多被隱藏起來的內容，是呈各種不同的資料格式，網上機器人（進入各網站擷取資料的程式）並沒有被設定來檢驗這些資料格式。例如，語音與影視就沒被搜尋引擎列其索引，大多數搜尋引擎也不進入資料庫網站擷取資料，除了 Google 之外 PDF 格式資料也不被列入。用資料庫驅動的網站，網頁臨時動態建構，則常被搜尋引擎作忽略。搜尋引擎，在理論上能把網上的全部資料製作索引，Sherman 說，如果搜尋公司願意花錢，就能在一個月內，把大部分隱藏內容製成索引，哪些網上內容可被索引、供讀者搜尋，純粹是經濟因素。（值得一提的是，企業版的搜尋引擎，較免費供給大眾的版本有更多的資料格式，例如 Altavista 企業版就支援 225 種資料格式，免費的 Altavista.com 僅支援六種。）

Sherman 說，重點是任何能在網頁瀏覽器顯示的，都能納入搜尋引擎。

怎麼用這個隱藏互聯網？

用互聯網作工具的記者，要學著運用隱藏性的互聯網。Sherman 與 Price 都說，這比現在用引擎搜尋建好的網上資料，要花上更大的力氣，但所得到的結果，卻極為值得。最簡單的技術來開鑿隱藏的資料，就是在網站上搜尋，而不是靠搜尋引擎。有些網站的內容，可能用搜尋引擎所不支援的規格製作，所以沒有列入索引。這種情況之下，比如用 Google 去搜尋，就查不到。 WorldBank.com 就是一個好例子，這個網站供人免費查閱，大多數網頁也都是預製靜態的，也都會在主要的搜尋引擎出現。但一些很有價值的資料，是以資料庫查詢的方式儲存，對搜尋引擎就成了隱性的，所以要我們自己在網站搜尋，才能發掘。國會圖書館網站也是一樣，對搜尋引擎而言，有顯性資料，也有隱性資料。你不太會用 Google 來查詢國會圖書館的資料，所以搜尋的策略，應以少屬網站為主。例如用 Google 查到一家特定的公司，然後再就其公司的網站逐頁查詢。關鍵在許多資訊儲存在資料庫、免費供人查閱，但是隱性的，你得花時間鑽鑿。從搜尋引擎得來的結果，有時候也變成寶藏，值得進一步往下搜尋。以搜尋「種植花生」為例，可能找到種植花生的參考資料庫，但沒有列出資料庫的內容。Sherman 就建議一個小技巧，以「種植花生資料庫」來搜尋，這樣至少可以知道有這樣的資訊來源。網上有許多以資料庫為平台的網站，隱藏於搜尋引擎之後。Biography.com 就是一例，數以千計的傳記藏在資料庫，搜尋引擎都視而不見（或者更正確的說，是不讓它看見）。

美國疾病控制中心（CDC），就有很多關於碳疽熱（Anthrax）的資訊，但要在其網站內搜尋才查得到。

語音與影視的搜尋

寬頻網路繼續普及，有更多的內容以語音與影視方式儲存，而搜尋引擎卻不能處理。Price 說有個重要的趨勢，就是會有人將語音轉成文字，然後根據文字內容來搜尋。

例如，Newshour with Jim Lehrer 新聞網站，就有搜尋的功能，來查詢公共電視（PBS）的節目；Bloomberg 財經新聞網，提供 Video Player 功能，能用關鍵詞搜尋廣播節目的內容。最好的是 Compaq 的實驗網站 SpeechBot，本身就是一個搜尋網站，能搜尋其餘網站所播放的語音與影視節目內容。

專業記者的工具

Sherman 說，隱藏的互聯網，對專業記者比對一般記者更是好的工具，因為一般記者含蓋面較廣，如果你有專業知識，在隱性網路裡搜尋意義更大，但這也要花時間。 Price 把從隱藏網上學習，比作一個記者學習新的專業，有如耕耘、學習在哪裡能找到資源，以備一旦需要即可直接取得。更重要的是，隱藏互聯網是一個快速變化的動態環境，連維繫都是長期的挑戰。在隱藏互聯網裡查詢，是一件艱苦的工作，但新聞從業人員花力氣去學著運用，所獲得的報償是無價的。

蹊蹺...

聽起來都不錯？對新聞從業人員而言，現在的顯性互聯網已經成為節省時間的研究工具，有成噸的資訊等著去取用，隱性互聯網的出現，會使資訊過剩的情況轉好、還是更壞？我們已經在網頁與資料庫的大海裡漂浮，難道需要更多的資料使情況惡化麼？我還是秉持新聞的理論，吸取資訊永嫌不足。在這個新的隱藏網路裡，新聞從業人員處於非常好的位置來擷取財富，而一般大眾則不能。當網上資訊數量增加的時候，新聞從業人員就有工具來釐清。

隱藏互聯網僅是記者的另一工具，學著用它。

│

索引