HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  痛苦的數位保存
  那福忠 July 10, 2005
  請把你的想法寫信給我: [email protected]
   

    數位資料的保存,越來越困難,倒不是防盜版、怕抄襲,而是技術發展得太快。技術發展太快,相對的報廢也太快,舊的數位資料因為取讀軟硬體的報廢而喪失,美國太空總署不少的飛行任務資料,隨著技術的報廢而損失,OAIS (Open Archival Information Reference Model) 就是 NASA 的太空資料組所發展出來的資料保存規範。

   數位資料的保存,要靠許多稱為 Metadata 的解譯資料、或元數據,來從旁協助註解,註解的越多、越詳細,受技術報廢影響就越少。 OAIS 在 2002 年成為 ISO 標準,奠定了數位資料加註 Metadata 的理論基礎,但缺欠轉換成實用系統的策略。位於 Ohio 州 Dublin 的 OCLC(Online Computer Library Center、同時也是 Dublin Core 的總部),與位於加州 Mountain View 的 Research Library Group,聯合研究 Metadata 的實用製作,稱為 PREMIS (Preservation Metadata Implementation Strategies),日前公布了一份可用在保存資料的 Metadata 清單,讓大家試用加註於各類數位資料,省得自己設計註記語言。這份 237 頁的資料,是這兩家機構結合圖書館界與資料典藏界的專家,花兩年的研究成果,頗富參考價值,讀者可下載閱讀

   PREMIS 的設計考慮到資料領域的不同,圖書館、博物館、報紙、雜誌,所保存的方式與需求未必完全相同,所以需要深一層的考量,數位資料當時的技術環境,以及與別的數位資料的關連,就成了考量重點。PREMIS 系統化的檢視製造數位資料的軟體、硬體、與智慧環境,以及與數位資料各種依賴性的關連,例如一份 XML 資料,如果沒有附帶的 DTD 或 Schema,基本上毫無價值。PREMIS 進一步察看資料的生命週期紀錄,什麼時候從活用移到典藏,用人做的或是機器自動做的,由誰授權做的。PREMIS 最後列入了權限管理。至於每一領域的獨特需求,PREMIS 則預留空間讓使用的人加添,唯基本上仍希望與其餘系統順暢交換,作為長遠 DAM 的標準。

   PREMIS 的核心共分四大部分,原則上可通用於不同領域,這四大部分是:數位資料的本身、數位資料生命週期內發生的事件 (Event)、事件的仲介者 (Agent)、以及這份數位資料的使用權限。每一部份以一組 Metadata 描述,稱為語意單位 (Semantic Units),以直覺的詞彙來註記。例如電腦環境的描述,則用 Software、Hardware、swName、hwName、swVersion、hwType、swDependency 等淺顯易懂的詞彙,減輕使用人的負擔。

   描述數位資料本身,意在讓後人能開啟、使用這份資料,那時的情況極可能是原製作的軟體或硬體已經報廢。即使如此,也希望藉 Metadata 的描述,找出方法來閱讀,例如把數位資料藉特定的路徑輾轉覓尋,或撰寫程式模擬當時的計算環境,或是能從倉庫裡找到儲存良好當時用的軟硬體、重新開動。這些資訊,不僅僅是匹配當時的軟體與硬體,其餘像資料加密,與別的資料關連,也都要一一考慮。例如一張 Photoshop JPEG 照片貼到 Word 文件上,再轉成 PDF 儲存,PREMIS 有方法描述。

   數位資料都有生命週期,無論時間長短,其間變化產生的動作,稱之為「事件」。數位資料一生的事件有:從常用的儲存區轉移到典藏區,以及所引發的格式轉變;資料版本的變更與升級;資料格式的移轉,例如從 Word 移轉成 PDF。事件的發生,導致資料產生新的關連、同時改變原有的關連,像是採用新檔案、刪除舊檔案、更動分送資料的名單等等,都是重要的動作,務需記錄,才有希望多年以後把資料還原。

   促使事件發生的人、機構、軟體,總稱為仲介者。仲介者與資料本身不發生關係,僅與事件發生關係,而事件才與資料本身發生關係,換言之,仲介者驅動事件的發生,事件發生之後,就會影響資料本身。到底有哪些人、機構、軟體才是仲介者、才需要記錄,則依各應用領域的需要,可自行訂定,PREMIS 僅用一個 agentType 來表示其類別。仲介者與事件聯合使用,在資料格式平台變換時記錄由什麼人、做什麼樣的變更,對以後需要資料恢復原樣,就格外有用。

   權限的紀錄,也同樣是為了以後使用的便利,可以立即知道使用這一數位資料的權限範圍,包括版權合約、對哪些人的特別許可等等。含混不清的權限,或根本缺欠權限的紀錄,是使得數位資料變成報廢技術的一大原因。

   PREMIS 僅有 130 個語意單位,與所描述領域的範圍相比,非常的精簡,而且用詞明確易懂。雖然如此,要了解其背後的價值精義,最好是試著把一份數位資料加註 PREMIS 的 Metadata,從實作體驗出保存數位資料,即使有良好的工具,仍是痛苦的經驗。

   洛杉磯時報編輯、也是 PREMIS 委員的 Victoria McCargar 就悟出一銘言:No Pain, No Metadata。

上一篇   下一篇 索 引