HOME

 

 

呂理哲,知名電子出版專家、網路作家。
   
  內容管理在新華社
  呂理哲 Sep 10, 2004
  請把你的想法寫信給我: [email protected]
   

參觀了新華社的內容資料庫之後,我們可以發現 XML 應用在多功能內容資料庫(Multi-purpose)在中文的新聞媒體領域中,其實已經有了相當的進展。

本文開始

新華社在北京的市中心,其南門面對宣武們西大街,117米高的大樓在市中心顯得特別突兀,聽說這一區不許有這麼高的大樓,在24層可以俯瞰天安門和中南海,北京市中心的景緻進入眼底。原來是萬里在代理總理期間,因應新華社特殊的通訊需要,特許的建築高度。

在這獨特的建築中,有三萬員工為這個與路透社和法新社齊名的通訊社工作,收集來自世界各地的新聞材料,同時也生產總發行量為1,800萬份的29種刊物,每天接收各式各樣的信息,處理不同的資料格式,包括文字、照片、圖形和音頻、視頻的資料,如果利用傳統的方式,就得有一個分稿單位,將分稿員自以為編輯需要的資料,分給不同刊物的編輯。編輯無法接觸到所有的信息,只能被動的從部份的資料中,作自己的刊物。


新華社在2003年宣佈了他們定義的「XinhuaML」,應該是取材自XML(eXtensible Markup Langauage)或是國際報業標準的NewsML,建立的一個管理自己多媒體內容資料庫的格式,當然是針對中文新聞的特性。沒有意外的,我們看到了一個以XML架構的多功能內容資料庫,從記者採訪的材料從世界各地傳入所謂的「數據庫」,在數據庫的文件在50秒鐘以內就可以經過自動的程序發佈在內部網站上,所有刊物的編輯和主管都能看到這一材料。

也就是說,所有的編輯不經過分稿的程序,就能自行到數據庫內,在所有來自世界各地的材料中尋找自己有用的資料,如果體育版的編輯選中了其中一篇材料,修改其中內容文字,也得幫忙定義數據庫必要的分類標示(Tag),存回數據庫後,所有的使用者都會發現這一篇文章,已經被一位編輯採用了。


如果影劇版的編輯也中意同一篇材料,也能作相同的事,數據庫的使用次數欄位就多了一個號碼,所以編輯必須儘早甚至隨時到數據庫尋找需要的材料,以免好的題材已經被許多人採用,你就編不出好的刊物,對編輯工作也有了無形的壓力。

這個數據庫已經放進了200億個漢字,20萬張的圖片(有Jpg的影像檔和cdr的圖形檔),還有500多小時的多媒體材料。許多舊有的材料經過掃描、OCR(光學文字辨識系統)加上大量的人力,才將數十年來累積的內容遺產放進數據庫。因為是XML標示語言的數據庫,如此龐大的倉庫,即使存放了幾十年的新舊資料,透過各種XML分類標示,不管是文字、圖片還是音視頻都能找到。這些資料經過編輯,可以在29種不同的刊物中出現,不只是平面媒體而已,還有像網頁(HTML格式)、供給各地新聞媒體的新聞材料(有text和XML的格式),也有提供電信公司手機短訊的新聞,電視和廣播媒體也接收新華社的新聞。相同的材料在不同的媒體出現,都能使用同一套XinhuaML的內容數據庫,這正是IT產業和學界定義XML時想要達到的目標。

沒有想到在新華社中看到了這樣先進的內容資料庫,試問了一下,架構這套系統是採用哪一家IT公司的技術?
新華社通信技術局系統部副主任武國衛先生說﹕「新華社技術局有400多名工程師呢﹗」

看看台灣各大媒體的資料庫,都還是以出版刊物的生產流程為主,例如報社的編採資料庫主要是服務報紙的印刷生產為主,報紙印好了才考慮如何利用剛剛收集的材料,甚至報社的網站都得經過在另一次編輯的工作,大多還無法發揮多功能(multi-purpose)的目的。

如果新華社能公開他們定義的新聞數據庫的XinhuaML,台灣許多媒體倒可以省掉許多財力物力,就用這一套已經證明管用的XML,增減一些標示欄位就能來管理自己的內容資產。
如果你有政治妄想症,也可以自己投資幾十個工程師,花個幾年的時間,看看能不能定義一套自己的NewsML。


上一篇   下一篇 索 引