HOME

 

 

那福忠,網路作者。
   
  西海岸數位隨筆
美國西海岸 吸取太平洋與陽光精華 隨時有精彩故事發生
  October 07, 2018  數位資料的大倉儲--DNA
  請把你的想法寫信給我: [email protected]
   

DNA:未來的數位資料大倉儲。圖片:drivesaversdatarecovery.com

   有了電腦與網路,資料產生的數量就快速增加,一共有多少,沒有人精確計算過,只能估算一個大概。有人估算過 2016 年的資料量是 16.1 兆 GB (gigabytes, giga 是 10 億 ),到了 2025 年就會增加 10 倍。另一個估算是 5 年以前的資料量是 4.4 ZB (zettabytes, zetta 是 1 x 1021,也就是 10 的 21 次方)。

   Byte 是「位元」,一個位元代表一個數目字或一個英文字母,兩個位元代表一個中文字,如果把 4.4 ZB (4,400,000,000,000,000,000,000 bytes) 的空間填滿文字與數目字,那會是什麼概念,恐怕只有讓人更模糊。這只是五年以前的數量,到了 2025 年就增加到 160 ZB。

   這麼多資料從哪裡來的?當然每個人都有照片、影片、郵件、社群網路對話留言,這些資料經年累月越積越多,但專家說這不過是一盆水裡的一滴,而如洪水般的資料則來自科學研究,醫學實驗、深入細胞、天象觀測、探測宇宙,不斷的研究,資料就成等比級數增加。

   目前的資料儲存媒介,有磁帶、光碟、硬碟 (HD)、固態碟 (SSD),無論個人或是雲端伺服器,存取速度、容量、佔據空間,都是潛在問題,而且沒隔多久就可能要更新。這些都是物理性的儲存技術,既然不夠完善,是不是有物理以外的技術,有人就想到了生物性儲存,DNA 就是其一。

   DNA 是「脫氧核醣核酸」(Deoxyribo Nucleic Acid) 的縮寫,是細胞裡的大分子,由兩條螺旋「鹼基對」(Base Pair) 組成。鹼基,可以說是生物最基本的元素,共有簡稱 A、T、G、C 四種,如下圖所示,由黃綠紅橘四小色條代表。鹼基對,是兩條螺旋鹼基在相對位置的匹配,如下圖所示 A 與 T 匹配,G 與 C 匹配,這在生物與遺傳上有特殊意義,例如俗稱的「基因」,就是 DNA 的一段。


DNA 結構示意簡圖。圖片:U.S. National Library of Medicine

   DNA 如何能儲存資料?不妨先看看 DNA 的尺寸大小。每一個細胞裡都有一套 30 億對鹼基的 DNA,存放在僅有 6 微米 (100 萬分之1米)的空間,如果拉出來平放,就有 2 米長,把一個人所有的 DNA 拉出來,就有兩倍太陽系直徑那麼長。鹼基對之間的距離很短,僅有 3.4 Å(Å 為百萬分之一公分),假設把 ATGC 四種鹼基代碼成 "00"、''01"、"11"、"10" ,一個 2 米長的 DNA 所儲存的數位資料就極為可觀。

   現在的問題是怎麼樣把數位資料轉換成四種鹼基,合成一個 DNA 檔案。從 MIT 分支出來一家新創公司 Catalog,就正做這件事的研發。一年前把印在一頁紙上的一首詩、資料量約1KB,縮小成一個小試管底下的兩滴水,水裡藏有看不見的 DNA 資料檔。用 DNA 儲存數位資料早已有人實驗,但非常昂貴,以儲存一分鐘的音樂為例,需用 150 萬對鹼基,成本高達 10 萬美元,Catalog 要改變這一成本結構。

   與其把一條長的 DNA 填滿,Catalog 把 DNA 切割成 20 到 30 對鹼基的片段,分別儲存資料之後,再用酵素把各個片段安排連接在一起,成為完整的資料。這個做法好像用字母拼字,例如用 26 個英文字母不同的連接,就能拼出許多不同的字。Catalog 並沒有公佈生物技術的細節,但估計成本可降至1 GB 僅需 0.003 美分。

   DNA 可以說是最小的最大倉儲,有人估算,把全球有史以來拍攝的影片儲存在 DNA,所占的空間不過一塊方糖的大小,如果把地球上所有資料全部轉換成 DNA 儲存,那也不過是裝在一輛汽車的後車箱就夠了。DNA 還有一個好處,只要存放在 4°C 的環境,可以保存一萬年。

   有了大數據 (Big Data),就需要大倉儲 (Big Storage),在 Catalog 之前,許多數位公司都在尋找物理以外的儲存媒介,生物儲存成為大家不約而同的選擇。數位資料轉換成 DNA 再轉回成數位資料,不會是像硬碟讀取那麼便利,以大批需長久保存、變動又不大的資料,最具經濟效益。

   至於我們時候什麼才能買到幾條 DNA,插到電腦或手機裡?即使可能,恐怕要很久以後了,至少現在還不是這樣的概念。

   下面的簡圖,是微軟發展的 DNA 儲存系統,資料 存取流程的基本概念,PCR Thermocycler 是 DNA 放大器。


DNA 資料存取流程示意簡圖。圖片:微軟


上一篇  下一篇  索引