2013年1月11日 星期五

海量資料:行動運算的最後一塊拼圖


課程論文研討(一)
日期 : 2012/12/28
時間 : 13:50 ~ 15:30
學生 : 資傳研一 林智偉
演講者 : 國網中心 王耀聰

1. 海量資料的定義與內涵
    海量資料為單一資料集,大小介於數十TB至數PB的資料,資料大小已無法用一般軟體來處理,因此海量資料模型強調如何管理資料數量(Volume)、資料增加率(Velocity)與資料多樣性(Variety)。Gartner曾提出資料管理的12維度,歸類為三個向度:

(1)數量控管:Velocity、Volume、Variety、Complexity
(2)權限控管:Classification、Contracts、Technology、Pervasive Use 
(3)品質控管:Perishability、Fidelity、Validation、Linking。海量資料只是終極資訊管理的開端,前述的三個向度都是未來資訊管理系統必須考量的要求。

2.海量資料趨勢
    軟體發展勢必走向智能化,資料(data)經由整理變成知識(Knowledge),知識分析形成智能(Wisdom),以政府來講,這幾年提倡的愛台12項建設, 從e-Taiwan、M-Taiwan、U-Taiwan到「智慧台灣」,台灣軟體發展也是依循這樣的趨勢;雲端運算的智慧來自於群眾的智慧,雲端時代不應只著墨在裝置端,而是要聚焦在那朵雲,掌握及分析雲端資料,形成智能在裝置端使用,套用知識管理模型來看,資料經由整理、轉換、分析,人工智慧應是由經驗值推論,才能提供最好的決策。


3. 海量資料相關技術
    雲端運算的三種服務模式包含Lass (基礎建設,如Amazon.com) 、Pass (分析平台,如Google App Engine)、Sass(智慧服務)。在企業雲端的規劃上,台灣因中小企業特別多,通常企業會先計算出需求的平均值,建置自有的私有雲,超出平均值的部份再租賃公有雲,形成所謂的混合雲(Hybrid Cloud)。未來資訊人員需要管理的資管系統,不僅限於企業內部,而是包含產業上下游相關的部份 。


4.因應策略與成功關鍵
    海量資料首要為資料整合,將這些跨系統的資料庫轉換成資料倉儲,才能進行資料分析。而三種服務模式所對應的技術為虛擬化技術、資料分析及網頁服務,內涵分別為儲存虛擬化/備援與加密、資料整合/資料探勘、提供API介面/分散式資料庫。




    與海量資料相關的熱門工作包含資料探勘、資料視覺化、資料分析、資料操控及資料鑑識,分別應用在搜尋引擎、將資料用圖說故事、商業智慧、與法律結合的數位鑑識;未來處理海量工作的人必須了解SMAQ (storage、MapReduce及Query),全球多數使用的是自由軟體Hadoop,因使用者規模夠大,可以建構出豐富的海量資料工具庫,目前Yahoo、Facebook、微軟及Oracle等企業皆有使用,因此未來可利用Hadoop建構企業專屬的資料倉儲、商業智慧分析及搜尋引擎。

    最後聽了這麼多雲端資料處理的資訊,如果未來各個領域如果能使用到雲端這塊的技術,應該能夠大幅提升各領域的技術與使用。

沒有留言:

張貼留言