2013年1月10日 星期四
海量資料:行動運算的最後一塊拼圖
課程: 論文研討(一)
日期 : 2012/12/28
時間 : 13:50 ~ 15:30
學生 : 資傳研一 劉孝皇
演講者 : 國網中心 王耀聰
心得報告:
這次演講介紹海量資料的內涵、趨勢、相關挑戰與因應對策。海量資料為單一資料集,大小介於數十TB至數PB的資料,資料大小已無法用一般軟體來處理,因此海量資料模型強調如何管理資料數量(Volume)、資料增加率(Velocity)與資料多樣性(Variety)。Gartner曾提出資料管理的12維度,歸類為三個向度:(1)數量控管:Velocity、Volume、Variety、Complexity,(2)權限控管:Classification、Contracts、Technology、Pervasive Use ,(3)品質控管:Perishability、Fidelity、Validation、Linking。海量資料只是終極資訊管理的開端,前述的三個向度都是未來資訊管理系統必須考量的要求。在趨勢上軟體發展必走向智能化,資料(data)經由整理變成知識(Knowledge),知識分析形成智能(Wisdom),以政府來講,這幾年提倡的愛台12項建設, 從e-Taiwan、M-Taiwan、U-Taiwan到「智慧台灣」,台灣軟體發展也是依循這樣的趨勢;雲端運算的智慧來自於群眾的智慧,雲端時代不應只著墨在裝置端,而是要聚焦在那朵雲,掌握及分析雲端資料,形成智能在裝置端使用,套用知識管理模型來看,資料經由整理、轉換、分析,人工智慧應是由經驗值推論,才能提供最好的決策。雲端運算的三種服務模式包含Lass 、Pass和Sass。在規劃上台灣因中小企業特別多,通常企業會先計算出需求的平均值,建置自有的私有雲,超出平均值的部份再租賃公有雲,形成所謂的混合雲(Hybrid Cloud)。
處理海量資料首要為資料整合,將這些跨系統的資料庫轉換成資料倉儲,才能進行資料分析。而三種服務模式所對應的技術為虛擬化技術、資料分析及網頁服務,內涵分別為儲存虛擬化/備援與加密、資料整合/資料探勘、提供API介面/分散式資料庫。
未來處理海量工作的人必須了解SMAQ (storage、MapReduce及Query),全球多數使用的是自由軟體Hadoop,因使用者規模夠大,可以建構出豐富的海量資料工具庫,目前Yahoo、Facebook、微軟及Oracle等企業皆有使用,因此未來可利用Hadoop建構企業專屬的資料倉儲、商業智慧分析及搜尋引擎。
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言