大數據的發展和現狀
全球大數據發展曆程
國際層面,大數據在2012和2013年達到宣傳高潮,2014年後概念逐漸成熟,對大數據的認識也趨于理性。我國大數據已經成為國家戰略,相關技術成為研發熱點,大數據應用市場呈現繁榮狀态。
2012年,大數據産業生态預熱。同年7月,美國風險投資人MattTurck開始繪制大數據産業圖譜1.0版本,10月,更新并發布大數據産業圖譜2.0版本。MattTurck将大數據産業鍊分為Infrastructure(基礎設施)、Analytics(分析)、Applications(應用)、Crossinfrastructure/Analytics(基跨礎設施/分析)、OpenSource(技術開源)、DataResources(數據資源)六個方面描述。
2014年發布了新的版本,這時大數據分析就成為了生态系統中最火熱的部分。有大批的公司成立并快速發展,風險投資大量湧入,這時大數據生态系統還處于一個初級階段。
2016年,大數據産業已現雛形,主要表現在:創新不斷,并且大部分通過開源體現;數據與AI緊密結合,相輔相成;大數據應用增長迅猛,面向行業和領域的應用型企業發展迅猛,生态系統逐步形成,向更為成熟的程度發展。
2017年,大數據産業生态不斷完善。數據治理、數據安全成為重點,大數據成功需要技術、人員、過程的緊密結合,大數據在AI技術的助力下,在各個領域發展迅猛。這一年,生态系統發展全速推進。
從全球大數據市場規模現狀來看,據IDC報告顯示,2014年全球大數據市場規模是285億美元,同比增長53.2%;2015年,達到384億美元,同比增長34.7%;2017年市場規模達到721億美元。2017~2021年,行業的年均複合增長率在40.98%,2021年,全球大數據規模将會達到2847億美元。同時,2020年以前全球數據量将保持每兩年就翻一倍的速度增長,預計2020年全球數據量将達44ZB。在《DATAAge2025》報告中,預計2020年全球的數據量要超過50ZB左右,2025年全球數據量将達到160ZB。由此可見,全球數據量的增長速度超出人們預期。
我國大數據生态狀況
2015年,我國大數據生态系統日臻完善。基礎技術和系統方面缺乏原創,分析方法與算法應用牽引不足,研究實用性和易用性偏弱,互聯網大數據的應用水平和效果接近國際先進水平,其他行業和企業的大數據應用水平和效果較落後。
2016年,大數據建設領域仍被國際廠商占據,基于物聯網的數據采集與數據管理初現,各内容類互聯網服務競相成為數據源,垂直化與行業化應用發展迅猛。我國互聯網大數據應用水平和效果接近國際先進水平,并積累了大量的數據,數據的收集與管理,已經成為我國大數據産業發展的重要與關鍵環節。
從國家總量來看,2015年,中國大數據市場規模達到115.9億元,同比增長38%;2016年是168億元,同比增長45%;預計2018年會達到280億元,未來五年(2018~2022)年均複合增長率約為27.29%,2022年将達到735億元。2020年,中國數據量将達到8060EB,占全球數據量的18%。
從國際、國内大數據技術與産業發展的狀況來看,大數據作為戰略資源的地位越來越重要,數據管理、數據安全與隐私保護、數據共享開放機制等數據治理相關技術成為當前研究熱點。建立完善的數據治理體系成為一項緊迫的任務。
大數據治理體系的技術支撐需要涵蓋大數據管理、存儲、質量、共享與開放、安全與隐私保護等多個方面,當前相應的技術研究關聯性和系統性還存在欠缺。大數據治理體系
治理本身源自于拉丁文的“掌舵”一詞,指政府控制、引導和操縱的行動或方式。它是一個采取聯合行動的過程,強調協調而不是控制。
大數據治理可以從宏觀、中觀、微觀三個層面來闡述。從宏觀層來看,大數據治理是對組織的大數據管理和利用進行評估、指導和監督的體系架構;從中觀層來看,大數據治理是企業數據可獲得性、可用性、完整性和安全性的部署和全面管理;從微觀層來看,大數據治理是描述數據該如何在其全生命周期内有用和經濟管理的組織策略或程序。
大數據治理研究主要集中在組織層面,而在治理體系上還有待完善,主要表現在:
第一,大數據的治理體系應該涉及組織、行業、國家多個層次,如何定義、構建一個完整的體系值得思考。
第二,大數據治理體系需要健全的法律法規、全面的标準體系支撐,是否需要圍繞“數據”為主題來制定制度法規和标準規範。
第三,大數據治理的重要性已得到較為廣泛的認識,已有不少成功的應用實踐,但尚不足支撐一些共識的形成,難以形成“規範”。
第四,大數據治理體系的技術支撐需要涵蓋大數據管理、存儲、質量、共享與開放、安全與隐私保護等多個方面,當前相應的技術研究關聯性和系統性還存在欠缺。
第五,大數據資産地位得到廣泛認同,但是如果沒有有效的管理和應用,這種數據實際上會成為負擔。
第六,大數據管理的相關方法與技術已有不少成熟産品與技術,但還缺乏完善的多層級的管理體制和高效的管理機制。
第七,大數據共享與開放已經成大數據成功應用的關鍵,如何将技術和标準有機結合,建立在不同層級上的良好的大數據共享與開放環境也是值得思考的。
第八,大數據安全與隐私保護意識不斷加強,除了相關技術需要不斷發展以應對各種新型攻擊挑戰外,企業安全保障制度完善和行業自律監管力度加強也需要重點關注。
大數據治理體系從國家層面看,主要包括以下四個方面:一是資産地位确立,需要在國家法律法規層面明确數據資産地位;二是管理體制機制,需要建設良好的管控協調機制,促進數據産業的健康發展;三是共享和開放,需要制定數據開放共享的政策,建設政府主導的數據共享平台;四是安全與隐私保護,需要出台數據安全與隐私保護的法律法規,保障國家、組織和個人的數據安全。
在數據資産的确立上,明确将數據作為資産,就可以将數據的歸屬、估值、交易、管理等納入到人類社會的一般資産管理體系中,對于促進數據的确權、流通、交易、保護等具有重要的基礎性意義。
在管理體制機制上,良好的數據管理體制不僅能促進産業的健康發展,也為國家掌握數據安全、維護用戶權益提供有力抓手。當前有兩種主要管理模式:一種是以歐盟為代表的政府設立專門機構直接管理,另一種是以美國為代表的政府引導行業自律的管理。對中國而言,我們應該借鑒已有模式,兼顧現狀及發展,建立符合我國國情的體系。
在數據共享和開放上,大數據應用之所以産生巨大價值,往往在于有效關聯,融合了多個已有信息系統中的數據,并創造性地解決新問題。
在安全與隐私保護上,大規模的數據洩露以及數據監聽、竊取事件所引發的數據安全、隐私保護等問題已經嚴重影響到了社會安全和國家安全。世界主要國家和地區多措并舉加強大數據安全保障。
總體而言,大數據治理體系建設是國家實施大數據戰略的重要保證,是發揮大數據作用、做大做強大數據産業的重要因素。大數據治理體系建設已經成為大數據發展重點,分層次、多維度推進大數據治理體系的建設,任重而道遠。(責編:楊潔)
(本文根據中國科學院院士、北京理工大學副校長梅宏在第十三屆中國電子信息技術年會上的部分演講内容整理,未經本人審閱。整理:楊潔)