徐宗本中國科學院院士發展大數據具有迫切性
信息時代的教育是要在充分了解學生認知能力和知識結構的前提下,提供符合學生認知規律和培養目标的優質教育,幫助其領悟學習的愉悅并養成通過學習解決問題的習慣。
未來“感知”這個詞将成為教育的關鍵詞。通過智能的感知,使得學習者對所處的環境和所要學習的對象進行更多信息的獲取,而在感知的過程中,數據是最核心的部分。
如何對待和認識數據?首先要理性看待數據。數據是以編碼形式存在的信息載體,是資料的數字化形式,大數據是大而複雜的數據集,具有海量性、時變性、異構性、分布性等特征。
當反映真實世界的數據(碎片)量己達到可以從一定程度上反映其真實面貌的程度,随着信息獲取的發展,數據在積累過程中從量變發展到質變。量變是指數據量增加,質變是指量增加到了一定時刻使得人們通過數據的片斷就能大體判斷它背後的故事。
大數據泛指一個時代、一項技術、一種文化、一個挑戰,通常用四句話概括:擁有大數據是時代特征、解讀大數據是時代任務、應用大數據是時代機遇;能夠對複雜海量數據進行實時獲取、傳輸、存儲、加工和利用的高新技術;任何人都要以數據說話;現有的數據采集、傳輸、存儲、處理與分析技術己無法适用于現有的需要。
大數據的價值有四個方面值得大家關注。第一,提供社會科學的方法論:實現基于數據的決策,支持管理科學與實踐的革命;第二,提供科學研究的新範式:支持基于數據的科學發現;第三,形成高新科技的新領域:推動行業深化發展并形成大數據産業;第四,形成社會進步的新引擎:深刻改變人們的思維、生産、生活方式,推動社會進步。
發展大數據具有迫切性與極端重要性。大數據技術是解決衆多國家重大需求問題的共性基礎,必将成為重構社會和經濟的基本生産資料和生産力(底層架構和标配),它是國家創新驅動發展的核心驅動力。
大數據面臨的四個發展機遇
當前大數據為全球提供了幾個重要的機遇。一是管理創新機遇。管理問題難以有普适方法論,決策問題難以精确建模分析,大數據認識論與方法論為管理與決策科學研究與實踐提供了曆史性機遇。管理包括市場分析與精準營銷、輿情分析(社會、商業等)、政策分析與評估、金融風險分析和監控、工業系統智能控制、公共安全監控與治理、産業與經濟形勢評估等方面,這些都需要用到大數據。
二是産業發展機遇。
人們都希望能夠彎道超車,實現中華民族崛起,但是中國的優勢到底在哪裡?中國的優勢就是市場大、人口多,鑄就了大數據資源優勢,帶來彎道超車的可能性;為産業的不斷升級、形成新價值、新産業提供無限可能性。
三是科學研究機遇。
現在的科學研究完全突破了過去的方式,甚至包括高等物理研究的方式都和以往不同了。現在,數據收集、處理與分析能力的提升,将顯著提升人們對客觀世界的洞察的深度和可程序化探究問題的廣度,幫助人們發現新知識,創造新價值,形成新理念。
四是學科發展機遇。
大數據摧生了數據科學,數據科學與人文社會科學、管理科學等學科的深度交叉與融合,将徹底打破和革新學科領域;“解讀大數據是時代任務”的要求将深刻改變和影響所有學科,這一改變将對大學的學科設置和人才培養産生重大影響,為大學培養适應國家創新發展所需要的人才提供機遇。未來大數據的時代,文科與理工應當需要跨領域交叉的。
大數據的幾個挑戰
傳統的統計方法已經不适應于當前的情況了。在傳統統計方法中,以樣本趨于無窮的極限分布為基礎進行推斷,而大數據分析方法需要自然數據,依靠數據量和超強的計算能力直接進行分析。
如何科學應對挑戰?核心挑戰在哪裡?
首先,是傳統方法的失效。傳統的統計方法是抽樣數據,以樣本趨于無窮的極限分布為基礎。而預期的大數據方法則是要通過自然數據,直接分析,依靠數據+超常的計算能力推斷。
其次,是認識論上的困惑。樣本等于母體嗎?相關性能替代因果性嗎?查詢能替代推斷嗎?大數據可代替理論嗎?種種與過去完全不同的認識沖擊着我們。
第三,方法論上的沖擊。分析基礎被破壞,計算模式受拷問,處理算法不可用,真僞更難以判定,決策應用缺乏基礎。
因此,針對大數據的研究有如下挑戰:
第一,重建分析基礎。包括重建統計學基礎和計算理論。在大數據分析與處理的統計學與計算基礎方面取得突破性進展,建立起若幹新的理論,推動形成數據科學的基礎理論體系。
第二,革新計算技術。創新計算技術,包括創新計算模式和計算方法。在環境上,從單一結構(CPU,MIC)向混合結構(CPU+GPU+MIC共存協作計算)轉變;大數據到來之後,既要計算密集型,也要數據密集型,從傳統并行轉為分布式并行。提出适應異構計算環境下多粒度分布并行計算模式的系列高效算法(大數據算法),形成大數據處理與分析的領先核心技術。
第三,建立真僞性判定準則,其目标是在國家重大需求的若幹典型領域,形成大數據分析與處理的行業核心技術,促進相應領域新模式的形成,推動各行各業利用大數據的能力與水平。
面臨的産業問題
當前的大數據的10個重大科學問題:區塊鍊技術、互操作技術、存算一體的存儲管理技術、大數據操作系統、大數據編程語言與執行環境、大數據基礎算法、大數據機器學習技術、大數據智能技術、可視化與人機交互分析技術、真僞判定技術。
大數據當前面臨的幾個問題,主要包括如下幾個方面。第一,産業鍊缺乏完整性。第二,地方政府實踐路徑不清晰,對需求的認知模糊,導緻對大數據的推進不利。對大數據的實踐一定不能盲目和盲從,一定要弄清楚要用大數據做什麼。第三,數據的開放與共享。教育大數據是一個非常值得期待的領域,大數據的核心是利用信息對業務的内涵和服務進行革新。
因此,圍繞此話題,提出幾點建議:第一,一定要做好教育大數據的規劃。如建好教育大數據的統一平台做好統一管理;第二,關注基礎開發和共性技術,做好人才培養;第三,做好應用示範,以點帶面推動發展。
(本文根據中國科學院院士徐宗本在“人工智能與未來教育”科技前沿與戰略圓桌會議上的部分報告内容整理,未經本人确認。整理:王左利、楊潔)