趨勢數據的開放與共享
随着高等教育信息化水平的不斷提升,産生并積累了大量的數據,過去這些數據封閉、沉睡、孤島現象嚴重,2015年國務院《促進大數據發展行動綱要》中明确提出,要大力推動政府信息系統和公共數據互聯開放共享,加快政府信息平台整合,消除信息孤島,推進數據資源向社會開放。數據開放将會有力推動産業的創新發展,培育新興業态,促進分享經濟的發展。
互聯網的普及促進了開源文化,也推動了開放數據運動。嚴格意義上講,維基百科定義的開放數據(Opendata)指的是一種經過挑選與許可的數據,這些數據不受著作權、專利權以及其他管理機制所限制,可以開放給社會公衆,任何人都可以自由出版使用,不論是要拿來出版或是做其他的運用都不加以限制。但在目前絕大多數信息系統封閉的現實下,依據不同的應用場景,制定不同類型的數據開放和共享可用規則更有操作意義。
簡單來說,數據若想被認作是“開放”的,其必須滿足:1.可訪問,通常意味着在網上公開發布;2.以機器可讀的格式提供;3.具有允許任何人訪問、使用和分享的許可證——可以是商業的,也可以是非商業的。
平台以開放數據為核心的校園創新生态
世界銀行發布題為《2016世界發展報告:數字紅利》的報告,盡管互聯網、移動電話和其他數字技術在發展中國家快速推廣,預期中的數字紅利,如更高的經濟增長、更多就業機會以及更好的公共服務卻沒有如期而至。互聯網通過三種重要機制推動發展,促進包容、提高效率、推動創新。世行解釋了三種機制如何作用到企業、個人和政府。
按照世行這個思路,筆者嘗試用包容、效率、創新三種機制作用到大學校園中三個主體:教授、學生和管理,關于教授和學生的部分限于篇幅,不贅述。管理部門在事前事中事後,可以利用互聯網技術鼓勵師生更廣泛地參與,更快速地了解主體需求、适時調整決策、評估決策效果。最終,高校的創新成果需要得到社會的認同,為社會培養更多的高水平有責任感的人才,教授的學術追求能得到更多的社會支持。所有這些的核心要求是管理部門的數據能力提升,大數據時代需要重新定位高校信息化部門。
數據是智慧校園的基礎,數據平台作用是數據的管理和共享,包括數據采集、治理、存儲、計算、應用等等。高等學校的數據産生除了教務、科研、财務、人事和資産等核心業務系統,随着高校信息化建設的不斷完善,數據逐步延伸到校園文化、學工、校友等内涵建設,這類數據以結構化數據為主,但由于各種原因,數據質量普遍不高,需要加強數據治理。網絡信息安全在高等教育領域越來越受到重視,各高校加強了網絡流量和系統日志的收集,這類數據量巨大,異構複雜,同時還需要有實時處理能力。物聯網、視頻監控網的應用在各高校也得到了應用,社交網絡和輿情新聞受到高校宣傳部門的關注,這些都是非結構化多媒體數據,對這類數據的分析應用各高校都在探索中。不同于一般企業的數據,高校的統一身份認證和一卡通系統普遍應用,因此上述幾類數據都可以通過身份數據關聯起來。
在建設數據平台過程中,雖然有很多方案可以選擇,架構也日趨成熟,但目前還沒有一個一站式方案解決采集、治理、存儲、計算和應用等所有問題。尤其在上海交通大學這樣的以科研創新為主的高校,不僅要滿足日常信息系統業務的需要,更要滿足科學研究和教學創新的需要。因此,我們的目标是完全獨立地使用開源社區的解決方案來搭建一個一站式的共享數據、計算和代碼的數據平台。我們的平台完全使用開源軟件,自己選取設計組件,包括了Hadoop、Cassandra、Kafka、Gitlab、OpenRefine、Kibana、Grafana、Jupyter等20多個開源軟件,自己搭建和運維。開源軟件代碼公開并且由開源社區維護,非常适合高校這種IT經費相對較少但是智力資源較多的環境。我們的平台用于校内部分公開服務,也定期提供給數據大賽這種大規模、高強度、集中式、密集計算的場景使用。
在開放數據門戶建設方面,我們采用了CKAN開源軟件搭建了data.sjtu.edu.cn。CKAN是可以方便搭建集數據發布、數據共享、數據搜索和數據使用為一體的管理平台,并且提供了強大而完善的RPCAPIs供用戶調用。它的基本組成是數據集和組織,數據集是數據存儲的基本單元,其中可以包含多個資源文件,提供豐富的元數據,同時可以方便快速地搜索和下載使用。組織是用來創建、管理、發布數據集集合的,用戶可以在組織中扮演不同的角色,并被賦予不同級别的權限來創建、編輯和發布數據。CKAN已被美國、英國、澳大利亞部署用于國家層面的政府開放數據平台建設。上海交通大學在國内較早使用CKAN,Bing用CKAN關鍵詞搜索,data.sjtu.edu.cn網站排名第三,第一是CKAN官方網站,第二是CKAN的維基百科。
案例上海交通大學開放數據及成果
上海交通大學于2015年在國内高校率先舉辦了智慧校園開放數據大賽,我們開放了2014年8月~2015年3月WiFi網絡、一卡通、氣象三個數據集。網絡數據集由上海交大WiFi網絡用戶的上網流量統計産生,該WiFi網絡覆蓋交大主要校區,WiFi熱點涵蓋了教室、宿舍、公共活動建築以及部分室外開闊場地,包含了20000個匿名用戶,1200萬條數據記錄,包括上網地點、上網時間、應用類型等。用戶特征包括了性别、年齡、年級、本科或研究生等。一卡通數據集由上海交通大學一卡通的消費記錄産生,消費包括了食堂餐飲、洗浴、超市購物等,包含了30000匿名用戶、300+校園商戶、420萬交易流水。氣象數據包括了上海氣象局交大觀測點每10分鐘采集的數據,溫度濕度風速降水等14個氣象要素。
大賽吸引了校内外500多人參與,經過宣講會、數據訓練營、初賽決賽,最終60個隊伍提交作品,冠軍由中科院聯隊獲得。學生的參與度、想象力和數據分析能力超乎想象,甚至通過數據挖掘發現了管理的盲區。
大賽請到了複旦大學公管學院、校内電信學院、管理學院、數學系、工業設計系等多個院系的專家教授以及學校後勤集團、贊助企業、投資人,彙集各方力量,從可行性的角度共同商讨智慧校園開放數據環境下的創新創業機會,促進作品以校内應用或創業項目的形式落地。
大賽直接孵化了科賽學生創業團隊,目前已經成為國内知名的大數據競賽平台,獲得了數百萬的天使投資。大賽的所有成果也在kesci(www.kesci)網上開源。開放數據的理念在上海交通大學也催生了多個學生創業團隊,比如邁科技緻力于高校科技成果轉化,獲得了數百萬天使投資。執楠信息是上海交通大學與上海氣象局共同孵化的創客團隊,利用氣象開放數據研發了可穿戴設備“氣象徽章”,得到了國家氣象局的高度肯定。
思考開放數據的風險防範與法規監管
數據開放可能會涉及國家安全、商業機密和個人隐私,因此數據開放共享的同時一定要做好風險防範,加強法規監管。對于數據的誤讀也是數據開放共享中的主要風險,由于院校合并、部門調整、集成商變更等原因造成目前高校基礎數據的質量普遍不高,數據沖突、數據缺失、數據錯誤、數據雜亂導緻分析結果不可信,因此需要加強數據治理。
我們的思路是做好學校的數據編目、數據資産和數據血緣的梳理,聯合業務部門共同做好數據治理以及開放共享風險評估。這裡我們強調風險評估一定是基于應用而不是基于數據集的,不同的應用可能并不需要原始數據,僅僅需要脫敏數據或者統計數據。然而,由于确定數據應用風險無經驗可循,需要業務部門付出很多額外精力,對于風險評估可能存在潛在的消極影響。
他山之石,可以攻玉。我們借鑒了美國華盛頓大學的案例。華盛頓大學信息技術中心設立了信息集成與分析部門,該部門負責數據集成、元數據管理、信息設計與架構、數據倉庫、商務智能、數據管理和分析工具等技術解決方案,為學術和管理提供決策支持,并提供培訓服務。這個技術部門接受數據管理委員會的指導和監督,數據管理委員會由教授和職能部門官員共同組成。各類系統應用和教職員工可以向數據管理委員會申請訪問數據。
(作者單位為上海交通大學網絡信息中心)