高校在數字校園階段已經建設了數據中心和若幹應用系統,通過數據共享平台和數據集成,一定程度上為教學科研和管理等業務提供了數據支撐。随着大數據等信息化技術應用的逐步延伸,業務驅動需求的不斷挖掘,原有解決方案或體系架構下的數據質量問題也不斷暴露出來,在大數據時代為智慧校園的建設與發展帶來挑戰[1]。
1.校園信息标準不能有機地與校園業務數據結合,校園的元數據不能自動地根據業務數據生成并且成為信息标準的一部分。2.數字校園建設了數據共享平台,但是數據共享平台僅僅是解決了數據跨業務部門的問題,實現了數據的“運過去”,對于數據的運行質量難以保證,缺乏數據的全局視圖,不能質量檢查,不能溯源。因而一定程度上制約了學校更大範圍的數據共享和上層應用。3.缺乏全局的數據資産管理平台和數據頂層設計。4.松散的高校業務數據環境,缺乏統一的數據管理制度和權限管理。
相關概念與研究
數據質量管理是信息系統建設的首要問題,“數據适合使用的程度”(FitForUse)是數據質量的主要定義之一,質量屬性可劃分為正确性(Correctness)、一緻性(Consistency)、完整性(Completeness)、最小性(Minimality),數據質量也反映了數據模式與數據實例在以上屬性上的距離。從評估治理的角度來看,數據質量也可劃分為内在質量(IntrinsicDQ)、可訪問性質量(AccessibilityDQ)、上下文質量(ContextualDQ)、表達質量(RepresentationalDQ)四個維度。
元數據(Metadata),其含義為“描述數據的結構化數據”[2],也被稱為是關于數據内容、質量、條件和其他描述數據特征的結構化數據。
元數據标準與數據質量
元數據包括業務元數據、技術元數據、操作元數據,見表1。
本文認為數據質量管理最主要的目标是安全、正确、時效。因而數據的真實性、完備性、自洽性是數據本身應具有的屬性,稱為數據的絕對質量,是數據質量的基礎。除了數據的①絕對質量外,還有我們在利用和存貯數據的過程中所産生的數據質量,包括②使用質量、③存儲質量和④傳輸質量,稱之為過程質量。
數據質量按照屬性可以劃分為:完整性、一緻性、及時性和準确性。常見數據質量問題及示例見表2。
高校數據标準一般包括數據标準、代碼标準。通常參考國家教育行業标準教育管理信息之《教育管理基礎代碼》(JY/T1001-2012)和《高等學校管理信息》(JY/T1006-2012),以及包括學校的自定義編碼标準。在數據執行标準的基礎上結合元數據标準,與業務數據(數據源、數據模式)和主數據進行定期的檢查比對,發現上述列舉的質量問題,并且對與業務數據的正常變化,通過數據管理流程補充和完善到元數據和其他數據标準中,并且通過正常疊代進行新版本标準的發布。通過這樣的措施在技術上保證數據質量的穩定和提升。
數據一緻性與數據鍊管理
基于元數據标準的檢查對比能夠很好地解決數據質量問題中的完整性和值域類型問題。高校環境下由于業務數據具備差異化、異構、松散、冗餘的特征,數據一緻性在全局的數據管理和質量提高過程中相對其他質量屬性更加重要。數據絕對質量的提高主要通過自定義質量規則約束,進行定期的檢查來實現。質量約束規則主要有單字段的語法檢查(數據特征、長度、規則等)以及多字段的邏輯關系檢查(時間先後比較、數量大小比較等)。數據一緻性存在于單數據源情況,也存在于多數據源的情況。單數據源中的一緻性,通過重複記錄檢測就可以發現重複數據。多數據源的一緻性判定較為複雜。舉例如下:學生張三在教務部門和學工部門都存在。
學工部門:A
數據A和B産生了不一緻,其算法有3種可能:
(1)Result(A+B)=A(2)Result(A+B)=B(3)Result(A+B)=A結合B
不一緻數據的解決前提是确認數據的權威數據源。對數據實體具體到每一個屬性都要确定其權威數據來源,則3種可能的結果是确定唯一的。所以,如果學生的學号、姓名、學院、是否在校的數據源是教務部門、手機号碼的來源是學工部門,那麼計算的結果應該是(3):C
通過确定主數據的權威數據源來實現數據清洗,支撐主數據庫的數據一緻性和數據權威性。同時數據鍊的管理也能為主數據管理平台提供數據血緣分析與影響範圍分析等管理功能。
主數據與數據管理服務平台
圖1展示了高校的統一數據管理服務平台結構,針對本文分析提出的大數據背景下高校數據質量面臨的諸多問題,圍繞提升數據質量,該平台能夠針對性的解決和提升數據質量問題,包括如下個步驟:
1.通過元數據标準(業務、技術、操作)建設,形成高校的主數據體系,通過代碼标準、元數據标準,完善高校已有的數據标準,通過自動的數據标準約束檢查不斷疊代發布更新數據标準。反過來,由業務數據驅動元數據标準的完善和補充。通過數據源和數據模式等元數據信息的定期檢查,保持和提高數據标準與業務數據的關聯一緻。
2.建設具有唯一權威數據源的主數據。針對數據質量屬性中絕對質量和使用質量的問題,通過質量約束規則定期檢查主數據,形成數據質量結果報告。對于多來源數據不一緻問題通過确定唯一數據源進行解決,不能确定數據源時還可通過專家幹預的方式進行處理。
3.通過大數據分析處理Hadoop集群平台,進行基于主題數據模型的建模,通過分析計算形成結果數據。保存到主題數據庫中,并且登記到統一的主數據平台。
4.在主數據平台的基礎上,開放和配置數據訪問接口。通過API方式或者傳統數據接口方式,滿足大批量數據集成訪問方式或者WebService的數據訪問方式的接口要求。通過統一的接口配置和管理,實現數據訪問的權限管理和訪問審計。
5.數據質量的管理流程制度化:通過定期數據質量約束檢查→生成數據質量結果報告→根據數據鍊溯源→數據質量結果反饋來源部門→數據修正→再次數據質量檢查,這樣的數據質量管理流程,技術加管理相結合,實現數據質量的提升。
數據的質量問題是高校信息化面臨的主要問題之一。構建統一的主數據管理服務平台,通過元數據标準和數據質量治理技術手段和管理流程相結合,能夠解決質量問題,滿足未來智慧校園的服務需求。(責編:楊燕婷)
(作者單位為河海大學)
參考文獻
[1]徐琦.基于大數據的高校數據整合模式研究[J].中國教育信息化.2015(15):60-63.
[2]劉春燕,侯人華,杜薇薇.國際科研領域元數據研究及啟示[J].情報理論與實踐.2014,37(9):39-43.
[3]高科,刁興春,曹建軍.基于簡單規則的數據質量檢查系統設計與應用[J].計算機技術與發展.2015(6):176-180.