什麼影響學生就業：大數據模型告訴你-雜誌-人人書

文/韓霖金健宇方丹丹

随着計算機技術和信息技術的發展，高校各業務管理系統經過多年的運行和使用積累了大量數據，包括大學生在校期間學習生活等各方面的詳細數據，其中部分因素對就業有着或多或少的影響。可以利用對大數據的挖掘和處理得到海量數據裡面蘊含的有價值的數據。

基于以上背景，本文針對大學生就業過程中亟需提高就業服務質量，提升就業數據的信息價值問題，以及大學生就業之前的求學過程中有利于就業的個性化發展問題，建立影響因素的數學模型，并用于就業工作的改進，包括就業時根據個人情況的就業方向和就業單位的個性化建議以及求學過程中根據個人就業意願對個人發展的建議等。

數據收集

1.數據的收集範圍

本文以大學生就業為研究對象，最終要根據建立的數學模型對學校就業政策提出建議，對大學生就業和就業前的發展提出建議，所有與之相關的所有數據都在收集的範圍之内。收集的數據經過處理之後，其中影響比較大的因素作為主要研究對象。另外，在此過程長期的運行中，各因素的影響程度會有所變化，建議也要随着實際情況而動态變化。

各相關數據存在于學校不同部門的業務系統中。其中招聘信息和學生就業信息在學生就業系統中，學生基本信息、成績等信息在學工和教務系統中，校園卡消費信息在财務系統中，圖書借閱信息在圖書館系統中，學生日常上網信息在網絡計費系統中，學生科研信息在科研信息系統中。

2.數據的收集和存儲

由于各個業務系統都是相對獨立的，所以數據不僅是分散的，其記錄方式和格式也都各不相同，為了解決這個問題，先建立數據中心，再将數據中心的數據庫與各個業務系統的數據庫對接，實現數據的同步，将分散的數據複制到數據中心統一存儲，并在同步的過程中建立好對應關系，在數據中心的數據庫中按照便于處理的形式進行存儲，例如：同一字段在不同的業務系統中其存儲格式是不同的，那麼數據中心會指定一種标準的存儲格式，并在數據庫同步的過程中将不符合标準的數據進行對應的格式轉換。

數據處理

搜集的數據将作為數學模型的輸入和輸出進行運算，數據的質量好壞在一定程度上影響了數學模型能夠優化到的程度的高低，所以在進行計算之前，要對數據進行質量的優化即數據清洗和數據規範化。

1.數據清洗

數據清洗就是把“髒”的部分數據“洗掉”，發現并糾正數據文件中可識别的錯誤的最後一道程序，包括檢查數據一緻性，處理無效值和缺失值等。數據倉庫中的數據是面向某一主題的數據的集合，這些數據從多個業務系統中抽取而來并包含曆史數據，有的數據是錯誤數據、有的數據相互之間有沖突，此類錯誤的或有沖突的數據稱為“髒數據”。需要按照一定的規則把“髒數據”“洗掉”，這就是數據清洗。不符合要求的數據主要是有不完整的數據、錯誤的數據、重複的數據三大類。

2.數據規範化

數據規範化包括數據數值化和标準化兩步，先對非數值部分的數據進行數值化處理，然後再對所有數據進行标準化處理，得到的數據作為數學模型的數據基礎。

3.數據數值化

數據數值化顧名思義是針對那些不是以數值來存儲的數據，要将其以一定的規則轉換成數值，方可作為數學模型的數據基礎，便于進行計算。例如就業結果數據的數值化過程見表1，對于不同的指标分别将其非數值的數據按照統一的标準一一對應成為數值，數值并不代表何種實際意義，隻是為了便于運算。

4.數據标準化

在多指标評價體系中，由于各評價指标的性質不同，通常具有不同的量綱和數量級。當各指标間的水平相差很大時，如果直接用原始指标值進行分析，就會突出數值較高的指标在綜合分析中的作用，相對削弱數值水平較低指标的作用。因此，為了保證結果的可靠性，需要對原始指标數據進行标準化處理。

例如某門課程的成績t1取值範圍是從0至100，另外一門課程成績t2的取值範圍是從0至150，在直接使用數據進行運算時會造成權重的不均衡，所以按公式1進行處理得到t1'和t2'，其取值範圍都是0至1且代表某成績樣本在取值範圍中所處位置高低的百分比。

應用公式：t'=t/(tmax-tmin)

就業影響因素數學模型

1.機器學習

機器學習是人工智能的核心，是使計算機具有智能的根本途徑，它研究了計算機怎樣模拟或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。在本文中，機器學習利用了計算機的高性能和大數據處理的優勢，模拟人類對指标的評判，經過不斷的優化和疊代從而建立指标體系，并據此進行智能推薦。

2.遺傳算法優化的人工神經網絡

人工神經網絡是對人類大腦的一種物理結構上的模拟，即以計算機仿真的方法，從物理結構上模拟人腦，以使系統具有人腦的某些智能。

遺傳算法以生物進化過程為背景，模拟生物進化的步驟，将繁殖、雜交、變異、競争和選擇等概念引入到算法中，通過維持一組可行解，并通過對可行解的重新組合，改進可行解在多維空間内的移動軌迹或趨向，最終走向最優解。它克服了傳統優化方法的缺點，是一種全局優化算法。

基于遺傳算法的人工神經網絡的基本原理是用遺傳算法對神經網絡的連接權值進行優化學習，利用遺傳算法的尋優能力來獲取最佳權值。由于遺傳算法具有魯棒性強、随機性、全局性以及适于并行處理的優點，所以被廣泛應用于神經網絡中。

對于本文研究的大學生就業影響因素的指标體系，為基于遺傳算法的神經網絡模型準備數據基礎，首先要明确政策可控類數據和個人可控類數據以及學生就業結果數據。其中，政策可控類數據是指政策的制定和管理者可以進行調控的數據類别，個人可控類數據是指個人在發展和規劃中可以進行改進和控制的數據類别，學生就業結果數據是指不可直接進行改變的學生就業結果類數據。本文建立數學模型并研究大學生就業因素，最終目的在于利用對可控類數據的調控和改進，對不可直接改變的就業結果類數據進行間接的影響，幫助廣大學生實現更好的就業目标。

3.數據模型的建立和優化

數學模型的建立如圖1所示，對政策可控類數據、個人可控類數據以及學生就業結果數據分别進行數據清洗和數據規範化處理，得到的結果數據分别作為核心算法的輸入和輸出，其中數據清洗的目的是為了将異常數據過濾掉以提高整個系統的運算準确率；數據規範化則包括非數值數據數值化、數據标準化等過程，規範化得到的數據作為核心算法的輸入，規範化做得越好則核心算法的效率和準确度也會更高；核心算法是由遺傳算法優化的神經網絡模型。

核心算法數學模型的建立和優化是以這三類大數據為基礎的，利用大量的數據樣本作為輸入和輸出來進行訓練得到相對比較成熟的數學模型，利用該模型可以在輸入新樣本時得到非常接近實際數據的輸出結果。為了保證核心算法數據模型的高準确性，随着時間的流逝和大量新數據的獲取，需要不斷地用新樣本數據去繼續訓練以得到更加優化的數據模型并達到更高的準确率。

其次，基于理論研究和實踐經驗，根據學生就業方向和個人要求的不同，确立學生就業結果數據中的若幹種标杆數據，标杆數據的确定并不是選取某個樣本，而是綜合考慮每項數據指标得到的理想的學生就業結果數據，同樣經過數據清洗和數據規範化得到核心算法的若幹标杆輸出數據。

再次，對于某個樣本，在将其各項指标數據輸入核心算法後得到的輸出數據一般是偏離标杆輸出數據的，通過對樣本輸入的多個數據進行變化試驗，得到如何改變輸入才能更加接近目标的标杆輸出數據，在此過程中，通過單個指标數據變化而保持其他指标數據不變的試驗可以用來判定哪些指标更能影響輸出結果，以此為依據選取用于向用戶建議的指标項。

最後，通過數據規範化的逆運算得到輸入數據所對應的兩類可控數據的變化建議，再提供給被建議者。

在實際的應用當中，模型在不斷的疊代和優化，在其中某一時間被選取的個人可控類數據可能包括：每月圖書借閱數、每周到食堂早餐次數、每月逃課次數、每學期各科成績以及參加課外活動的次數及類型等數據，選取的政策可控類數據可能包括每年舉辦就業創業培訓講座的次數、對逃課行為的處理嚴重程度、對成績提高的學生設置獎勵的情況等數據。為了更好地利用機器學習運算客觀準确的優勢，将人為主觀判斷造成的不準确影響降到最低，在選取影響因素的過程中也要先考慮盡量多的因素，然後根據機器學習的運算結果來篩選，而不是按個人的印象來決定選取哪些不選取哪些，如此整個系統就能更加高效準确地運行起來并不斷地自我優化，同時提供越來越符合實際且效果好的建議。

（作者單位為對外經濟貿易大學）

什麼影響學生就業：大數據模型告訴你

熱門書籍

熱門文章