2017年我國國民生産總值已經達到82.7萬億的驚人數字,我國龐大的經濟規模,單靠人腦理解分析已經不能夠滿足越來越大的經濟統計需求,數據挖掘技術應用于經濟統計,已經成為了當前經濟統計工作的新寵。本文基于數據挖掘技術用于經濟統計的角度,探讨其運用的有效措施。希望對讀者提供有益參考。
關鍵詞
經濟統計;數據挖掘技術;統計方法
數據挖掘技術是一種新型統計技術,其優點是能夠對數據進行縱向開發和利用,精簡數據的經濟量,并在數據的基礎上通過數據挖掘分析得出更有用的信息,從而更好地服務經濟統計工作。
經濟數據預先處理法
經濟數據預先處理法分為均值法、平滑法。其中,均值法是模糊分析的一種應用形式,在遇到數據點空值或噪音數據幹擾的情況下,可以采用均值法進行處理,以元數據的均值來填補數據清除的空缺。采用均值法能夠讓數據挖掘技術在使用過程中,能夠避免錯誤數據對其數據分析和整理的幹擾,從而得出更高準确度的經濟數據。
而平滑法與均值法的應用方法類似,但是前者主要用加權平均數代替平均數,它主要考慮了各個數據對總數據的權重影響,平滑法的優點是計算更加接近真實數值。
決策樹方法
經濟信息數據輸出是數據挖掘的關鍵環節,其輸出形式對經濟管理決策産生直接影響。決策樹是一種信息的快速分類方法,通過它能幫助決策者精準把握需要注意的問題,提高決策質量。為了方便論述,以決策樹方法将各類企業按照經濟數據差别率多寡進行分類,差别率大于20%的歸為甲類,差别率在10~20%之間的歸為乙類,差别率在10%以下的歸為丙類。根據這樣的差别率變化區間來設定決策樹規則,各個企業的經濟數據差别率如表1所示。
需要注意的是,表1的數據是為了輔助說明決策樹的運作流程而編造,數據本真不具有真實性,僅供學習參考。通過以上表格,可以看出A類企業的經營數據與預測值的差别率相當大,明顯違背數據規律,根據決策樹防範可将其歸為虛假數據。經濟管理部門可根據此數據的真實性,着重對A類企業進行的調查。
回歸分析法
這種方法的分析方式為将兩種或兩種以上的變量相依賴的定量關系進行統計分析,通過分析研究對象各個變量然後建立起回歸方程,以此判别主要變量與次要變量的關系,并通過檢驗預測各變量之間的誤差。這樣的回歸方程公式可以可以對市場占有率、銷售額進行解釋。例如,可使用此線性回歸方程:Y=a+bX表示,其中a為截距、b則是相關系數。
回歸分析法的應用條件為:1、各個經濟統計對象是相互獨立的;2、Logistic與自變量之間的關系為線性關系;3、設計隊列、橫斷面對照研究時,觀察時間與Logistic回歸分析時間相同;4、對于樣本量較小的分析對象,要确保其分析變量控制在一定的數值範圍内,同時分析對象的變量分類不能過多。
應用Logistic分析,可以預測變量X與變量Y之間關系假定S狀的事件發生幾率。通過分析發現自變量較小的情況下幾率值接近于0,但随着自變量增加,其幾率值會跟着增加,使斜率介于0~1之間。
遺傳算法
這種算法具有生物遺傳機理與自然選擇的特征,具有随機搜索功能的一種算法。它的計算流程為:采集相關信息→歸類已采集信息→分析信息→得出結果。這種算法特别适用于經濟統計,因為經濟數據并非一成不變,使得經濟數據内各項信息和數據互相關聯、影響。
利用遺傳算法,可以從經濟數據的根源進行數據搜集,并在搜集信息的基礎上進行分析,使經濟統計的目标更清晰,将數據隐含信息表達出來,呈現的經濟統計結果更加直白。
神經網絡法
工作機制與人的神經運動過程一樣,具體表現為,數據輸入→數據精準分析→數據輸出。這種算法在經濟統計工作中較為常用,通過它能使統計結果更具實用性,數據輸出格式也更形象化、具體化,兼顧到經濟過程各部分的聯系,從而得出解決經濟統計問題的方法。
結論
綜合上述,借助數據挖掘技術,有利于精簡無效、冗餘信息的經濟量,使經濟統計結果更準确、更實用。利用數據挖掘技術的以下方法:經濟數據預先處理法、決策樹方法,回歸分析法、遺傳算法、神經網絡法能夠實現更好的經濟信息數據統計、分析和處理效果。
參考文獻:
[1]萬金.數據挖掘技術對民營經濟統計數據質量的提升作用分析[J].科技經濟市場,2018(02):18-20.
作者簡介:
周傑(1993年-),女,重慶人,碩士,雲南大學,研究方向:概率論與數理統計