新形勢下,滿足和保障高校學(xué)生的需求與權(quán)益成為新形勢下衡量學(xué)生工作的主要指標(biāo)。如何樹立服務(wù)理念、創(chuàng)新服務(wù)機(jī)制、完善服務(wù)舉措和提升服務(wù)水平成為新時(shí)期高校學(xué)工隊(duì)伍建設(shè)亟需解決的問題。
由于指導(dǎo)思想的轉(zhuǎn)變,高校的學(xué)生工作由過去的招生、考勤、紀(jì)律、畢業(yè)生分配、學(xué)生住宿等,轉(zhuǎn)向心理健康咨詢中心、資助中心(獎(jiǎng)、助學(xué)金發(fā)放,貧困生補(bǔ)助)、學(xué)生管理、綜合管理(制度頒布、規(guī)范行為)、國防教育、就業(yè)指導(dǎo)等,這就要求規(guī)范行為,精準(zhǔn)指導(dǎo),智能服務(wù)。
傳統(tǒng)的辦公手段已經(jīng)無法達(dá)到準(zhǔn)確的分析,無法提供貧困生管理、學(xué)生心理輔導(dǎo)、學(xué)生綜合管理等的流程數(shù)據(jù),需要融合學(xué)工管理流程,增加學(xué)工數(shù)據(jù)服務(wù),建設(shè)學(xué)工大數(shù)據(jù)分析與服務(wù)平臺(tái)的需求已經(jīng)躍然紙上。
信息化現(xiàn)狀
1.學(xué)工部的信息化訴求
按照《江蘇省高校智慧校園指導(dǎo)意見(試行)》的要求,結(jié)合歷年學(xué)校信息化建設(shè)的積累,南京林業(yè)大學(xué)已經(jīng)建成較為完備的信息化基礎(chǔ)設(shè)施、較為成熟的虛擬化云平臺(tái)、較為豐富的信息化應(yīng)用和較為安全的防護(hù)體系。
學(xué)校目前運(yùn)行了各類與學(xué)生相關(guān)的主要應(yīng)用系統(tǒng),包括門禁系統(tǒng),一卡通系統(tǒng),教務(wù)系統(tǒng)、勤工助學(xué),獎(jiǎng)(助)學(xué)金系統(tǒng),迎新系統(tǒng),畢業(yè)生離校系統(tǒng),宿舍上網(wǎng)管理系統(tǒng)等50多個(gè),已有結(jié)構(gòu)化數(shù)據(jù)表約1500多個(gè),記錄5億條,積累數(shù)據(jù)500G。
圖1 學(xué)工大數(shù)據(jù)分析平臺(tái)
根據(jù)信息中心的調(diào)研發(fā)現(xiàn),學(xué)工部門對(duì)大數(shù)據(jù)分析最大的訴求主要集中在對(duì)學(xué)生高危行為的預(yù)判、對(duì)學(xué)生思想動(dòng)態(tài)的研判、精準(zhǔn)資助和精準(zhǔn)就業(yè)等方面。那么對(duì)于信息化部門來說,就需要利用學(xué)校各類應(yīng)用中的海量數(shù)據(jù)進(jìn)行深入整合、挖掘、分析,并得出有價(jià)值的信息。
2.建設(shè)大數(shù)據(jù)分析平臺(tái)的現(xiàn)實(shí)困難
首先由于現(xiàn)有信息系統(tǒng)建設(shè)的時(shí)間不同、建設(shè)單位水平參差不齊、后期數(shù)據(jù)維護(hù)能力不同,以及部分信息系統(tǒng)具有較強(qiáng)的獨(dú)立性,如圖書館數(shù)字資源數(shù)據(jù)等,造成了“信息孤島”現(xiàn)象仍然部分存在;
其次由于各應(yīng)用系統(tǒng)的數(shù)據(jù)類型繁多,傳統(tǒng)的數(shù)據(jù)挖掘算法因無法滿足這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理要求而面臨挑戰(zhàn);
最后,部分應(yīng)用系統(tǒng)及數(shù)據(jù)庫的維護(hù)和管理仍然在各業(yè)務(wù)部門,而其習(xí)慣于站在自身角度考慮問題,數(shù)據(jù)需求不夠強(qiáng)烈,數(shù)據(jù)價(jià)值沒有得到體現(xiàn)。
因此,在推進(jìn)學(xué)工大數(shù)據(jù)分析平臺(tái)建設(shè)時(shí),信息中心首先需要解決數(shù)據(jù)規(guī)范、數(shù)據(jù)統(tǒng)一等技術(shù)問題,同時(shí)還必須加強(qiáng)頂層設(shè)計(jì),通過與現(xiàn)有數(shù)據(jù)管理部門的溝通,引導(dǎo)其認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)的重要性,以及學(xué)工大數(shù)據(jù)分析平臺(tái)對(duì)學(xué)校的重要意義。
系統(tǒng)建設(shè)過程
1.學(xué)工大數(shù)據(jù)分析平臺(tái)構(gòu)建思路
(1)
解決“信息孤島”問題
由于歷史原因,和學(xué)生相關(guān)的50多個(gè)應(yīng)用的數(shù)據(jù)分屬不同職能部門,其中校內(nèi)門禁系統(tǒng)、一卡通系統(tǒng)和宿舍上網(wǎng)管理系統(tǒng)的數(shù)據(jù)在信息中心,安防攝像頭和進(jìn)出學(xué)校的門禁數(shù)據(jù)在保衛(wèi)處,學(xué)生成績、課表、論文、競賽獎(jiǎng)項(xiàng)等數(shù)據(jù)在教務(wù)處,勤工助學(xué)、獎(jiǎng)(助)學(xué)金系統(tǒng),迎新系統(tǒng),畢業(yè)生離校系統(tǒng)等數(shù)據(jù)在學(xué)工處,圖書借閱、自習(xí)室預(yù)約等數(shù)據(jù)在圖書館,各部門管理各自的服務(wù)器和數(shù)據(jù)庫,且數(shù)據(jù)沒有共享機(jī)制。
圖2 大數(shù)據(jù)分析平臺(tái)整體構(gòu)架
為解決上述問題,信息中心需要建設(shè)一個(gè)“中間數(shù)據(jù)庫”,確保能將各部門所管轄的數(shù)據(jù)以數(shù)據(jù)推送或數(shù)據(jù)抽取的方式實(shí)時(shí)匯總到“中間數(shù)據(jù)庫”。這個(gè)數(shù)據(jù)庫包含海量類型不一、各種結(jié)構(gòu)的數(shù)據(jù)信息,目的是要掌握大而全的信息樣本。實(shí)際建設(shè)過程中這個(gè)“中間數(shù)據(jù)庫”的功能由“智能數(shù)據(jù)采集中心”來實(shí)現(xiàn)。
(2)
解決數(shù)據(jù)規(guī)范問題
“中間數(shù)據(jù)庫”解決了數(shù)據(jù)樣本問題,但是這些數(shù)據(jù)類型雜亂無章、質(zhì)量參差不齊,因此必須對(duì)數(shù)據(jù)作統(tǒng)一規(guī)范化處理,需要建立一套適用于我們大數(shù)據(jù)挖掘和分析算法的機(jī)制,并對(duì)不規(guī)范數(shù)據(jù)進(jìn)行處理,在實(shí)際建設(shè)中此功能由“智能數(shù)據(jù)預(yù)處理中心”來實(shí)現(xiàn)。
(3)
加強(qiáng)頂層設(shè)計(jì)問題
學(xué)校于2019年多次召開網(wǎng)絡(luò)安全和信息領(lǐng)導(dǎo)小組會(huì)議,從網(wǎng)絡(luò)安全、數(shù)據(jù)資產(chǎn)規(guī)范管理和提高學(xué)校管理效率等多個(gè)方面對(duì)各數(shù)據(jù)建設(shè)和管理部門提出了新的要求,同時(shí)信息中心多次與相關(guān)部門進(jìn)行充分溝通,較好地促進(jìn)了大數(shù)據(jù)分析平臺(tái)建設(shè)的推進(jìn)工作。
2.學(xué)工大數(shù)據(jù)分析平臺(tái)建設(shè)內(nèi)容
考慮到大數(shù)據(jù)分析平臺(tái)的可擴(kuò)展性、靈活性和安全性,我們將平臺(tái)規(guī)劃為三個(gè)層面七個(gè)模塊。分別是底層的智能數(shù)據(jù)采集中心,中間層的智能數(shù)據(jù)預(yù)處理中心、智能存儲(chǔ)及檢索中心、智能挖掘算法中心、智能數(shù)據(jù)運(yùn)維中心、智能數(shù)據(jù)安全中心,以及上層的數(shù)據(jù)應(yīng)用層,主要包含各類大數(shù)據(jù)的分析應(yīng)用。
(1)
智能數(shù)據(jù)采集中心
作為海量數(shù)據(jù)來源的底層,智能數(shù)據(jù)采集中心通過采集各業(yè)務(wù)系統(tǒng)數(shù)據(jù)、硬件設(shè)備數(shù)據(jù)等方式獲得了各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),這些數(shù)據(jù)是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。
圖3 智能數(shù)據(jù)采集系統(tǒng)構(gòu)架
學(xué)校目前的平臺(tái)采用分布式高速高可靠數(shù)據(jù)采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù),可以實(shí)現(xiàn)高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等功能,并且可以設(shè)計(jì)質(zhì)量評(píng)估模型對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和分析。
(2)
智能數(shù)據(jù)預(yù)處理中心
通過近一年的系統(tǒng)梳理發(fā)現(xiàn),學(xué)校數(shù)據(jù)不一致問題主要體現(xiàn)在以下幾個(gè)方面:
首先,這些應(yīng)用的原始數(shù)據(jù)缺乏統(tǒng)一的原數(shù)據(jù)存儲(chǔ)方式,在填寫和錄入的時(shí)候缺乏嚴(yán)格的數(shù)據(jù)質(zhì)量檢查,導(dǎo)致數(shù)據(jù)質(zhì)量不符合大數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn);
其次,各類應(yīng)用數(shù)據(jù)來自十幾個(gè)不同品牌的業(yè)務(wù)系統(tǒng),導(dǎo)致數(shù)據(jù)存在多種格式,標(biāo)準(zhǔn)不一,各業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)變更后原數(shù)據(jù)無法快速實(shí)現(xiàn)統(tǒng)一;
最后,各業(yè)務(wù)系統(tǒng)之間的業(yè)務(wù)詞匯描述無統(tǒng)一標(biāo)準(zhǔn),經(jīng)常出現(xiàn)各業(yè)務(wù)系統(tǒng)對(duì)同一類數(shù)據(jù)的描述不一。
因此,數(shù)據(jù)預(yù)處理的功能在整個(gè)平臺(tái)中就顯得尤為關(guān)鍵,做好此項(xiàng)工作不僅需要從技術(shù)角度入手,更需要弄清學(xué)校各部門的管理流程,深刻理解同一類數(shù)據(jù)在不同應(yīng)用系統(tǒng)內(nèi)部的含義。
為此,我們花了較大精力來建設(shè)好智能數(shù)據(jù)預(yù)處理中心,匯集了學(xué)工、教務(wù)、保衛(wèi)等相關(guān)部門的人員進(jìn)行前期研討,并對(duì)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)算法提供邏輯支撐。
圖4 智能數(shù)據(jù)預(yù)處理系統(tǒng)
目前的智能數(shù)據(jù)預(yù)處理中心可以實(shí)現(xiàn)將現(xiàn)有各個(gè)業(yè)務(wù)系統(tǒng)內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化,主要包括數(shù)據(jù)清洗和數(shù)據(jù)集成。去除重復(fù)數(shù)據(jù)、臟數(shù)據(jù),建立起了包含學(xué)校業(yè)務(wù)系統(tǒng)及信息化建設(shè)需要的標(biāo)準(zhǔn)共享數(shù)據(jù)庫,實(shí)現(xiàn)了基礎(chǔ)數(shù)據(jù)的共享和訂閱式訪問,保證了數(shù)據(jù)的一致性。
(3)
智能存儲(chǔ)及檢索中心
經(jīng)過智能數(shù)據(jù)預(yù)處理中心處理過的數(shù)據(jù)形成了標(biāo)準(zhǔn)數(shù)據(jù),用于存儲(chǔ)并為其他部門提供檢索和共享服務(wù),因此需要進(jìn)一步建設(shè)智能存儲(chǔ)檢索中心,其主要包含數(shù)據(jù)倉儲(chǔ)的建設(shè)和數(shù)據(jù)檢索及管理兩大內(nèi)容。
圖5 智能存儲(chǔ)檢索系統(tǒng)構(gòu)架
信息中心以Hadoop數(shù)據(jù)倉庫為存儲(chǔ)工具構(gòu)建了海量可擴(kuò)展的存儲(chǔ)倉庫為存儲(chǔ)介質(zhì),提供分布式,高并發(fā)性的海量存儲(chǔ)數(shù)據(jù)存儲(chǔ)及訪問,并提供數(shù)據(jù)的管理及檢索。
(4)
智能挖掘算法中心
建設(shè)和維護(hù)這些海量標(biāo)準(zhǔn)數(shù)據(jù)的最終目的是要利用這些數(shù)據(jù)、算法和模型決定大數(shù)據(jù)分析的核心。為了更好地實(shí)現(xiàn)數(shù)據(jù)價(jià)值,目前我們采用了在大數(shù)據(jù)行業(yè)有著較強(qiáng)技術(shù)實(shí)力,并在教育行業(yè)有著一定積累的算法及模型庫——InCenter-MA。
學(xué)校在InCenter-MA智能數(shù)據(jù)挖掘中,將整體的分析和計(jì)算的框架分為三個(gè)層次來設(shè)計(jì),數(shù)據(jù)層、算法模型層、使用層。
在數(shù)據(jù)層中,主要解決了數(shù)據(jù)的采集、調(diào)度、存儲(chǔ)等問題,采用了Hadoop框架搭建整體的計(jì)算、存儲(chǔ)框架,保證系統(tǒng)的高效計(jì)算及可靠存儲(chǔ)。采用分布式框架,可保證系統(tǒng)的橫向擴(kuò)展和持久運(yùn)行。Hadoop框架中特有的并行計(jì)算和調(diào)度能力,保證了整個(gè)平臺(tái)的實(shí)時(shí)計(jì)算和實(shí)時(shí)交付功能。
算法模型層主要功能在于積累了適合大數(shù)據(jù)不同功能及實(shí)現(xiàn)不同計(jì)算效果,匹配不同模型的算法庫。在整個(gè)大數(shù)據(jù)系統(tǒng)中,常見的功能算法有時(shí)序分析、主成分分析、關(guān)聯(lián)和推薦、深度機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、分類、聚類、回歸、特征工程、判別、信念網(wǎng)絡(luò)、圖計(jì)算等算法。
使用層主要針對(duì)前端業(yè)務(wù)應(yīng)用效果,開發(fā)對(duì)應(yīng)的開發(fā)和開放接口,對(duì)接響應(yīng)的模型算法,計(jì)算和呈現(xiàn)對(duì)應(yīng)的結(jié)果。提供機(jī)器學(xué)習(xí)算法庫,包含聚類分析、分類算法、頻度關(guān)聯(lián)分析和推薦系統(tǒng)在內(nèi)的常用機(jī)器學(xué)習(xí)算法。通過大數(shù)據(jù)平臺(tái)的深度挖掘和關(guān)聯(lián)分析,為全校師生員工及各部門、各學(xué)院提供數(shù)據(jù)服務(wù)及綜合數(shù)據(jù)分析服務(wù)。
圖6 智能算法挖掘系統(tǒng)
(5)
智能數(shù)據(jù)運(yùn)維中心
智能數(shù)據(jù)運(yùn)維中心主要功能在于對(duì)整體的大數(shù)據(jù)平臺(tái)管理及運(yùn)維,涵蓋了對(duì)平臺(tái)架構(gòu)、數(shù)據(jù)倉儲(chǔ)、權(quán)限控制等方面的功能,同時(shí)對(duì)建模分析控制、標(biāo)準(zhǔn)接口等方面進(jìn)行管理和控制。
(6)
智能數(shù)據(jù)安全中心
數(shù)據(jù)安全的重要性日益凸顯,一個(gè)擁有3萬師生的高校,存儲(chǔ)著海量信息的系統(tǒng),一旦發(fā)生數(shù)據(jù)泄露將造成不可挽回的后果。因此在整個(gè)大數(shù)據(jù)平臺(tái)的規(guī)劃階段,我們就設(shè)計(jì)了智能數(shù)據(jù)安全中心模塊。
除了進(jìn)行大數(shù)據(jù)分析平臺(tái)系統(tǒng)外部的網(wǎng)絡(luò)安全構(gòu)建,例如防火墻、堡壘機(jī)和統(tǒng)一身份認(rèn)證等,我們還在智能數(shù)據(jù)安全中心加入了Kerberos認(rèn)證機(jī)制,使得集群中的節(jié)點(diǎn)就是它們所宣稱的,是信賴的。
Kerberos將認(rèn)證的密鑰在集群部署時(shí)事先放到可靠的節(jié)點(diǎn)上。集群運(yùn)行時(shí),集群內(nèi)的節(jié)點(diǎn)使用密鑰得到認(rèn)證,只有被認(rèn)證過的節(jié)點(diǎn)才能正常使用。企圖冒充的節(jié)點(diǎn)由于沒有事先得到密鑰信息,無法與集群內(nèi)部的節(jié)點(diǎn)通信,防止了惡意使用或篡改集群的問題,確保了數(shù)據(jù)集群的可靠安全。
(7)
業(yè)務(wù)應(yīng)用
業(yè)務(wù)應(yīng)用是以現(xiàn)有標(biāo)準(zhǔn)數(shù)據(jù)為依據(jù),根據(jù)學(xué)工部門的需求利用智能算法開發(fā)出的大數(shù)據(jù)分析應(yīng)用工具。目前,已經(jīng)實(shí)現(xiàn)了學(xué)生畫像、綜合預(yù)警、行為軌跡、精準(zhǔn)無感知資助分析和精準(zhǔn)就業(yè)分析等功能,此外還可以提供定制的數(shù)據(jù)分析,為學(xué)工的日常管理和學(xué)校決策提供有力支撐。
應(yīng)用場景
1.學(xué)生畫像
平臺(tái)根據(jù)學(xué)生的特性和行為數(shù)據(jù)建立了標(biāo)簽,通過收集與分析學(xué)生基礎(chǔ)信息、生活習(xí)慣、消費(fèi)行為、學(xué)習(xí)行為等主要信息的數(shù)據(jù),完美地抽象出一個(gè)學(xué)生的行為全貌,準(zhǔn)確描述學(xué)生的特點(diǎn)。
通過該應(yīng)用我們已經(jīng)對(duì)學(xué)生精準(zhǔn)推送了各類學(xué)生活動(dòng)信息、考研資訊和分類就業(yè)信息等,提高了信息推送的精準(zhǔn)度,也減少了學(xué)生終端的信息負(fù)載。
2.綜合預(yù)警
大數(shù)據(jù)分析平臺(tái)通過將學(xué)生一卡通、Wi-Fi、有線網(wǎng)絡(luò)和教務(wù)等信息進(jìn)行數(shù)據(jù)關(guān)聯(lián)分析,建立了不同種類預(yù)警分析模型。
圖7 綜合預(yù)警應(yīng)用場景
3.危險(xiǎn)行為研判
學(xué)生危險(xiǎn)行為研判是高校學(xué)工部門最迫切應(yīng)用場景,決定了學(xué)校是否能在學(xué)生突發(fā)情況發(fā)生之前就提前介入。當(dāng)前的大數(shù)據(jù)分析平臺(tái)已經(jīng)在這方面展現(xiàn)出一定的優(yōu)勢,我們通過學(xué)生一卡通、門禁數(shù)據(jù)、Wi-Fi等數(shù)據(jù)框定了一個(gè)行為軌跡異常的動(dòng)態(tài)學(xué)生群體庫,定期排查他們的上網(wǎng)日志內(nèi)容是否具有潛在危害,并及時(shí)報(bào)送學(xué)工部門。
我們曾經(jīng)發(fā)現(xiàn)有學(xué)生在短期內(nèi)連續(xù)進(jìn)入校內(nèi)某高樓頂層,大數(shù)據(jù)分析顯示該生的社交關(guān)系單一,總是獨(dú)來獨(dú)往,且短期內(nèi)上網(wǎng)瀏覽的內(nèi)容非常消極,該信息及時(shí)通知學(xué)工部門并進(jìn)行干預(yù),避免了突發(fā)事件的發(fā)生。
4.精準(zhǔn)就業(yè)分析
平臺(tái)通過對(duì)大學(xué)生就業(yè)市場的實(shí)時(shí)監(jiān)測,對(duì)學(xué)生的就業(yè)環(huán)境進(jìn)行分析和就業(yè)方向統(tǒng)計(jì),并向低年級(jí)學(xué)生精準(zhǔn)推送實(shí)時(shí)市場需求動(dòng)態(tài),使其能夠形成參照,調(diào)整自身學(xué)習(xí)的方向。此外平臺(tái)還從多維度、多角度進(jìn)行往屆畢業(yè)生情況分析,可視化展示畢業(yè)數(shù)據(jù),為就業(yè)工作提供有力的依據(jù)和參考。
例如系統(tǒng)展示近三年各學(xué)院/專業(yè)畢業(yè)生就業(yè)趨勢分析,其中又細(xì)分為就業(yè)率趨勢分析,畢業(yè)生升學(xué)趨勢、畢業(yè)生性別趨勢、就業(yè)層次趨勢分析、就業(yè)區(qū)域分析、就業(yè)單位性質(zhì)趨勢、就業(yè)行業(yè)趨勢分析、就業(yè)崗位趨勢、回生源地趨勢等,對(duì)就業(yè)指導(dǎo)中心、各學(xué)院開展精準(zhǔn)就業(yè)指導(dǎo)提供了有力支撐。
南京林業(yè)大學(xué)的學(xué)工大數(shù)據(jù)分析平臺(tái)一期已經(jīng)建設(shè)完成,學(xué)生畫像、精準(zhǔn)資助、綜合預(yù)警、行為軌跡分析和精準(zhǔn)就業(yè)分析等多個(gè)應(yīng)用已經(jīng)上線,從反饋來看,得到了相關(guān)部門的認(rèn)可。后期隨著數(shù)據(jù)的進(jìn)一步積累和大數(shù)據(jù)分析工具的完善,信息中心將根據(jù)需求開發(fā)更具價(jià)值的應(yīng)用,助推學(xué)生成才和學(xué)校管理效率的提升。
作者:潘卿 顧煒江 竇立君(南京林業(yè)大學(xué))
聯(lián)系客服