本想早點完成這個時間序列的主題,但最近一直非常多的事情,又耽擱了這么長時間。朋友們問的問題沒有收尾總是不好,抓緊時間完成吧。
在我們增加了5個自變量后,采用預測建模方法,選擇專家建模器,但限制只在ARIMA模型中選擇。
確定后,得到分析結果,我們現(xiàn)在來看一下與原來的模型有什么不同。
從預測值看,比前一模型有了改進,至少這時候的模型捕捉了歷史數(shù)據(jù)中的下降峰值,這可以認為是當前比較適合的擬合值了。
如果我們觀察預測結果,可以發(fā)現(xiàn)模型選擇了兩個預測變量。注意:使用專家建模器時,只有在自變量與因變量之間具有統(tǒng)計顯著性關系時才會包括自變量。如果選擇ARIMA模型,“變量”選項卡上指定的所有自變量(預測變量)都包括在該模型中,這點與使用專家建模器相反;
當確定了最終選擇的預測模型和方法后,我們就可以預測未來了,當然你要指定預測未來的時間點,這里我們時間包括年、季度和月份;假定我們預測未來半年的銷售收入。
我們分別設定:預測值輸出,95%置信度的上下限。注意:SPSS中文環(huán)境有個小Bug,必須改一下名字!
在選項中,選擇你的預測時間,預測期將根據(jù)你事先定義的數(shù)據(jù)時間格式填寫。(后面的模型為了讓大家看清楚,實際上我預測了一年的數(shù)據(jù),也就是2010年的4個季度的12個月)。
自變量的選擇問題,在預測未來半年的銷售收入中,ARIMA模型可以把其它預測變量納入考慮,但如何確定未來這些預測變量的值呢?
主要方法可以考慮:1)選擇最末期數(shù)據(jù);2)選擇近三期數(shù)據(jù)的平均;3)選擇近三期的移動平均
這里我們選近三期移動平均作為預測自變量數(shù)值。
上面就是預測結果!于此同時,SPSS活動數(shù)據(jù)集中也存儲了預測值!
最后,我們要解決時間序列預測的檢驗和統(tǒng)計問題!說實在話,我比較關注偏好商業(yè)應用,就是看得見就做得到!從上面的分析,我們基本上就知道了哪種預測模型更好,也就不去較真只有專業(yè)統(tǒng)計學者才關心的統(tǒng)計和檢驗問題,把這些交給統(tǒng)計專家或學術研究吧?。ㄈ绻闶菍憣W術論文,就必須強調這一點了?。?br> 實際上我們可以通過軟件得到各種統(tǒng)計檢驗指標和統(tǒng)計檢驗圖表!
最后我們看一眼統(tǒng)計檢驗指標結果:
大家可以把我們前面做的結果進行相互比較,或許你能夠看出哪些指標更好,哪些指標該如何評測了!
我看出來了,比如:Sig值越大越好,平穩(wěn)得R方也是越大越好吧!
大家不要忘了,SPSS時間序列預測模塊還包含模型應用,也就是可以把預測模型轉存為XML模型文件,以后預測的時候就可以不用原始數(shù)據(jù)了!
我記得早期SPSS公司推出時間序列預測模型軟件DecisionTime & What-if,非常好用,而且還可以進行更為細致的分析,甚至結果輸出都是自動報告!
當然,我找機會用PASW Modeler 13操作一次上述時間序列預測建模過程,也就是數(shù)據(jù)挖掘工具中的時間序列預測方法,會更方便、更簡單、更好部署!
備注:PASW Modeler 13就是SPSS公司的Clementine 13.0版本!
博易智訊的馬博士說:SPSS公司已經(jīng)把SPSS軟件改名叫PASW Statistics,Clementine叫PASW Modeler。
因為,后天要參加中國電信集團的一個EDA論壇,要仔細準備發(fā)言稿!在交流的過程中,發(fā)現(xiàn)大家都對預測問題非常關注,尤其是數(shù)據(jù)挖掘領域,有時候分類問題與預測問題在表達上區(qū)分不開,有時候分類就是預測,比如通過判別分析、C5.0規(guī)則或Logistics回歸進行監(jiān)督類建模,得到的結論說該客戶是什么類別等級,似乎也可以說是預測;當然,如果能夠預測該消費者什么時候流失,也就是進行了分類;這樣說吧,其實有時候并不需要嚴格區(qū)分分類和預測,關鍵是時間點。從這也可以看出,預測問題內涵和外延是非常寬泛的,但研究者心中要有數(shù),這決定了你得到的結果該如何應用。
前面的博文提到,如果我們考慮時間序列預測包含有預測和干擾變量如何解決的問題。
從方法角度講,過去沒有統(tǒng)計分析軟件要完成預測可以說是困難的,現(xiàn)在有了軟件工具就方便多了。
從技術角度講:
- 預測模型如果能夠排除因為異常原因造成的時間點事件和時間段時間,就好了。例如某天停電沒有開業(yè),或者某一段時間比如發(fā)生甲型H1NI一周沒有營業(yè)收入,這些事件必須能夠告訴模型未來不會再發(fā)生了;
- 當然,我們也要把未來會重復發(fā)生的干擾因素納入模型,例如:我們學校某天要開運動會,小賣部的可樂銷量一定提高,或者我們學校7-8月份放暑假,銷量一定減少,像這樣的時間點和時間段事件未來會重復出現(xiàn),我們如果能夠告訴模型,那么預測會更準確。
- 當然如果我們建立的模型能夠預測未來,并能夠將未來可預見的事件,包括時間點和時間段干擾納入預測是非常好的事情啦!
- 甚至,我們應該能夠把預測模型中的,預測未來周期內的不可預見的時間點和時間段隨時干預預測結果,這就需要考慮如何將預測模型導入生產(chǎn)經(jīng)營分析系統(tǒng)了。
在我們增加了5個自變量后,采用預測建模方法,選擇專家建模器,但限制只在ARIMA模型中選擇。
確定后,得到分析結果,我們現(xiàn)在來看一下與原來的模型有什么不同。
從預測值看,比前一模型有了改進,至少這時候的模型捕捉了歷史數(shù)據(jù)中的下降峰值,這可以認為是當前比較適合的擬合值了。
如果我們觀察預測結果,可以發(fā)現(xiàn)模型選擇了兩個預測變量。注意:使用專家建模器時,只有在自變量與因變量之間具有統(tǒng)計顯著性關系時才會包括自變量。如果選擇ARIMA模型,“變量”選項卡上指定的所有自變量(預測變量)都包括在該模型中,這點與使用專家建模器相反;
當確定了最終選擇的預測模型和方法后,我們就可以預測未來了,當然你要指定預測未來的時間點,這里我們時間包括年、季度和月份;假定我們預測未來半年的銷售收入。
我們分別設定:預測值輸出,95%置信度的上下限。注意:SPSS中文環(huán)境有個小Bug,必須改一下名字!
在選項中,選擇你的預測時間,預測期將根據(jù)你事先定義的數(shù)據(jù)時間格式填寫。(后面的模型為了讓大家看清楚,實際上我預測了一年的數(shù)據(jù),也就是2010年的4個季度的12個月)。
自變量的選擇問題,在預測未來半年的銷售收入中,ARIMA模型可以把其它預測變量納入考慮,但如何確定未來這些預測變量的值呢?
主要方法可以考慮:1)選擇最末期數(shù)據(jù);2)選擇近三期數(shù)據(jù)的平均;3)選擇近三期的移動平均
這里我們選近三期移動平均作為預測自變量數(shù)值。
上面就是預測結果!于此同時,SPSS活動數(shù)據(jù)集中也存儲了預測值!
最后,我們要解決時間序列預測的檢驗和統(tǒng)計問題!說實在話,我比較關注偏好商業(yè)應用,就是看得見就做得到!從上面的分析,我們基本上就知道了哪種預測模型更好,也就不去較真只有專業(yè)統(tǒng)計學者才關心的統(tǒng)計和檢驗問題,把這些交給統(tǒng)計專家或學術研究吧?。ㄈ绻闶菍憣W術論文,就必須強調這一點了?。?br> 實際上我們可以通過軟件得到各種統(tǒng)計檢驗指標和統(tǒng)計檢驗圖表!
最后我們看一眼統(tǒng)計檢驗指標結果:
大家可以把我們前面做的結果進行相互比較,或許你能夠看出哪些指標更好,哪些指標該如何評測了!
我看出來了,比如:Sig值越大越好,平穩(wěn)得R方也是越大越好吧!
- Sig.列給出了 Ljung-Box 統(tǒng)計量的顯著性值,該檢驗是對模型中殘差錯誤的隨機檢驗;表示指定的模型是否正確。顯著性值小于0.05 表示殘差誤差不是隨機的,則意味著所觀測的序列中存在模型無法解釋的結構。
- 平穩(wěn)的R方:顯示固定的R平方值。此統(tǒng)計量是序列中由模型解釋的總變異所占比例的估計值。該值越高(最大值為 1.0),則模型擬合會越好。
檢查模型殘差的自相關函數(shù) (ACF) 和偏自相關函數(shù) (PACF) 的值比只查看擬合優(yōu)度統(tǒng)計量能更多地從量化角度來了解模型。合理指定的時間模型將捕獲所有非隨機的變異,其中包括季節(jié)性、趨勢、循環(huán)周期以及其他重要的因素。如果是這種情況,則任何誤差都不會隨著時間的推移與其自身相關聯(lián)(自關聯(lián))。這兩個自相關函數(shù)中的顯著結構都可以表明基礎模型不完整。
大家不要忘了,SPSS時間序列預測模塊還包含模型應用,也就是可以把預測模型轉存為XML模型文件,以后預測的時候就可以不用原始數(shù)據(jù)了!
我記得早期SPSS公司推出時間序列預測模型軟件DecisionTime & What-if,非常好用,而且還可以進行更為細致的分析,甚至結果輸出都是自動報告!
當然,我找機會用PASW Modeler 13操作一次上述時間序列預測建模過程,也就是數(shù)據(jù)挖掘工具中的時間序列預測方法,會更方便、更簡單、更好部署!
備注:PASW Modeler 13就是SPSS公司的Clementine 13.0版本!
博易智訊的馬博士說:SPSS公司已經(jīng)把SPSS軟件改名叫PASW Statistics,Clementine叫PASW Modeler。