來源 | 廣發(fā)金融工程研究(微信號:gfquant)
摘要
西蒙斯是被量化圈所廣為追捧的量化之神,旗下的大獎?wù)禄饎?chuàng)造了無數(shù)神話。成立初期的創(chuàng)始人中,有一位科學家發(fā)明了廣泛應(yīng)用在語音識別等領(lǐng)域的鮑姆-威爾士算法。隱馬爾可夫模型(HMM)已經(jīng)被成功應(yīng)用在工程領(lǐng)域,并取得了具有科學意義和應(yīng)用價值的重要成果。
本文將西蒙斯大獎?wù)禄鸬睦?隱馬爾可夫模型應(yīng)用到我國股市的預(yù)測中,通過對股票數(shù)據(jù)序列的模式識別來對大盤走勢進行預(yù)測。
一、前言:從大獎?wù)轮v起
西蒙斯是被量化圈所廣為追捧的量化之神,在全球金融危機的08年,大部分對沖基金都虧損背景下,其收益高達80%。
西蒙斯創(chuàng)辦的文藝復(fù)興科技公司擁有一群物理學家和數(shù)學家,這群人聚在一起到底搞出了什么賺錢利器?一直是外界所猜測。眾說紛紜,而其中隱馬爾科夫模型也由于一些原因被推舉出來。
本文將隱馬爾可夫模型應(yīng)用到我國股市的預(yù)測中,通過對股票數(shù)據(jù)序列的模式識別來對大盤走勢進行預(yù)測。
二、HMM范例及原理
先簡單回顧一下馬爾科夫鏈。馬爾可夫鏈,是指數(shù)學中具有馬爾可夫性質(zhì)的離散事件隨機過程。馬爾科夫性用數(shù)學公式表示如下:
馬爾科夫經(jīng)典范例:
根據(jù)當前天氣的情況來預(yù)測未來天氣情況。一種辦法就是假設(shè)每天的天氣狀態(tài)都只依賴于前一天的狀態(tài)。 以下展示了天氣預(yù)測的馬爾科夫模型狀態(tài)轉(zhuǎn)移圖:
假設(shè)天氣預(yù)測模型的狀態(tài)轉(zhuǎn)移矩陣如下:
這個矩陣表示,如果昨天是陰天,那么今天有25%的可能是晴天,12.5%的概率是陰天,62.5%的概率會下雨,很明顯,矩陣中每一行的和都是1。
為了初始化這樣一個系統(tǒng),我們需要一個初始的概率向量:
這個向量表示第一天是晴天。到這里,我們就為上面的一階馬爾科夫過程定義了以下三個部分:
狀態(tài):晴天、陰天和下雨。
初始向量:定義系統(tǒng)在時間為0的時候的狀態(tài)的概率。
狀態(tài)轉(zhuǎn)移矩陣:每種天氣轉(zhuǎn)換的概率。所有的能被這樣描述的系統(tǒng)都是一個馬爾科夫過程。
然而在某些情況下,馬爾科夫過程不足以描述我們希望發(fā)現(xiàn)的模式?;谟^測序列及隱含變量建立HMM模型,在模式識別上有一定優(yōu)勢。
HMM(隱馬爾科夫)經(jīng)典范例:
假設(shè)有3個不同的骰子。骰子1有6個面,稱為D6,每個面對應(yīng)數(shù)字出現(xiàn)的概率是1/6;骰子2有4個面,稱為D4,每個面對應(yīng)數(shù)字出現(xiàn)的概率是1/4;骰子3有8個面,稱為D8,每個面對應(yīng)數(shù)字出現(xiàn)的概率是1/8。
現(xiàn)在擲骰子10次,并假設(shè)得到這么一串數(shù)字:1 6 3 5 2 7 3 5 2 4,這串數(shù)字叫做觀測序列。但是在隱馬爾可夫模型中,我們不僅僅有這么一串可見狀態(tài)鏈,還有一串隱含狀態(tài)鏈。在這個例子里,這串隱含狀態(tài)鏈就是你用的骰子的序列。比如,隱含狀態(tài)鏈有可能是:D4 D6 D8 D6 D4 D8 D6 D6 D6 D4。
一般來說,HMM中說到的馬爾可夫鏈其實是指隱含狀態(tài)鏈,因為隱含狀態(tài)(骰子)之間存在轉(zhuǎn)換概率。
在我們這個例子里,D6的下一個狀態(tài)是D4,D6,D8的概率都是1/3。D4,D8的下一個狀態(tài)是D4,D6,D8的轉(zhuǎn)換概率也都一樣是1/3。這樣設(shè)定是為了最開始容易說清楚,但是我們其實是可以隨意設(shè)定轉(zhuǎn)換概率的。比如,我們可以這樣定義,D6后面不能接D4,D6后面是D6的概率是0.9,是D8的概率是0.1。這樣就是一個新的HMM。
可見狀態(tài)之間沒有轉(zhuǎn)換概率,但是隱含狀態(tài)和可見狀態(tài)之間有一個概率叫做輸出概率。就我們的例子來說,六面骰子(D6)得到每個數(shù)字的輸出概率都是1/6(假設(shè)骰子沒被動過手腳)。
在上面的這些情況下,可以觀察到的狀態(tài)序列和隱藏的狀態(tài)序列是概率相關(guān)的。于是我們可以將這種類型的過程建模為有一個隱藏的馬爾科夫過程和一個與這個隱藏馬爾科夫過程概率相關(guān)的并且可以觀察到的狀態(tài)集合,就是隱馬爾可夫模型(Hidden Markov Model),簡稱HMM。
HMM的三個問題及算法:
對于股市我們也常常面臨以下的問題:我們希望基于能觀測到的有限的信息(股價、成交量及波動率)來預(yù)測我們所無法得知的股價背后驅(qū)動因素,乃至預(yù)測股價的漲跌原理,這個預(yù)測的建模過程與HMM不乏有許多相似之處。
HMM模型的構(gòu)建,重點在于分別解決三種問題:
問題1:知道骰子有幾種(隱含狀態(tài)數(shù)量),每種骰子是什么(轉(zhuǎn)換概率),根據(jù)擲骰子擲出的結(jié)果(可見狀態(tài)鏈),我想知道每次擲出來的都是哪種骰子(隱含狀態(tài)鏈)。
問題2:知道骰子有幾種(隱含狀態(tài)數(shù)量),每種骰子是什么(轉(zhuǎn)換概率),根據(jù)擲骰子擲出的結(jié)果(可見狀態(tài)鏈),我想知道擲出這個結(jié)果的概率。
問題3:知道骰子有幾種(隱含狀態(tài)數(shù)量),不知道每種骰子是什么(轉(zhuǎn)換概率),觀測到很多次擲骰子的結(jié)果(可見狀態(tài)鏈),我想反推出每種骰子是什么(轉(zhuǎn)換概率)。
三、HMM在股市預(yù)測中的應(yīng)用
HMM在語音識別中的應(yīng)用流程:
(1)首先,從輸入的語音中提取相應(yīng)的數(shù)字特征序列,并對模型進行訓練,得到局部最優(yōu)參數(shù)估計。HMM語音識別模型訓練過程如下圖:
(2)其次,輸入需要進行識別的語音,通過提取相應(yīng)的數(shù)字特征序列,再運用向前-向后算法對各類模型進行似然估計,得到最大概率的模型輸出,從而實現(xiàn)識別功能。HMM模型語音識別過程如下圖:
基于HMM模式識別模型的股市走勢預(yù)測:
(1)首先,按照事先分類,選取歷史上屬于同類走勢的日期以及該日期之前若干個星期的股票數(shù)據(jù),提取股票數(shù)據(jù)中某些特征指標(成交價格,成交量,等等)形成相應(yīng)的序列作為模型的輸入,并應(yīng)用Baum-Welch算法對各類模型進行訓練,訓練過程如下圖:
(2)其次, 根據(jù)訓練好的HMM模型,選取若干個星期的股票特征指標(成交價格,成交量,等等)序列作為輸入,應(yīng)用向前-向后算法計算各個模型發(fā)生的概率,選取最大概率對應(yīng)的模型,從而得到下一階段股票走勢的識別結(jié)果。識別過程如下圖:
四、HMM策略實證結(jié)果
4.1、策略說明
擇時指數(shù):滬深300指數(shù);
我們分別基于大盤的漲跌幅、換手率、成交金額以及每日的主動買賣盤金額等數(shù)據(jù)構(gòu)造不同的觀測序列變量如下:
X1:股票日收益率;
X2:資金日凈流入占當日所有流動資金的比例;
X3:日總流動資金環(huán)比;
X4:標準化資金流,即:(日總流動資金-過去一年平均流動資金/過去一年流動資金波動率。
X5:換手率日環(huán)比;
X6:成交金額日環(huán)比;
X7:標準化成交金額日。
從中選擇不同的變量構(gòu)造觀測變量組合,并根據(jù)標的指數(shù)周漲跌情況將所有樣本劃分為兩類(分別對應(yīng)漲、跌),分別運用觀測變量組合訓練不同的HMM模型。
4.2、基于HMM的指數(shù)擇時原理
基于不同類型(分漲、跌兩類)樣本數(shù)據(jù)分別訓練得到對應(yīng)的模型:HMM1和HMM2,根據(jù)最新觀測變量輸入之后的概率高低作為下周大盤漲跌的判斷依據(jù),對指數(shù)進行多空操作。此外,為了避免模型連續(xù)預(yù)測錯誤導致的策略較大虧損,我們加入了信號止損機制:當最近一次信號開倉起來,策略累計虧損達到某個閥值(如5%),則對當前倉位進行平倉,直到下一次出現(xiàn)相反信號再重新開倉
4.3、策略表現(xiàn)
(1)不考慮做空
若當信號為空時,指數(shù)空倉,不考慮做空,則在2007年07月20至2016年9月9日共450周間,共發(fā)出了62次買入信號和61次賣出信號,信號止損信號8次。平均每3.8周一次買賣信號。其中,預(yù)測結(jié)果準確為250周,準確率為56 %,策略累計收益率為183%,年化21.1%。
(2)考慮做空
若當信號為空時,指數(shù)開空倉,則在2007年07月20日至2016年9月9日共450周間,共發(fā)出了62次買入信號和61次賣出信號,信號止損信號16次,由于止損而空倉31周。平均每3.8周一次買賣信號。其中,預(yù)測結(jié)果準確為250周,準確率為56 %,策略累計收益率為899%,年化103.9%。
五、總結(jié)
5.1、研究意義和創(chuàng)新點
本報告首次提出將HMM模式識別模型引入到股票價格波動預(yù)測問題中,通過解決HMM模型中的學習問題和識別問題,建立了一個基于股票日收益率以及日資金流等變量的對股票指數(shù)擇時模型,經(jīng)實證檢驗,無論是預(yù)測準確率和擇時策略收益,該模型都取得了比較不錯的效果,具有相當?shù)睦碚摵同F(xiàn)實意義。
由于HMM模型的相關(guān)算法相當成熟,且具有效率高,效果好以及易于通過已有的數(shù)據(jù)進行模型訓練等特點,因此選用HMM模型進行股票波動模式識別不僅是一個較大的創(chuàng)新,更是一個值得探討的選擇。
5.2、模型的不足
(1)模型的預(yù)測準確率有待進一步提高;
(2)輸入向量的選擇是HMM模型的關(guān)鍵,本文僅針對股價、換手率以及資金流等構(gòu)造輸入變量,所能提取的股市信息存在局限。
版權(quán)聲明:部分文章推送時未能與原作者取得聯(lián)系。若涉及版權(quán)問題,敬請原作者聯(lián)系我們。聯(lián)系方式:010-65983413。
聯(lián)系客服