from: http://lan2720.github.io/2016/07/16/%E8%A7%A3%E8%AF%BBtensorflow%E4%B9%8Brnn/
這兩天想搞清楚用tensorflow來實現(xiàn)rnn/lstm如何做,但是google了半天,發(fā)現(xiàn)tf在rnn方面的實現(xiàn)代碼或者教程都太少了,僅有的幾個教程講的又過于簡單。沒辦法,只能親自動手一步步研究官方給出的代碼了。
本文研究的代碼主體來自官方源碼ptb-word-lm。但是,如果你直接運行這個代碼,可以看到warning:
WARNING:tensorflow:: Using a concatenated state is slower and will soon be deprecated. Use state_is_tuple=True.
于是根據(jù)這個warning,找到了一個相關的issue:https://github.com/tensorflow/tensorflow/issues/2695
回答中有人給出了對應的修改,加入了state_is_tuple=True
,筆者就是基于這段代碼學習的。
tf的代碼看多了之后就知道其實官方代碼的這個結(jié)構(gòu)并不好:
恰好看到了一篇專門講如何構(gòu)建tensorflow模型代碼的blog,值得學習,來重構(gòu)自己的代碼吧。
雖說官方給出的代碼結(jié)構(gòu)上有點小缺陷,但是畢竟都是大神們寫出來的,值得我們學習的地方很多,來總結(jié)一下:
(1) 設置is_training這個標志
這個很有必要,因為training階段和valid/test階段參數(shù)設置上會有小小的區(qū)別,比如test時不進行dropout
(2) 將必要的各類參數(shù)都寫在config類中獨立管理
這個的好處就是各類參數(shù)的配置工作和model類解耦了,不需要將大量的參數(shù)設置寫在model中,那樣可讀性不僅差,還不容易看清究竟設置了哪些超參數(shù)
兩個,分別命名為self._input_data和self._target,只是注意一下,由于我們現(xiàn)在要訓練的模型是language model,也就是給一個word,預測最有可能的下一個word,因此可以看出來,input和output是同型的。并且,placeholder只存儲一個batch的data,input接收的是個word在vocabulary中對應的index【后續(xù)會將index轉(zhuǎn)成dense embedding】,每次接收一個seq長度的words,那么,input shape=[batch_size, num_steps]
這其中的每個小長方形就表示一個cell。每個cell中又是一個略復雜的結(jié)構(gòu),如下圖:
圖中的context就是一個cell結(jié)構(gòu),可以看到它接受的輸入有input(t),context(t-1),然后輸出output(t),比如像我們這個任務中,用到多層堆疊的rnn cell的話,也就是當前層的cell的output還要作為下一層cell的輸入,因此可推出每個cell的輸入和輸出的shape是一樣。如果輸入的shape=(None, n),加上context(t-1)同時作為輸入部分,因此可以知道
的shape=(2n, n)。
說了這么多,其實我只是想表達一個重點,就是
別小看那一個小小的cell,它并不是只有1個neuron unit,而是n個hidden units
因此,我們注意到tensorflow中定義一個cell(BasicRNNCell/BasicLSTMCell/GRUCell/RNNCell/LSTMCell)結(jié)構(gòu)的時候需要提供的一個參數(shù)就是hidden_units_size。
弄明白這個之后,再看tensorflow中定義cell的代碼就無比簡單了:
12345 | lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(size, forget_bias=0.0, state_is_tuple=True)if is_training and config.keep_prob < 1: lstm_cell = tf.nn.rnn_cell.DropoutWrapper( lstm_cell, output_keep_prob=config.keep_prob)cell = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * config.num_layers, state_is_tuple=True) |
首先,定義一個最小的cell單元,也就是小長方形,BasicLSTMCell。
你肯定會問,這個類和LSTMCell有什么區(qū)別呢?good question,文檔給出的解釋是這樣的:
劃一下重點就是倒數(shù)第二句話,意思是說這個類沒有實現(xiàn)clipping,projection layer,peep-hole等一些lstm的高級變種,僅作為一個基本的basicline結(jié)構(gòu)存在,如果要使用這些高級variant要用LSTMCell這個類。
因為我們現(xiàn)在只是想搭建一個基本的lstm-language model模型,能夠訓練出一定的結(jié)果就行了,因此現(xiàn)階段BasicLSTMCell夠用。這就是為什么這里用的是BasicLSTMCell這個類而不是別的什么。
(此圖偷自recurrent neural network regularization)
可以看到,每個lstm cell在t時刻都會產(chǎn)生兩個內(nèi)部狀態(tài)
,都是在t-1時刻計算要用到的。這兩個狀態(tài)在tensorflow中都要記錄,記住這個就好理解了。
來看官方對這個的解釋:
意思是說,如果state_is_tuple=True,那么上面我們講到的狀態(tài)
就是分開記錄,放在一個tuple中,如果這個參數(shù)沒有設定或設置成False,兩個狀態(tài)就按列連接起來,成為[batch, 2n](n是hidden units個數(shù))返回。官方說這種形式馬上就要被deprecated了,所有我們在使用LSTM的時候要加上state_is_tuple=True
暫時還沒管這個參數(shù)的含義
dropout是一種非常efficient的regularization方法,在rnn中如何使用dropout和cnn不同,推薦大家去把recurrent neural network regularization看一遍。我在這里僅講結(jié)論,
對于rnn的部分不進行dropout,也就是說從t-1時候的狀態(tài)傳遞到t時刻進行計算時,這個中間不進行memory的dropout;僅在同一個t時刻中,多層cell之間傳遞信息的時候進行dropout
上圖中,
時候的第一層cell向同一時刻內(nèi)后續(xù)的cell傳遞時,這之間又有dropout了。
因此,我們在代碼中定義完cell之后,在cell外部包裹上dropout,這個類叫DropoutWrapper,這樣我們的cell就有了dropout功能!
可以從官方文檔中看到,它有input_keep_prob和output_keep_prob,也就是說裹上這個DropoutWrapper之后,如果我希望是input傳入這個cell時dropout掉一部分input信息的話,就設置input_keep_prob,那么傳入到cell的就是部分input;如果我希望這個cell的output只部分作為下一層cell的input的話,就定義output_keep_prob。不要太方便。
根據(jù)Zaremba在paper中的描述,這里應該給cell設置output_keep_prob。
123 | if is_training and config.keep_prob < 1: lstm_cell = tf.nn.rnn_cell.DropoutWrapper( lstm_cell, output_keep_prob=config.keep_prob) |
現(xiàn)在我們定義了一個lstm cell,這個cell僅是整個圖中的一個小長方形,我們希望整個網(wǎng)絡能更deep的話,應該stack多個這樣的lstm cell,tensorflow給我們提供了MultiRNNCell(注意:multi只有這一個類,并沒有MultiLSTMCell之類的),因此堆疊多層只生成這個類即可。
1 | cell = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * config.num_layers, state_is_tuple=True) |
我們還是看看官方文檔,
我們可以從描述中看出,tensorflow并不是簡單的堆疊了多個single cell,而是將這些cell stack之后當成了一個完整的獨立的cell,每個小cell的中間狀態(tài)還是保存下來了,按n_tuple存儲,但是輸出output只用最后那個cell的輸出。
這樣,我們就定義好了每個t時刻的整體cell,接下來只要每個時刻傳入不同的輸入,再在時間上展開,就能得到上圖多個時間上unroll graph。
接下來就需要給我們的multi lstm cell進行狀態(tài)初始化。怎么做呢?Zaremba已經(jīng)告訴我們了
We initialize the hidden states to zero. We then use the
final hidden states of the current minibatch as the initial hidden state of the subsequent minibatch
(successive minibatches sequentially traverse the training set).
也就是初始時全部賦值為0狀態(tài)。
那么就需要有一個self._initial_state
來保存我們生成的全0狀態(tài),最后直接調(diào)用MultiRNNCell的zero_state()方法即可。
1 | self._initial_state = cell.zero_state(batch_size, tf.float32) |
注意:這里傳入的是batch_size,我一開始沒看懂為什么,那就看文檔的解釋吧!
state_size是我們在定義MultiRNNCell的時就設置好了的,只是我們的輸入input shape=[batch_size, num_steps],我們剛剛定義好的cell會依次接收num_steps個輸入然后產(chǎn)生最后的state(n-tuple,n表示堆疊的層數(shù))但是一個batch內(nèi)有batch_size這樣的seq,因此就需要[batch_size,s]來存儲整個batch每個seq的狀態(tài)。
我們預處理了數(shù)據(jù)之后得到的是一個二維array,每個位置的元素表示這個word在vocabulary中的index。
但是傳入graph的數(shù)據(jù)不能講word用index來表示,這樣詞和詞之間的關系就沒法刻畫了。我們需要將word用dense vector表示,這也就是廣為人知的word embedding。
paper中并沒有使用預訓練的word embedding,所有的embedding都是隨機初始化,然后在訓練過程中不斷更新embedding矩陣的值。
123 | with tf.device("/cpu:0"): embedding = tf.get_variable("embedding", [vocab_size, size]) inputs = tf.nn.embedding_lookup(embedding, self._input_data) |
首先要明確幾點:
trainable=True
(default)最后生成真正的inputs節(jié)點,也就是從embedding_lookup之后得到的結(jié)果,這個tensor的shape=batch_size, num_stemps, size
剛才我們定義了每個cell的輸出要wrap一個dropout,但是根據(jù)paper中講到的,
to predictWe can see that the information is corrupted by the dropout operator exactly L + 1 times
We use the activations
hLt
is the number of layers
in our deep LSTM.
cell的層數(shù)一共定義了L層,為什么dropout要進行L+1次呢?就是因為輸入這個地方要進行1次dropout。比如,我們設置cell的hidden units size=200的話,input embbeding dim=200維度較高,dropout一部分,防止overfitting。
12 | if is_training and config.keep_prob < 1: inputs = tf.nn.dropout(inputs, config.keep_prob) |
和上面的DropoutWrapper一樣,都是在is_training and config.keep_prob < 1的條件下才進行dropout。
由于這個僅對tensor進行dropout(而非rnn_cell進行wrap),因此調(diào)用的是tf.nn.dropout。
到上面這一步,我們的基本單元multi cell和inputs算是全部準備好啦,接下來就是在time上進行recurrent,得到num_steps每一時刻的output和states。
那么很自然的我們可以猜測output的shape=[batch_size, num_steps, size],states的shape=[batch_size, n(LSTMStateTuple)]【state是整個seq輸入完之后得到的每層的state
1234567 | outputs = []state = self._initial_statewith tf.variable_scope("RNN"): for time_step in range(num_steps): if time_step > 0: tf.get_variable_scope().reuse_variables() (cell_output, state) = cell(inputs[:, time_step, :], state) outputs.append(cell_output) |
可以看到,有四個函數(shù)可以用來構(gòu)建rnn,我們一個個的講。
(1) dynamic rnn
這個方法給rnn()很類似,只是它的inputs不是list of tensors,而是一整個tensor,num_steps是inputs的一個維度。這個方法的輸出是一個pair,
由于我們preprocessing之后得到的input shape=[batch_size, num_steps, size]因此,time_major=False。
最后的到的這個pair的shape正如我們猜測的輸出是一樣的。
sequence_length: (optional) An int32/int64 vector sized [batch_size].表示的是batch中每行sequence的長度。
調(diào)用方法是:
1 | outputs, state = tf.nn.dynamic_rnn(cell, inputs, sequence_length=..., initial_state=state) |
state是final state,如果有n layer,則是final state也有n個元素,對應每一層的state。
(2)tf.nn.rnn
這個函數(shù)和dynamic_rnn的區(qū)別就在于,這個需要的inputs是a list of tensor,這個list的長度是num_steps,也就是將每一個時刻的輸入切分出來了,tensor的shape=[batch_size, input_size]【這里的input每一個都是word embedding,因此input_size=hidden_units_size】
除了輸出inputs是list之外,輸出稍有差別。
可以看到,輸出也是一個長度為T(num_steps)的list,每一個output對應一個t時刻的input(batch_size, hidden_units_size),output shape=[batch_size, hidden_units_size]
(3)state_saving_rnn
這個方法可以接收一個state saver對象,這是和以上兩個方法不同之處,另外其inputs和outputs也都是list of tensors。
(4)bidirectional_rnn
等研究bi-rnn網(wǎng)絡的時候再講。
以上介紹了四種rnn的構(gòu)建方式,這里選擇dynamic_rnn
.因為inputs中的第2個維度已經(jīng)是num_steps了。
既然我們用的是dynamic_rnn,那么outputs shape=[batch_size, num_steps, size],而接下來需要將output傳入到softmax層,softmax層并沒有顯式地使用tf.nn.softmax函數(shù),而是只是計算了wx+b得到logits(實際上是一樣的,softmax函數(shù)僅僅只是將logits再rescale到0-1之間)
得到logits后,用到了nn.seq2seq.sequence_loss_by_example函數(shù)來計算“所謂的softmax層”的loss。這個loss是整個batch上累加的loss,需要除上batch_size,得到平均下來的loss,也就是self._cost。
123456 | loss = tf.nn.seq2seq.sequence_loss_by_example( [logits], [tf.reshape(self._targets, [-1])], [tf.ones([batch_size * num_steps])])self._cost = cost = tf.reduce_sum(loss) / batch_sizeself._final_state = state |
如果is_training=False,也就是僅valid or test的話,計算出loss這一步也就終止了。之所以要求導,就是train的過程。所以這個地方對is_training
進行一個判斷。
12 | if not is_training: return |
如果想在訓練過程中調(diào)節(jié)learning rate的話,生成一個lr的variable,但是trainable=False,也就是不進行求導。
1 | self._lr = tf.Variable(0.0, trainable=False) |
gradient在backpropagate過程中,很容易出現(xiàn)vanish&explode現(xiàn)象,尤其是rnn這種back很多個time step的結(jié)構(gòu)。
因此都要使用clip來對gradient值進行調(diào)節(jié)。
既然要調(diào)節(jié)了就不能簡單的調(diào)用optimizer.minimize(loss)
,而是需要顯式的計算gradients,然后進行clip,將clip后的gradient進行apply。
官方文檔說明了這種操作:
并給出了一個例子:
123456789101112 | # Create an optimizer.opt = GradientDescentOptimizer(learning_rate=0.1)# Compute the gradients for a list of variables.grads_and_vars = opt.compute_gradients(loss, <list of variables>)# grads_and_vars is a list of tuples (gradient, variable). Do whatever you# need to the 'gradient' part, for example cap them, etc.capped_grads_and_vars = [(MyCapper(gv[0]), gv[1]) for gv in grads_and_vars]# Ask the optimizer to apply the capped gradients.opt.apply_gradients(capped_grads_and_vars) |
模仿這個代碼,我們可以寫出如下的偽代碼:
12345678 | optimizer = tf.train.AdamOptimizer(learning_rate=self._lr)# gradients: return A list of sum(dy/dx) for each x in xs.grads = optimizer.gradients(self._cost, <list of variables>)clipped_grads = tf.clip_by_global_norm(grads, config.max_grad_norm)# accept: List of (gradient, variable) pairs, so zip() is neededself._train_op = optimizer.apply_gradients(zip(grads, <list of variables>)) |
可以看到,此時就差一個<list of variables>不知道了,也就是需要對哪些variables進行求導。
答案是:trainable variables
因此,我們得到
1 | tvars = tf.trainable_variables() |
用tvars帶入上面的代碼中即可。
使用tf.assign(ref, value)
函數(shù)。ref應該是個variable node,這個assign是個operation,因此需要在sess.run()中進行才能生效。這樣之后再調(diào)用ref的值就發(fā)現(xiàn)改變成新值了。
在這個模型中用于改變learning rate這個variable的值。
12 | def assign_lr(self, session, lr_value): session.run(tf.assign(self.lr, lr_value)) |
比如定義了一個tensor x,x.eval(feed_dict={xxx})
就可以得到x的值,而不用sess.run(x, feed_dict={xxx})。返回值是一個numpy array。
1234567 | state = m.initial_state.eval()for step, (x, y) in enumerate(reader.ptb_iterator(data, m.batch_size, m.num_steps)):cost, state, _ = session.run([m.cost, m.final_state, eval_op], {m.input_data: x, m.targets: y, m.initial_state: state}) |
為什么feed_dict中還需要傳入initial_statel?
聯(lián)系客服