28.04.2020 Views

Sách Deep Learning cơ bản

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

15.2 Mô hình bài toán RNN 203

15.2.3 Backpropagation Through Time (BPTT)

Hình 15.5: Loss function

Có 3 tham số ta cần phải tìm là W, U, V. Để thực hiện gradient descent, ta cần tính: ∂L

∂U , ∂L

∂V , ∂L

∂W .

Tính đạo hàm với V thì khá đơn giản:

∂L

∂V = ∂L

∂ŷ ∗ ∂ŷ

∂V

Tuy nhiên với U, W thì lại khác.

∂L

∂W = ∂L

∂ŷ ∗ ∂ŷ ∗ ∂s 30

∂s 30 ∂W

Do s 30 = f (W ∗ s 29 +V ∗ s 30 ) có s 29 phụ thuộc vào W. Nên áp dụng công thức hồi cấp 3 bạn

học: ( f (x) ∗ g(x)) ′ = f ′ (x) ∗ g(x) + f (x) ∗ g ′ (x). Ta có

∂s 30

∂W = ∂s′ 30

∂W + ∂s 30

∗ ∂s 29

∂s 29 ∂W , trong đó ∂s′ 30

∂W là đạo hàm của s 30 với W khi coi s 29 là constant

với W.

Tương tự trong biểu thức s 29 có s 28 phụ thuộc vào W, s 28 có s 27 phụ thuộc vào W ... nên áp

dụng công thức trên và chain rule:

30

∂L

∂W = ∂L

i=0

∂ŷ ∗ ∂ŷ ∗ ∂s 30

∗ ∂s′ i

∂s 30 ∂s i ∂W , trong đó ∂s 30

=

∂s i

W khi coi s i−1 là constant với W.

29

j=i

∂s j+1

∂s j

và ∂s′ i

∂W là đạo hàm của s i với

Nhìn vào công thức tính đạo hàm của L với W ở trên ta có thể thấy hiện tượng vanishing gradient ở

các state đầu nên ta cần mô hình tốt hơn để giảm hiện tượng vaninshing gradient => Long short

term memory (LSTM) ra đời và sẽ được giới thiệu ở bài sau. Vì trong bài toán thực tế liên quan đến

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!