28.04.2020 Views

Sách Deep Learning cơ bản

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

12.5 Activation function 171

Hình 12.6: Mô hình neural network 2-3-3-1

Hình 12.7: Quá trình backpropagation

Ta có:

∂J ∂J

∂A (2) ˆ = (

∂Ŷ ⊗ ∂A(3)

∂Z (3) ) ∗ (W (3) ) T ∂J ∂J ∂A(2)

∂A (1) ˆ = ( ⊗

∂A (2) ∂Z (2) ) ∗ (W (2) ) T

Do đó

∂J ∂J

∂A (1) ˆ = (((

∂Ŷ ⊗ ∂A(3)

∂Z (3) ) ∗ (W (3) ) T ) ⊗ ∂A(2)

∂Z (2) ) ∗ (W (2) ) T

Ta tạm kí hiệu đạo hàm của biến qua hàm activation ∂A(i)

∂Z

∂J ∂J

Có thể tạm hiểu là:

∂A (1) ˆ =

∂Ŷ ∗ D(3) ∗ D (2) ∗W (3) ∗W (2)

n

∂J ∂J

Nếu neural network có n layer thì

∂A ˆ =

(l) ∂Ŷ ∗ ∏ D (i) ∗

i=l+1

(i)

= D(i)

n

i=l+1

W (i) . (1)

Nhận xét:

• Nếu các hệ số W và D đều nhỏ hơn 1 thì khi tính gradient ở các layer đầu ta sẽ phải nhân tích

của rất nhiều số nhỏ hơn 1 nên giá trị sẽ tiến dần về 0 và bước cập nhật hệ số trong gradient

descent trở nên vô nghĩa và các hệ số neural network sẽ không học được nữa. => Vanishing

gradient

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!