Sách Deep Learning cơ bản

Recommendations

Info

164 Chương 12. Các kỹ thuật cơ bản trong deep learningstart = time.time()c = 0for i in range(len(a)):c += a[i] * b[i]end = time.time()print("For-loop time : ", end-start)Bạn sẽ thấy nếu dùng for-loop mất hơn 4s để nhân 2 vector trong khi dùng thư viện numpy để tínhchỉ mất 0.01s. Tại sao lại như thế nhỉ?Giả sử bạn có 10 tấn hàng cần vận chuyển từ A đến B và bạn có một xe tải với khả năng chở được 5tấn mỗi lần. Vậy nếu chất đầy hàng mỗi lần chở thì chỉ cần 2 lần chạy là chuyển hết số hàng. Tuynhiên nếu mỗi lần bạn chỉ chất 1 tấn hàng lên xe để chở đi thì xe cần đi tới 10 lần để chuyển hết sốhàng.Tương tự như vậy, khi nhân 2 vector ở trên bạn cần thực hiện 10000000 phép tính nhân 2 số.Giả sử máy tính có thể tính được tối đa 1000 phép tính nhân một lúc. Việc bạn dùng for-loop giốngnhư mỗi thời điểm bạn chỉ yêu cầu máy tính thực hiện một phép nhân, nên để nhân 2 vector sẽ cần10000000 đơn vị thời gian. Tuy nhiên thư viện numpy sẽ tối ưu việc tính toán bằng cách yêu cầumáy tính thực hiện 1000 phép tính một lúc, tức là chỉ cần 10000000 = 10000 đơn vị thời gian để1000hoàn thành phép nhân 2 vector. Vậy nên là việc vectorization thông thường sẽ tính toán nhanh hơn.12.2 Mini-batch gradient descent12.2.1 Mini-batch gradient descent là gìỞ trong thuật toán gradient descent, tại bước thứ hai khi ta tính đạo hàm của loss function với cácbiến. Trong bài linear regression, ta dùng tất cả các dữ liệu trong dataset để tính đạo hàm rồi cậpnhật bước 2:Thuật toán gradient descent chạy tốt nhưng số lượng dữ liệu trong training set chỉ là 30. Tuy nhiênnếu dữ liệu có kích thước lớn như ảnh và số lượng lớn hơn ví dụ 5000 thì việc tính đạo hàm với lossfunction với toàn bộ dữ liệu sẽ rất tốn thời gian. Và mini-batch gradient descent ra đời để giải quyếtvấn đề đấy.Dựa vào số lượng dữ liệu cho mỗi lần thực hiện bước 2 trong gradient descent là người ta chia ralàm 3 loại:
12.2 Mini-batch gradient descent 165• Batch gradient descent: Dùng tất cả dữ liệu trong training set cho mỗi lần thực hiện bước tínhđạo hàm.• Mini-batch gradient descent: Dùng một phần dữ liệu trong training set cho mỗi lần thực hiệnbước tính đạo hàm.• Stochastic gradient descent: Chỉ dùng một dữ liệu trong training set cho mỗi lần thực hiệnbước tính đạo hàm.Ví dụ điểm thi đại học trung bình của một trường trung học phổ thông là 24 điểm. Batch gradientdescent giống như tính điểm trung bình tất cả học sinh thi đại học năm nay của trường, con số sẽtương đối gần 24, ví dụ 24,5. Mini-batch sẽ chọn ngẫu nhiên một số học sinh, ví dụ 32 học sinh đểtính điểm trung bình thì điểm trung bình sẽ xa 24 hơn ví dụ 22. Tuy nhiên, Stochastic giống như chỉchọn một học sinh làm điểm trung bình, thì lúc này điểm trung bình có thể khác xa con số 24 rấtnhiều, ví dụ 18 hoặc 29. Việc điểm trung bình ở mini-batch hay stochastic khác so với điểm trungbình toàn trường gọi là nhiễu trong dữ liệu. Hay giải thích đơn giản là chỉ lấy 1 hoặc một phần dữliệu thì không thể mô tả hết được tất cả dữ liệu.Do đó hàm loss-function với hệ số learning_rate phù hợp thì batch gradient descent theo epochsẽ giảm đều đặn. Vì có nhiễu trong dữ liệu nên mini-batch thì vẫn giảm nhưng có dao động vàstochastic có giảm nhưng dao động cực kì lớn.Hình 12.1: So sánh loss function khi dùng batch và mini-batch [13]Hình dưới là biểu diễn biệc cập nhật hệ số trong gradient descent, điểm đỏ là giá trị nhỏ nhất tacần tìm, các điểm ở ngoài cùng là giá trị khởi tạo của hệ số trong gradient descent. Ta có thể thấyvì không có nhiễu nên batch gradient descent thì hệ số cập nhật trực tiếp theo 1 đường thẳng.Mini-batch thì mất nhiều thời gian hơn và còn đi chệch hướng tuy nhiên thì vẫn đến được điểm đỏ.Còn stochastic thì đi khá lòng vòng để đến được điểm đỏ và vì dữ liệu quá nhiễu nên có thể thuậttoán gradient descent chỉ quanh điểm đỏ mà không đến được điểm đỏ (minimum point).
Page 2 and 3:
Copyright © 2019 Nguyễn Thanh Tu
Page 4 and 5:
4• Phần cứng phát triển: S
Page 6 and 7:
6Lời cảm ơnTrước hết tôi
Page 9 and 10:
Mục lụcIGiới thiệu1 Cài đ
Page 11 and 12:
IIINeural Network5 Neural network .
Page 13 and 14:
12 Các kỹ thuật cơ bản tron
Page 15:
IGiới thiệu1 Cài đặt môi t
Page 18 and 19:
18 Chương 1. Cài đặt môi tr
Page 20 and 21:
Page 22 and 23:
Page 24 and 25:
Page 26 and 27:
Page 28 and 29:
Page 30 and 31:
30 Chương 2. Python cơ bảnt =
Page 32 and 33:
32 Chương 2. Python cơ bản2.4
Page 34 and 35:
34 Chương 2. Python cơ bản# Ph
Page 37:
IIMachine learning cơ bản3 Linea
Page 40 and 41:
40 Chương 3. Linear regressionHì
Page 42 and 43:
Page 44 and 45:
44 Chương 3. Linear regression3.3
Page 46 and 47:
Page 48 and 49:
48 Chương 3. Linear regressionVí
Page 50 and 51:
50 Chương 3. Linear regressionimp
Page 53 and 54:
4. Logistic regressionBài trước
Page 55 and 56:
4.2 Xác suất 55Hình 4.2: Đư
Page 57 and 58:
4.4 Thiết lập bài toán 57=> p
Page 59 and 60:
4.5 Chain rule 59Hình 4.5: Đồ t
Page 61 and 62:
4.5 Chain rule 61Do đód(2x + 1)2d
Page 63 and 64:
4.5 Chain rule 63Từ đồ thị t
Page 65 and 66:
4.6 Quan hệ giữa phần trăm v
Page 67 and 68:
4.7 Ứng dụng 67Hình 4.9: Đư
Page 69:
IIINeural Network5 Neural network .
Page 72 and 73:
72 Chương 5. Neural network5.1.1
Page 74 and 75:
74 Chương 5. Neural network5.2.2
Page 76 and 77:
76 Chương 5. Neural network5.3 Fe
Page 78 and 79:
78 Chương 5. Neural network5.4 Lo
Page 80 and 81:
80 Chương 5. Neural networkHình
Page 82 and 83:
82 Chương 5. Neural networkRõ r
Page 85 and 86:
6. BackpropagationBài trước đ
Page 87 and 88:
6.1 Bài toán XOR với neural net
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
6.3 Python code 93Thì ở bài nà
Page 95:
6.4 Bài tập 95# Dự đoándef p
Page 99 and 100:
7. Giới thiệu về xử lý ả
Page 101 and 102:
7.1 Ảnh trong máy tính 101Hình
Page 103 and 104:
7.1 Ảnh trong máy tính 103Hình
Page 105 and 106:
7.1 Ảnh trong máy tính 1057.1.4
Page 107 and 108:
7.2 Phép tính convolution 107x 13
Page 109 and 110:
7.2 Phép tính convolution 109Hìn
Page 111 and 112:
7.3 Bài tập 111Hình 7.16: Một
Page 113 and 114: 8. Convolutional neural networkBài
Page 115 and 116: 8.2 Convolutional neural network 11
Page 123: 8.4 Bài tập 1238.4 Bài tập1.
Page 126 and 127: 126 Chương 9. Giới thiệu kera
Page 135 and 136: 10. Ứng dụng CNN cho ô tô t
Page 137 and 138: 10.1 Giới thiệu mô phỏng ô
Page 139 and 140: 10.2 Bài toán ô tô tự lái 13
Page 141 and 142: 10.3 Python code 141import pandas a
Page 143: 10.5 Bài tập 143# Load model mà
Page 147 and 148: 11. Transfer learning và data augm
Page 149 and 150: 11.1 Transfer learning 149Hình 11.
Page 151 and 152: 11.1 Transfer learning 151from skle
Page 157 and 158: 11.1 Transfer learning 157# Load mo
Page 159 and 160: 11.2 Data augmentation 159Hình 11.
Page 161 and 162: 11.2 Data augmentation 161Hình 11.
Page 163: 12. Các kỹ thuật cơ bản tro
Page 167 and 168: 12.3 Bias và variance 16712.3 Bias
Page 169 and 170: 12.4 Dropout 169• Dùng regulariz
Page 171 and 172: 12.5 Activation function 171Hình 1
Page 173 and 174: 12.5 Activation function 173Tanh ac
Page 175: VIComputer Vision Task13 Object det
Page 178 and 179: 178 Chương 13. Object detection v
Page 189 and 190: 14. Image segmentation với U-Net1
Page 191 and 192: 14.1 Bài toán image segmentation
Page 193 and 194: 14.2 Mạng U-Net với bài toán
Page 195 and 196: 14.2 Mạng U-Net với bài toán
Page 197: IIRecurrent Neural Network15 Recurr
Page 200 and 201: 200 Chương 15. Recurrent neural n
Page 206 and 207: 206 Chương 16. Long short term me
Page 208 and 209: 208 Chương 16. Long short term me
Page 210 and 211: 210 Chương 17. Ứng dụng thêm
Page 212 and 213: 212 Chương 17. Ứng dụng thêm
Page 214 and 215:
214 Chương 17. Ứng dụng thêm
Page 216 and 217:
Page 218 and 219:
Page 220 and 221:
Page 222 and 223:
Page 225 and 226:
BibliographyArticles[7] Ross Girshi
Page 227:
17.6 Python code 227Books[21] Adria
show all

Sách Deep Learning cơ bản

Create successful ePaper yourself

Delete template?

Save as template?