밑바닥부터 시작하는 딥러닝 - 미리보기

More documents

Recommendations

Info

방법인데(비록 이름은 어렵지만), 매개변수 공간을 무작정 찾는 것보다 ‘똑똑한’ 방법입니다. SGD는 단순하지만, (문제에 따라서는) SGD보다 똑똑한 방법도 있답니다. 지금부터 SGD의 단점을 알아보고 SGD와는 다른 최적화 기법을 소개하려 합니다. 6.1.1 모험가 이야기 본론으로 들어가기 전에, 최적화를 해야 하는 우리의 상황을 모험가 이야기에 비유해보겠습 니다. 색다른 모험가가 있습니다. 광활한 메마른 산맥을 여행하면서 날마다 깊은 골짜기를 찾 아 발걸음을 옮깁니다. 그는 전설에 나오는 세상에서 가장 깊고 낮은 골짜기, ‘깊은 곳’을 찾아가려 합니다. 그것이 그의 여행 목적이죠. 게다가 그는 엄격한 ‘제약’ 2개로 자신을 옭아맸습니다. 하나는 지도를 보지 않을 것, 또 하나는 눈가리개를 쓰는 것입니다. 지도 도 없고 보이지도 않으니 가장 낮은 골짜기가 광대한 땅 어디에 있는지 알 도리가 없죠. 그런 혹독한 조건에서 이 모험가는 어떻게 ‘깊은 곳’을 찾을 수 있을까요? 어떻게 걸음을 옮겨야 효율적으로 ‘깊은 곳’을 찾아낼 수 있을까요? 최적 매개변수를 탐색하는 우리도 이 모험가와 같은 어둠의 세계를 탐험하게 됩니다. 광대하고 복잡한 지형을 지도도 없이 눈을 가린 채로 ‘깊은 곳’을 찾지 않으면 안 됩니다. 척 봐도 어려운 문제임이 느껴질 거에요. 이 어려운 상황에서 중요한 단서가 되는 것이 땅의 ‘기울기’입니다. 모험가는 주위 경치는 볼 수 없지만 지금 서 있는 땅의 기울기는 알 수 있습니다. 발바닥으로 전해지죠. 그래서 지금 서 있 는 장소에서 가장 크게 기울어진 방향으로 가자는 것이 SGD의 전략입니다. 이 일을 반복하면 언젠가 ‘깊은 곳’에 찾아갈 수 있을지도 모르죠. 적어도 용감한 모험가는 그렇게 생각할지도 모 릅니다. 6.1.2 확률적 경사 하강법(SGD) 최적화 문제의 어려움을 되새기고자 먼저 SGD를 복습해보겠습니다. SGD는 수식으로는 다음 과 같이 쓸 수 있습니다. 190 <strong>밑바닥부터</strong> 시작하는 딥러닝
W! W ƞ 2 2 W L [식 6.1] 2L 여기에서 W는 갱신할 가중치 매개변수고 2W은 W에 대한 손실 함수의 기울기입니다. ƞ는 학 습률을 의미하는데, 실제로는 0.01이나 0.001과 같은 값을 미리 정해서 사용합니다. 또, ←는 우변의 값으로 좌변의 값을 갱신한다는 뜻입니다. [식 6.1 ]에서 보듯 SGD는 기울어진 방향으 로 일정 거리만 가겠다는 단순한 방법입니다. 그러면 이 SGD를 파이썬 클래스로 구현해보죠 (나중에 사용할 것을 생각해 클래스 이름도 SGD로 했습니다). class SGD: def __init__(self, lr=0.01): self.lr = lr def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key] 초기화 때 받는 인수인 lr은 learning rate(학습률)를 뜻합니다. 이 학습률을 인스턴스 변수 로 유지합니다. update(params, grads) 메서드는 SGD 과정에서 반복해서 불리게 됩니다. 인수인 params와 grads는 (지금까지의 신경망 구현과 마찬가지로) 딕셔너리 변수입니다. params['W1'], grads['W1'] 등과 같이 각각 가중치 매개변수와 기울기를 저장하고 있습니다. SGD 클래스를 사용하면 신경망 매개변수의 진행을 다음과 같이 수행할 수 있습니다(다음 코 드는 실제로는 동작하지 않는 의사 코드입니다). network = TwoLayerNet(...) optimizer = SGD() for i in range(10000): ... x_batch, t_batch = get_mini_batch(...) # 미니배치 grads = network.gradient(x_batch, t_batch) params = network.params optimizer.update(params, grads) ... optimizer 변수는 ‘최적화를 행하는 자’라는 뜻의 단어입니다. 이 코드에서는 SGD가 그 역할 6장 - 학습 관련 기술들 191
Page 3 and 4:
Deep Learning from Scratch 밑바
Page 5 and 6:
Deep Learning from Scratch 밑바
Page 7 and 8:
추천사 신경망과 딥러닝의
Page 9 and 10:
옮긴이의 말 멋진 책입니
Page 11 and 12:
들어가며 SF영화 같은 세계
Page 13 and 14: 수식과 이론 설명만으로
Page 15 and 16: 그럼, 시작해보죠! 서론은
Page 17 and 18: CONTENTS 지은이•옮긴이 소
Page 19 and 20: 2.5 다층 퍼셉트론이 출동
Page 21 and 22: 4.4 기울기 .....................
Page 23 and 24: 6.2.2 은닉층의 활성화값 분
Page 25: 8.3 더 빠르게(딥러닝 고속
Page 28 and 29: 파이썬은 과학 분야, 특히
Page 30 and 31: $ python --version Python 3.5.2 ::
Page 32 and 33: 314.0 >>> type(x * y) 파이썬은
Page 34 and 35: type(hungry) >>> not hungry False
Page 36 and 37: 그림 2-1 입력이 2개인 퍼셉
Page 38 and 39: 0을 출력하고, 그 외에는 1
Page 40 and 41: 논리 연산 장치(ALU), 그다
Page 42 and 43: 3.1.1 신경망의 예 신경망을
Page 44 and 45: [그림 3-3 ]에서는 가중치가
Page 46 and 47: 그럼 계속해서 활성화 함
Page 48 and 49: 이번 장에서 배운 것 ●●
Page 50 and 51: 2장의 퍼셉트론도 직선으
Page 52 and 53: 그림 4-2 ‘사람’ 손으로
Page 54 and 55: 근거로 ‘최적의 인생’을
Page 56 and 57: 4.6 정리 이번 장에서는 신
Page 58 and 59: 5.1 계산 그래프 계산 그래
Page 60 and 61: 여기서 2번째 ‘계산을 왼
Page 62 and 63: 이번 장에서 배운 것 ●●
Page 66 and 67: 을 합니다. 매개변수 갱신
Page 68 and 69: 그림 6-3 SGD에 의한 최적화
Page 70 and 71: Best-1 (val acc:0.83) | lr:0.0092,
Page 72 and 73: 그림 7-1 완전연결 계층(Affi
Page 74 and 75: 7.2.2 합성곱 연산 합성곱
Page 76 and 77: 그림 7-5 합성곱 연산의 편
Page 78 and 79: 그림 8-1 손글씨 숫자를 인
Page 80 and 81: 8.1.2 정확도를 더 높이려면
Page 82 and 83: INDEX A accuracy 101 activation fun
Page 84 and 85: INDEX V vector 39 VGG 270 W weight
Page 86: INDEX 정규화 101 정확도 101,
show all

밑바닥부터 시작하는 딥러닝 - 미리보기

Create successful ePaper yourself

Delete template?

Save as template?