-
딥러닝 이론-3 : Cost를 최소화하는 방법딥러닝 2023. 7. 2. 15:55
1. Simplified hypothesis
- linear regression 에서 가설로 세웠던 식 (H(x) = Wx +b) 를 간단히 하기 위해 bias를 제외시키고 생각하자.
그렇게 되면 아래와 같은 식과 그래프가 나타나게 된다.
그래프에서도 보이듯이, x축은 w 값, y축은 cost 값으로, 우리가 구하고자하는 것은 y축인 cost가 가장 적은 w값이 된다.
2. Gradient descent algorithm
- Gradient descent algorithm(경사 하강법)은 cost function을 최소화하는 알고리즘으로, 최소화 하는 문제들에 많이 사용되는 알고리즘이다. w값이 하나인 경우 뿐만 아니라 여러개의 w값이 있는 cost function에도 적용될 수 있다.
이 알고리즘이 작동하는 방법은 처음 초기 값(랜덤하게 시작 가능)에서 cost(W,b) 값을 줄여가면서 point를 이동하게 된다. (경사가 완만한 점으로 이동) 점차 줄여가다 보면 cost 값이 가장 적은 값에 도달하게 된다. 위 그래프 상에서는 w=1 일 때 cost 값이 0으로, 우리가 찾고자 하는 값이 된다. cost 값이 0인 점은 w=1일 때 뿐이므로, 결국 처음 시작을 어디서 해도 도달하게 되는 점은 같게 된다. 여기서 이동하는 범위는 learning rate라 하며, 우리가 지정해줘야하는 hyperparameter인데, 너무 크게 설정하면 우리가 찾고자하는 w 값을 찾지 못하고 튕겨나가게 되고, 너무 적게 설정하면 찾기까지 오랜 시간이 걸리게 되므로 적당한 값으로 설정해주어야한다.
하지만 이렇게 그래프가 되는 경우에는, 처음 시작 값이 어딘지에 따라 도착점이 다르게 된다.
따라서 cost function을 설계할 때 반드시 cost function이 위와 같은 convex function 모양이 되는지 확인해야한다.
'딥러닝' 카테고리의 다른 글
딥러닝 이론-6 : Softmax Classification (0) 2023.07.05 딥러닝 이론-5 : Logistic regression classification (0) 2023.07.04 딥러닝 이론-4 : Multivariable linear regression (0) 2023.07.03 딥러닝 이론-2 : Linear Regression (0) 2023.07.01 딥러닝 이론-1 : Machine Learning Basics (0) 2023.06.30