1. sigmoid보다 tanh의 기울기가 더 크기 때문이다.
기울기가 더 크면 경사 하강법을 할때 더 큰 step으로 W와 b를 업데이트할 수 있으므로 더 빨리 cost를 0으로 만들 수
있다. cost는 0에 가까울수록 성능이 좋으므로 일반적으로 sigmoid보다 tanh가 성능이 더 좋은 것이다.
2. 기울기 편향을 피할 수 있다.
그래프를 보면 sigmoid는 (0,1)의 범위를 가지고 있고, tanh는 (-1,1)의 범위를 가진다. 모든 입력 벡터가 양수값을 가지고 있을때, 양의 값만을 가지는 sigmoid는 역전파를 할 때 모든 가중치가 같은 방향으로 움직이게 된다. 모두 증가하든지, 모두 감소하든지 말이다. 즉, 이동 방향이 편향될 수 있다는 단점이 있다. 하지만 tanh는 (-1,1) 범위를 가지기 때문에 tanh를 통과한 뉴런의 output이 음수값도 가질 수 있게 되므로 기울기 편향을 피할 수 있다.
참고
'TIL' 카테고리의 다른 글
HDFS 휴지통 복구, HDFS 파일 복구, HDFS 폴더 복구 (0) | 2022.07.21 |
---|---|
Conv1D, Conv2D, Conv3D 차이 (0) | 2021.11.22 |
include_top의 의미 (0) | 2021.11.17 |
입력 이미지(input image)를 정규화(normalize)하는 이유 (0) | 2021.11.11 |
ValueError: output array is read-only (0) | 2021.11.08 |