sigmoid보다 tanh를 쓰는 이유

1. sigmoid보다 tanh의 기울기가 더 크기 때문이다.

기울기가 더 크면 경사 하강법을 할때 더 큰 step으로 W와 b를 업데이트할 수 있으므로 더 빨리 cost를 0으로 만들 수

있다. cost는 0에 가까울수록 성능이 좋으므로 일반적으로 sigmoid보다 tanh가 성능이 더 좋은 것이다.

2. 기울기 편향을 피할 수 있다.

그래프를 보면 sigmoid는 (0,1)의 범위를 가지고 있고, tanh는 (-1,1)의 범위를 가진다. 모든 입력 벡터가 양수값을 가지고 있을때, 양의 값만을 가지는 sigmoid는 역전파를 할 때 모든 가중치가 같은 방향으로 움직이게 된다. 모두 증가하든지, 모두 감소하든지 말이다. 즉, 이동 방향이 편향될 수 있다는 단점이 있다. 하지만 tanh는 (-1,1) 범위를 가지기 때문에 tanh를 통과한 뉴런의 output이 음수값도 가질 수 있게 되므로 기울기 편향을 피할 수 있다.

참고

tanh activation function vs sigmoid activation function

The tanh activation function is: $tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1$ Where $\sigma(x)$ , the sigmoid function, is defined as: $\sigma(x) = \frac{e^x}{1 + e^x}$ .

stats.stackexchange.com

저작자표시 변경금지

'TIL' 카테고리의 다른 글

HDFS 휴지통 복구, HDFS 파일 복구, HDFS 폴더 복구 (0)	2022.07.21
Conv1D, Conv2D, Conv3D 차이 (0)	2021.11.22
include_top의 의미 (0)	2021.11.17
입력 이미지(input image)를 정규화(normalize)하는 이유 (0)	2021.11.11
ValueError: output array is read-only (0)	2021.11.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

뢀뢀이의 기술 블로그

sigmoid보다 tanh를 쓰는 이유

1. sigmoid보다 tanh의 기울기가 더 크기 때문이다.

2. 기울기 편향을 피할 수 있다.

참고

'TIL' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

sigmoid보다 tanh를 쓰는 이유

1. sigmoid보다 tanh의 기울기가 더 크기 때문이다.

2. 기울기 편향을 피할 수 있다.

참고

'TIL' 카테고리의 다른 글

'TIL' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역