Python(33)- 비선형 활성화 함수

*이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*

1. 비선형 활성화 함수(Activation Functions)

신경망의 성능을 향상시키기 위해 사용
선형 함수는 입력값과 가중치를 곱한 결과를 그대로 출력하기 때문에, 신경망에서 여러 개의 레이어를 사용한다면 최종 출력값은 입력 값과 가중치의 선형 조합으로 표현되므로 입력 데이터의 비선형 관계를 표현할 수 없음
신경망이 입력 데이터의 비선형 관계를 잘 학습할 수 있도록 하기 위해 비선형 활성화 함수가 필요
활성화 함수 조건: 미분 가능
요약 : 선형 함수 + 비선형 함수 = 비선형 함수

1-1. 시그모이드

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.arange(-5.0, 5.0, 0.1)
# 곡선화시키고 분류
# 시그모이드는 미분이 반복(깊어지면) 0으로 수렴 -> 현재 잘 사용하지 않는 이유
y = sigmoid(x)

plt.plot(x,y)
plt.plot([0,0], [1.0, 0.0], ':')
plt.title('Sigmoid Function')
plt.show()

1-2. 하이퍼볼릭 탄젠트

하이퍼볼릭 사인함수(sinh)와 하이퍼볼릭 코사인 함수(cosh)로 정의
-1에서 1사이의 값
신경망의 활성화 함수로 자주 사용됨
출력값이 -1에서 1사이로 조정되어 학습과정에서 중심화된 데이터 분포를 유지
기울기 소실 문제를 완화하는데 도움
요약 : -1 < w < 1
참고 :

x = np.arange(-5.0, 5.0, 0.1)
y = np.tanh(x)

plt.plot(x,y)
plt.plot([0,0], [1.0, 0.0], ':')
plt.axhline(y=0, color='orange', linestyle='--')
plt.title('Sigmoid Function')
plt.show()

1-3. 렐루(relu)

신경망에서 널리 사용되는 활성화 함수
입력이 양수일 때는 그대로 출력하고, 음수일 때는 0을 출력하는 형태
양수 입력에 대해 기울기가 항상 1이므로 기울기 소실 문제를 어느 정도 완화
간단한 비교 연산으로 구성되어 계산이 매우 빠름
렐루함수는 미분하기 전, 계산이 쉬운형태로 속도가 빠름
요약 : +w = 1, -w = 0

def relu(x):
    return np.maximum(0, x)

x = np.arange(-5.0, 5.0, 0.1)
y=relu(x)

plt.plot(x,y)
plt.plot([0,0], [5.0, 0.0], ':')
plt.title('Relu Function')
plt.show()

1-4. 소프트맥스

신경망의 출력층에서 활성화함수로 사용
분류문제에서 각 클래스에 대한 확률을 출력하는 데 유용하게 사용
함수의 출력은 0과 1사이의 값으로 변환되며, 출력값의 총합은 1이 됨.
미분 가능하므로 역전파 알고리즘을 사용할 수 있음
요약 : 0 < w < 1, Σw = 1

x = np.arange(-5.0, 5.0, 0.1)
y = np.exp(x) / np.sum(np.exp(x))

plt.plot(x,y)
plt.title('Softmax Function')
plt.show()

2. 역전파(Backpropagaion)

1969년 민스키 교수님 XOR는 "지금의 기술로 풀 수 없다"라는 것을 수학적으로 증명함
1974년 Paul Werbos에 의해 박사 논문에서 해결됨
W, bias를 이용해 주어진 입력을 가지고 출력을 만들어 낼 수 있음 -> 출력이 우리가 가지고 있는 값과 다른 출력일 경우 W, bias를 조절함
1986년 Hinton에 의해 위 같은 방법으로 독자적으로 만들어 냄

역전파는 인공신경망에서 학습을 수행하는 데 사용되는 알고리즘으로, 네트워크의 가중치를 업데이트하기 위해 오차를 출력층에서 입력층으로 전파하여 각 가중치의 기울기를 계산
신경망이 주어진 데이터에 대해 예측을 얼마나 잘하는지 평가하고 네트워크의 가중치를 조정하여 예측 성능을 향상시키는 중요한 과정
역전파 알고리즘 단계
- 2-1. 순전파 계산
  - 입력 데이터를 각 층을 통과시키며 네트워크의 출력을 계산
  - 출력층에서 손실 함수를 사용하여 출력과 실제 값의 오차를 계산
- 2-2. 오차 계산
  - 출력층에서 시작하여 이전 층으로 이동하며 오차를 계산
  - 출력층의 오차는 손실 함수의 미분으로 구함
- 2-3. 기울기 계산
  - 각 층에서 가중치와 bias에 대한 기울기를 계산
  - 기울기는 오차와 활성화 함수의 미분을 사용하여 구함
- 2-4. 가중치 업데이트
  - 경사 하강법을 사용하여 가중치와 bias를 업데이트함

'Python > 딥러닝(DL)' 카테고리의 다른 글

Python(36)- 이미지 분류 (0)	2024.06.25
Python(35)- 전이학습 (0)	2024.06.21
Python(34)- CNN 모델링 (0)	2024.06.20
Python(32)- 딥러닝 (0)	2024.06.20

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

많이 금 간 개발자

Python(33)- 비선형 활성화 함수

1. 비선형 활성화 함수(Activation Functions)

2. 역전파(Backpropagaion)

'Python > 딥러닝(DL)' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Python(33)- 비선형 활성화 함수

1. 비선형 활성화 함수(Activation Functions)

2. 역전파(Backpropagaion)

'Python > 딥러닝(DL)' 카테고리의 다른 글

'Python/딥러닝(DL)' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역