T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 16

Tonny Kang 2024. 7. 22. 10:02
반응형

인공신경망 알고리즘


활성함수 Activation Function


인공신경망은 노드에 입력되는 값을 바로 다음 노드로 전달하지 않고 비선형 함수에 통과시킨 후 전달한다 → 이떄 사용되는 비선형함수를 활성함수라고 한다

대표적으로는

Step Function, Sigmoid Function, Sign Function, Tanh Function, ReLU function, Softmax Function 등이 있다

인공신경망의 계층 구조


데이터를 입력하는 입력층, 데이터를 출력하는 출력층을 갖고 있는 단층신경망과 입력층과 출력층 사이에 보이지 않는 다수의 은닉층을 가지고 있을 수 있는 다층신경망으로 구분을 할 수 있다

단층 퍼셉트론 (단층 신경망)


입력층이 은닉층을 거치지 않고 바로 출력층과 연결된다

하나의 데이터로 가공되어 활성함수를 통해 출력값이 결정된다

임계값 (Threshold)를 넘었으면 1, 넘지 못했을 경우에는 0을 출력한

다층 퍼셉트론 (다층 신경망)


입력층과 출력층 사이에 보이지 않는 다수의 은닉층을 가지고 있을 수 있는 다층 퍼셉트론으로 구분할 수 있다

은닉층이 존재하지 않는 단층 퍼셉트론은 한계가 있기 때문에 일반적으로 다층 퍼셉트론이 인공신경망을 대변한다

대신 단층 퍼셉트론보다 학습하기 어려우며 은닉층의 노드 수가 너무 적으면 복잡한 경계를 구축 할 수 없고, 너무 많으면 과적합 될 수 있다

K-NN 알고리즘


https://tonnykang.tistory.com/216

 

k-Nearest Neighbors (k-NN) 모델 KNN

k-NN(k-Nearest Neighbors)는 지연 학습 알고리즘이다.정의k-NN은 함수가 Locally (가깝게) 근사되고, 모든 계산이 함수 평가 시점까지 미뤄지는 지연 학습 알고리즘이다. 분류와 회귀 모두에서 알고리즘은

tonnykang.tistory.com

 

분류 모형 성과 평가


여러 모델 중 가장 예측력이 좋은 모델을 최종 모델로 선정하기 위해서는 평가 기준이 필요하다

오류분포 & 평가 지표

 

TP (True Positive): 예측한 값이 Positive이고 실제 값도 Positive인 경우

FP (False Positive): 예측한 값이 Positive이지만 실제 값은 Negative인 겨우

TN (True Negative): 예측한 값이 Negative이고 실제 값도 Negative 인 경우

FN (False Negative): 예측한 값이 Negative이지만 실제 값은 Positive 인 경우

 

정분뷰율=정확도 Accuracy:

전체 관측치 중 올바르게 예측한 비율

오분류율 Error Rate: = 1 - Accuracy

전체 관측치 중 올바르게 예측한 비율

민감도=재현율 Sensitivity = Recall

실제 True 중 올바르게 True를 찾아낸 비율

특이도 Specificity:

실제 False 중 올바르게 False를 찾아낸 비율

정밀도 Precision:

예측 True 중 올바르게 True를 찾아낸 비율

F1 Score:

정밀도와 재현율의 조화평균 값으로 정밀도의 재현율은 높은 확률로 음의 상관관계를 가질 수 있는 효과를 보정하기 위한 지표로 값이 높을 수록 좋다

거짓 긍정률 (FPR: False Positive Rate):
실제 negative 값 중 Positive로 잘못 분류한 비율

ROC 커브


Receiver Operating Characteristic Curve 는 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화 한 그래프다

X축은 FPR(1-특이도)

Y축은 TPR(민감도)

커브 아래의 면적을 나타내는 AUROC (Area Under ROC) 의 값이 1 에 가까울 수록 모형의 성능이 우수하며, 0.5에 가까울 수록 무작위로 예측하는 랜덤모델에 가까운 좋지 못한 모형이다

반응형