T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 15

Tonny Kang 2024. 7. 21. 10:35
반응형

로지스틱 회귀분석의 변수

일반적인 로지스틱 회귀분석은 종속변수가 속할 수 있는 집단이 두개로 이진 분류가 기본이며, 세개 이상의 집단을 분류하는 경우 이를 “다중 로지스틱 회귀분석”이라 한다

로지스틱 회귀분석은 독립변수가 연속형이면서 종속변수가 범주형일 떄 가능하다. 만약 독립변수가 범주형일 경우에는 그 범주형 독립변수를 더미변수로(Dummy) 변환하면 가능하다

오즈 Odds

  • 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값이다
  • 로지스틱 회귀분석에서 이 오즈를 사용하여 각 범주에 분류될 확률 값을 추정한다
  • ex) 제비를 뽑아 4번의 성공과 1번의 실패를 경험하였다면 오즈는 4이다
  • 성공확률이 P이니 실패확률은 1-P이다
  • 이때 오즈값은

  • 로그를 취한 로지스틱 회귀분석 추정식은

  • 위 로지스틱 회귀분석의 추정식으로부터 오즈값을 도출하면 아래의 식을 얻을 수 있다

로짓변환

오즈는 두가지 한계를 가진다

  • 음수를 가질 수 없음
  • 그래프가 비대칭적이다

오즈에 로그값을 취한 것이 바로 로짓 Logit 이며 이를 로짓변환이라고 한다

 

오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프는 성광확률 0.5를 기준으로 대칭형태를 띠게 된다

시그모이드 함수

로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용된 대표적인 함수 중 하나다

로짓 함수와 역함수 관계이기 때문에 로짓함수를 통해 시그모이드 함수가 도출된다

 

의사결정나무 Decision Tree

장점

  • 모델이 직관적이고 해석이 용이하다
  • 데이터 정규화 및 단위 변환이 필요하지 않다
  • 다른 기법에 비해 전처리 작업이 어렵지 않다
  • 이상값에 민감하지 않다

단점

  • 독립변수들 사이의 중요도를 판단하기 쉽지 않다
  • 과적합 발생 가능성이 높다
  1. 성장

나무의 분리 규칙을 계속 찾아 분리하다가 적절한 정지 규칙을 만족하면 나무의 성장을 중단한다. 최적의 분할은 불순도 감소량을 가장 크게 하는 분할이다

  1. 가지치기 Pruning

모향이 너무 복잡한 경우 과적합이 일어나기 쉬워 일부 가지를 적당히 제거하여 적당한 크기의 완성된 의사결정 나무 모형으로 만들어 준다

  1. 타당성 평가

형성된 의사결정나무를 평가하는 단계로 검증용 데이터를 이용해 평가하거나 이익 도표등의 평가 지표를 이용해 의사결정나무를 평가한다

  1. 해석 및 예측

예측에 적용하고 이를 해석하는 단계다

앙상블 분석의 종류

배깅

Bootstrap Aggregating의 줄임말고 여러 개의 붓스트랩(bootstrap)을 집계하는 알고리즘이다

앙상블 분석에서 각각의 모델을 분류기라고 (Classifier)라고 부르며, 흔히 의사결정나무를 사용한다, 여러 개의 분류기에 의한 결과를 놓고 다수결에 의하여 최종 결괏값을 선정하는 작업을 보팅 Voting이라고 한다

부스팅

Boosting은 배깅과 유사하지만, 각 분류기가 독립적인 배깅과 다르게 부스팅은 독립적이지 않다

이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스트랩을 구성한다

잘못 분류된 데이터에 더 큰 가중치를 주어 표본을 추출하기 때문에 훈련오차를 빠르게 줄일 수 있

랜덤포레스트

Random Forest는 서로 상관성이 없는 나무들로 이루어진 숲을 의미한다, 배깅에서 더 많은 무작위성을 주는 분석 기법이다

분류의 경우 voting이 사용되고 회귀의 경우에는 평균 또는 중앙 값을 구하는 방법을 사용한다

 

반응형