T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 14

Tonny Kang 2024. 7. 20. 10:38
반응형

데이터 마이닝

Data Mining은 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다.

데이터 마이닝의 종류

데이터 마이닝 방법에 따른 분류

지도학습

정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다, 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법이다

비지도학습

지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다. 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴을 찾아내는 학습 방법이다

데이터 마이닝 분석 목적에 따른 분류

분류 Classification 분석

대표적인 지도학습 중 하나로 데이터가 어떤 그룹에 속하는지 판별하고자 하는 분석 기법이다

군집 Clustering 분석

비지도학습 중 하나로 여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위하 분석 방법이다

연관 Association 분석비지도학습 중 하나로 장바구니 분석으로 불린다, 데이터의 연관성을 파악하는 분석 방법이다

데이터 분할을 통한 검증

홀드아웃

  • 가장 보편적인 데이터 분할을 통한 검증 방법이다
  • 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식이다
  • 검증용 데이터로 하이퍼 파라미터를 튜닝하는 단계가 생략되었으며, 테스트 데이터는 오로지 모델의 성과 평가만을 위해 사용된다

K-Fold 교차 검증Cross-Validation

계층별 K-겹 교차 검증 Stratified K-fold Cross Validation

https://tonnykang.tistory.com/137

 

k-fold cross-validation 교차 검증 (언더핏팅 방지)

cf) 데이터 train data : 학습을 통해 가중치, 편향 업데이트 validation data : 하이퍼파라미터 조정, 모델의 성능 확인 test data : 모델의 최종 테스트 하이퍼파라미터 : 값에 따라서 모델의 성능에 영향을

tonnykang.tistory.com

 

붓스트랩 bootstrap

  • 표본을 다시 추출하는 방법의 일종이다
  • 통계학에서 표본을 다시 추출하는 경우는 모델의 신뢰도를 높여 성능을 개선하고자 할 떄다
  • 데이터셋의 분포가 고르지 않아 오버샘플링 혹은 언더샘플링과 같은 문제가 있을 때 사용될 수 있으며, 과적합 발생 가능성을 낮출 수 있다

오버샘플링 & 언더샘플링

https://tonnykang.tistory.com/135

 

[LG Aimers] 해카톤 후기, 코드 분석

*LG Aimers 문제를 공개하면 문제가 있을까봐 간소하게 설명 합니다 문제 Train.csv 파일과 Submission.csv 파일을 두개 준다 Train 파일로 학습을 시켜 True, False를 판단해야하고 Submission에 주어진 정보로 Tr

tonnykang.tistory.com

 

반응형