반응형
데이터 마이닝
Data Mining은 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다.
데이터 마이닝의 종류
데이터 마이닝 방법에 따른 분류
지도학습
정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다, 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법이다
비지도학습
지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다. 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴을 찾아내는 학습 방법이다
데이터 마이닝 분석 목적에 따른 분류
분류 Classification 분석
대표적인 지도학습 중 하나로 데이터가 어떤 그룹에 속하는지 판별하고자 하는 분석 기법이다
군집 Clustering 분석
비지도학습 중 하나로 여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위하 분석 방법이다
연관 Association 분석비지도학습 중 하나로 장바구니 분석으로 불린다, 데이터의 연관성을 파악하는 분석 방법이다
데이터 분할을 통한 검증
홀드아웃
- 가장 보편적인 데이터 분할을 통한 검증 방법이다
- 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식이다
- 검증용 데이터로 하이퍼 파라미터를 튜닝하는 단계가 생략되었으며, 테스트 데이터는 오로지 모델의 성과 평가만을 위해 사용된다
K-Fold 교차 검증Cross-Validation
계층별 K-겹 교차 검증 Stratified K-fold Cross Validation
https://tonnykang.tistory.com/137
붓스트랩 bootstrap
- 표본을 다시 추출하는 방법의 일종이다
- 통계학에서 표본을 다시 추출하는 경우는 모델의 신뢰도를 높여 성능을 개선하고자 할 떄다
- 데이터셋의 분포가 고르지 않아 오버샘플링 혹은 언더샘플링과 같은 문제가 있을 때 사용될 수 있으며, 과적합 발생 가능성을 낮출 수 있다
오버샘플링 & 언더샘플링
https://tonnykang.tistory.com/135
반응형
'컴퓨터공학 > ADsP' 카테고리의 다른 글
ADsP 데이터 분석 준 전문가 정리 16 (46) | 2024.07.22 |
---|---|
ADsP 데이터 분석 준 전문가 정리 15 (56) | 2024.07.21 |
ADsP 데이터 분석 준 전문가 정리 13 (51) | 2024.07.19 |
ADsP 데이터 분석 준 전문가 정리 12 (51) | 2024.07.18 |
ADsP 데이터 분석 준 전문가 정리 11 (59) | 2024.07.17 |