반응형
https://tonnykang.tistory.com/265
plyr 패키지
plyr은 apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공한다. plyr은 입력되는 데이터 구조와 출력되는 데이터 구조에 따라 여러 가지 함수를 지원한다
특히 ddply 함수는 시험 출제 빈도와 실제 활용 빈도가 상당히 높다
> score
class math english
1 A 50 70
2 B 70 80
3 C 60 60
4 D 90 80
> ddply( score, "class", summarise, math_avg = mean(math), eng_avg = mean(english))
class math_avg english_avg
1 A 60 75
2 B 75 70
# summarise 는 데이터 요약
# transform은 기존 데이터에 추가
> ddply( score, "class", transform, math_avg = mean(math), eng_avg = mean(english))
class math english math_avg english_avg
1 A 50 70 60 75
2 B 70 80 60 75
3 C 60 60 75 70
4 D 90 80 75 70
> ddply( data, c("year", "month"), summarise, value_avg = mean(value))
year month value_avg
1 2012 1 4
2 2012 2 8
3 2013 1 3
4 2013 2 5
728x90
이상값 판단
ESD (Extreme Studentized Deviation)
평균으로부터 ‘표준편차 3’만큼 떨어진 값들을 이상값으로 인식하는 방법이다
정규분포에서 99.7%의 자료들이 이 범위에 위치함으로
전체 데이터의 0.3% 정도를 이상값으로 구분한다
사분위수
사분위수를 이용하여 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법이다
측정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료를 4등분했을 때 각 등분 위치에서 해당하는 값을 의미한다. IQR은 1분위 수(Q1)부터 3분위 수(Q3)까지의 범위를 의미하며, 2분위 수(Q2)는 앞서 자주 언급한 중앙값이다(median)
일반적으로 사붐위에서 1.5분위수를 벗어나느경우 이상치로 판단한다
[Q1-1.5IQR, Q3+1.5IQR]
이 범위를 벗어나면 이상값으로 간주한다
반응형
https://tonnykang.tistory.com/267
반응형
'컴퓨터공학 > ADsP' 카테고리의 다른 글
ADsP 데이터 분석 준 전문가 정리 9 (50) | 2024.07.15 |
---|---|
데이터 준 분석가 R언어 기초 (53) | 2024.07.14 |
ADsP 데이터 분석 준 전문가 정리 6 (51) | 2024.07.13 |
ADsP 데이터 분석 준 전문가 정리 5 (45) | 2024.07.12 |
ADsP 데이터 분석 준 전문가 정리 4 (37) | 2024.07.11 |