T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 8

Tonny Kang 2024. 7. 14. 10:10
반응형

https://tonnykang.tistory.com/265

 

데이터 준 분석가 R언어 기초

https://tonnykang.tistory.com/264 ADsP 데이터 분석 준 전문가 정리 6분석 준비도기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법이다분석 업무 파악분석 인력 및 조직분석 기법분석 데이터

tonnykang.tistory.com

 

 

plyr 패키지

plyr은 apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공한다. plyr은 입력되는 데이터 구조와 출력되는 데이터 구조에 따라 여러 가지 함수를 지원한다

특히 ddply 함수는 시험 출제 빈도와 실제 활용 빈도가 상당히 높다

> score
 class math english
1    A   50      70
2    B   70      80
3    C   60      60
4    D   90      80

> ddply( score, "class", summarise, math_avg = mean(math), eng_avg = mean(english))

 class math_avg english_avg
1    A       60          75
2    B       75          70

# summarise 는 데이터 요약
# transform은 기존 데이터에 추가
> ddply( score, "class", transform, math_avg = mean(math), eng_avg = mean(english))

 class math english math_avg english_avg
1    A   50      70       60          75
2    B   70      80       60          75
3    C   60      60       75          70
4    D   90      80       75          70

> ddply( data, c("year", "month"), summarise, value_avg = mean(value))

     year month value_avg
1  2012     1         4
2  2012     2         8
3  2013     1         3
4  2013     2         5
728x90

이상값 판단

ESD (Extreme Studentized Deviation)

평균으로부터 ‘표준편차 3’만큼 떨어진 값들을 이상값으로 인식하는 방법이다

정규분포에서 99.7%의 자료들이 이 범위에 위치함으로

전체 데이터의 0.3% 정도를 이상값으로 구분한다

사분위수

사분위수를 이용하여 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법이다

측정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료를 4등분했을 때 각 등분 위치에서 해당하는 값을 의미한다. IQR은 1분위 수(Q1)부터 3분위 수(Q3)까지의 범위를 의미하며, 2분위 수(Q2)는 앞서 자주 언급한 중앙값이다(median)

일반적으로 사붐위에서 1.5분위수를 벗어나느경우 이상치로 판단한다


[Q1-1.5IQR, Q3+1.5IQR]

이 범위를 벗어나면 이상값으로 간주한다

반응형

 

 

https://tonnykang.tistory.com/267

 

ADsP 데이터 분석 준 전문가 정리 9

https://tonnykang.tistory.com/266 ADsP 데이터 분석 준 전문가 정리 8https://tonnykang.tistory.com/265 데이터 준 분석가 R언어 기초https://tonnykang.tistory.com/264 ADsP 데이터 분석 준 전문가 정리 6분석 준비도기업의

tonnykang.tistory.com

 

반응형