T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 9

Tonny Kang 2024. 7. 15. 10:14
반응형

https://tonnykang.tistory.com/266

 

ADsP 데이터 분석 준 전문가 정리 8

https://tonnykang.tistory.com/265 데이터 준 분석가 R언어 기초https://tonnykang.tistory.com/264 ADsP 데이터 분석 준 전문가 정리 6분석 준비도기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법이다

tonnykang.tistory.com

 

 

측정과 척도


측정: 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류


질적 척도

  • 명목척도

측정 대상이 어느 집단에 속하는지 나타내는 자료

ex) 성별, 지역

  • 순서척도

측정 대상이 명목척도이면서 서열 관계를 갖는 자료

ex) 선호도, 신용도, 학년

양적척도

  • 구간척도

측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료

ex) 온도, 지수

  • 비율척도

측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료

ex) 신장, 무게, 점수, 가격

독립사건과 배반사건


독립사건


서로에게 영향을 주지 않는 두 개의 사건을 독립이라고 한다

A와B가 독립인 경우에 A가 발생했을때 B의 확률은 변하지 않기 떄문에

다음이 성립한다

따라서 A와 B가 독립이면 아래 식이 성립한다

배반사건


두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우

확률변수와 확률분포 그리고 확률함수


확률변수


무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 확률변수라 한다

확률분포


확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 바로 확률분포

이산확률분포


베르누이 분포


확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다

이항 분포


이항 분포는 n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미한

기하 분포


성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포를 의미한다

다항 분포


이항분포를 확장한 기념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미한다

단, x+y+z=n

포아송 분포


단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미한다

이산확률변수


확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수를 이산확률변수라 한

연속확률분포


균일 분포


균일 분포는 연숙형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미한다

다음 두 개의 균일 분포 모두 그래프 아래 면적의 넓이는 확률의 총합인 1 이다

정규분포


분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 갖는다

t-분포


자유도가 n인 t분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다

모표준편차를 모르기 때문에 t 분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다

자유도가 커질수록 t 분포는 표준 정규분포에 가까워진다

 

카이제곱 분포


표준정규분포를 따르는 확률변수

의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따른다

카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다

F 분포


서로 독립인 두 카이제곱 분포를 따르는 확률변수

를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 k1, k2인 F 분포를 따른다

F분포는 등분산 검정 및 뒤에 다루게 될 분산분석을 위해 활용된다

연속확률변수


확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다

연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미한다

기대값, 분산, 표준편차


기대값


  • 특정 사건이 시행되었을 때 화률변수 X가 취할 수 있는 값의 평균 값을 의미한다
  • 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구할 수 있다
  • 관측될 것이라고 기대되는 관측값에 대한 평균이므로 기대값이라고 하며, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상이다

분산


데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도다.

관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.

즉, 차이값의 제곱의 평균이다

https://tonnykang.tistory.com/268

 

ADsP 데이터 분석 준 전문가 정리 10

https://tonnykang.tistory.com/267 ADsP 데이터 분석 준 전문가 정리 9https://tonnykang.tistory.com/266 ADsP 데이터 분석 준 전문가 정리 8https://tonnykang.tistory.com/265 데이터 준 분석가 R언어 기초https://tonnykang.tistory

tonnykang.tistory.com

 

 

반응형