T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/ADsP

ADsP 데이터 분석 준 전문가 정리 18

Tonny Kang 2024. 7. 26. 10:20
반응형

https://tonnykang.tistory.com/278

 

ADsP 데이터 분석 준 전문가 정리 17

거리 측도변수가 연속형인 경우유클리디안 거리 (Euclidean):L2 Norm, 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로, 두 점 사이의 가장 짧은 거리를 계산한다맨하튼 거리 (Manhattan):

tonnykang.tistory.com

연관분석


연관분석의 척도


지지도 (Support)

전체 거래 중에서 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율

지지도가 높다는 것은 그 두개의 아이템이 같이 잘 팔린다는 것

신뢰도

어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률

항상도

품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 품목 A가 구매될 떄 품목 B가 구매될 확률을 나타낸 값이다

신뢰도와 달리 P(A→B) = P(B→A) 이다

연관분석의 알고리즘


Apriori 알고리즘

  • 가능한 모든 경우의 수를 탐색하여 측정지표가 높게 나타나는 연관 규칙을 찾는 방식

→ 아이템의 수가 증가할 수로 계산 시간과 복잡도가 크게 증가함

  1. 최소 지지도를 설정한다
  2. 최소 지지도 보다 더 큰 지지도의 단일 품목을 선택
  3. 이번에는 위에 품목들로 2가지 품목으로 연관규칙 찾음
  4. 다음은 3가지 이상으로 반복

GP-Growth 알고리즘

  • 데이터셋이 큰 경우 모든 아이템셋을 하나씩 검사하는것이 비효율적이라 탄생
  • 지지도가 낮은 품목부터 높은 품목순으로 올라가면서 빈도수가 높은 아이템 집합을 생성하는 상향식 알고리즘이다, Apriori보다 빠르며 연산 비용이 저렴하다
반응형