T'SPACE

다채로운 에디터들의 이야기

728x90
반응형

데이터 10

분류기 성능지표들과 ROC Curve, Confusion Matrix

Confusion Matrix분류기 (Classifier) 는 Positive - False 로 이루어진 이진적인 데이터를 옳게 분류하는 모델이다 분류기가 한 예측은 맞거나(True) 틀리거나(False) 중 하나이다 그래서 모든 결과들을 테이블로 만들어둔게 Confusion Matrix이다 TP: True PositiveFP: False PositiveFN: False NegativeTN: True Negative AccuracyAccuracy는 정확도라고 하는데분류기가 예측한 것들중에서 실제로 맞춘 것들의 비율이다Accuracy가 1 이면 모든 데이터에 대해 옳게 정답을 내는 분류기이다 PrecisionPrecision은 분류기가 Positive라고 한 놈들 중실제로 정답이 Positive라고 예측 ..

ADSP 전공자의 독학 후기

밑으로 내려가시면 독한한 방법과 시험 후기가 있습니다!​ADsP 데이터분석 준전문가 자격증 데이터 분석 분야에서 유일한 국가공인 자격증인 ADsP(Advanced Data Analytics Semi-Professional)는 데이터 초보자들이 빠르게 접근할 수 있는 좋은 자격증입니다.ADsP에 대해 알아보려는 분들은 같은 분야의 ADP(데이터분석 전문가)와 헷갈릴 수 있지만, 이 두 자격증은 난이도와 시험 과목에서 큰 차이를 보입니다.​ADsP vs ADP: 자격증 비교구분ADP(데이터분석 전문가)ADsP(데이터분석 준전문가)시험 과목 수5과목3과목데이터 이해OO데이터 처리 기술 이해OX데이터 분석 기획OO데이터 분석OO데이터 시각화OXADP는 서술형 문제도 포함되어 있고, 시험 과목이 5과목으로 ADs..

ADsP 데이터 분석 준 전문가 정리 13

https://tonnykang.tistory.com/270 ADsP 데이터 분석 준 전문가 정리 12주성분분석 PCA여러 개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)을 만들어 기존변수를 요약 및 축소하는 분석 방법이다변수를 축소하여 모형의 설명력을 높임tonnykang.tistory.com 시계열 분석일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석방법이다시계열 자료의 자기상관성이 말은 서로 이웃하는 자료들끼리 일종의 상관관계를 가진다는 말이다→ 시간적으로 앞 뒤 데이터와 관련 있음여기서 공분산의 개념을 살펴봐야한다 Covariance→ 두 개의 확률 변수의 선형관계를 나타낸다→ 하나의 증감에 따른 다른 확률 변수의 증감 경향에 대한 측도..

데이터 준 분석가 R언어 기초

https://tonnykang.tistory.com/264 ADsP 데이터 분석 준 전문가 정리 6분석 준비도기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법이다분석 업무 파악분석 인력 및 조직분석 기법분석 데이터분석 문화IT 인프라분석 준비도 및 성숙도 진단 결과를 4분면tonnykang.tistory.com R언어R의 데이터 타입문자형 타입Character는 문자형 타입으로 따옴표 혹은 쌍따옴표로 표시할 수 있다각 변수의 타입은 Class 함수를 이용해 확인 할 수 있다> class('abc')[1] "character"숫자형 타입numeric(숫자형)double(실수)integer(정수)complex(복소수)등이 있다Inf는 Infinite의 약자로 무한대를 나타내며 -Inf도 있다논리형..

ADsP 데이터 분석 준 전문가 정리 3

https://tonnykang.tistory.com/256 ADsP 데이터 분석 준 전문가 정리 2https://tonnykang.tistory.com/255 ADsP 데이터 분석 준 전문가 정리 1데이터의 이해DIKW Pyramid데이터 Data정보 Information, 내포된 의미 → 유용하지 않을 수도 있음지식 Knowledge지혜 WidsomDataBase통합된 데이터 (tonnykang.tistory.com  데이터 분석 기획분석 대상과 그 방법에 따른 4가지 분석 주제최적화 Optimization - 문제, 분석법 둘다 앎솔루션 Solution - 문제만 알고 분석법 모름발견 Discovery - 둘다 모름통찰 Insight - 문제는 모르지만 분석법은 앎분석 기획 시 고려사항가용 데이터 ..

ADsP 데이터 분석 준 전문가 정리 1

데이터의 이해DIKW Pyramid데이터 Data정보 Information, 내포된 의미 → 유용하지 않을 수도 있음지식 Knowledge지혜 WidsomDataBase통합된 데이터 (Integrated data): 중복되지 않게 통합되어있다저장된 데이터 (Stored data): 컴퓨터가 접근 가능공용 데이터 (Shared data): 공동으로 이용할 수 있다변화하는 데이터 (Operational data): 삽입, 수정, 삭제 등다양한 측면에서의 특성-정보의 축적 및 전달 측면 : 기계 가독성, 검색 가능성, 원격 조작성-정보이용 측면-정보관리 측면-정보기술발전측면-경제, 산업적 측BigData더그 래니 3V데이터의 양 Volume데이터의 유형 Variety데이터의 생성 및 처리 속도의 증가 Velo..

Braess' Paradox와 스포츠에 적용된 Ewing Paradox

우리는 흔히 '더 많이', '더 좋게'가 항상 긍정적인 결과를 가져올 것이라고 생각합니다. 하지만 현실은 그리 단순하지 않죠. 때로는 무언가를 추가하는 것이 오히려 전체 시스템의 성능을 저하시키고, 핵심 요소를 제거하는 것이 더 나은 결과를 가져올 수 있습니다. 이러한 역설적인 상황을 잘 보여주는 두 가지 흥미로운 현상이 바로 Braess' Paradox와 Ewing Paradox입니다. Braess' Paradox: 더하기가 때론 빼기다Braess' Paradox는 1968년 독일의 수학자 Dietrich Braess가 발견한 현상입니다. 이 역설은 교통 네트워크에서 새로운 도로를 추가했을 때 오히려 전체적인 교통 흐름이 악화될 수 있다는 것을 보여줍니다.마치 Game Theory 와 비슷합니다예를 들..

파이선 pandas 라이브러리 get_dummies()

get_dummies()https://tonnykang.tistory.com/216 k-Nearest Neighbors (k-NN) 모델 KNNk-NN(k-Nearest Neighbors)는 지연 학습 알고리즘이다.정의k-NN은 함수가 Locally (가깝게) 근사되고, 모든 계산이 함수 평가 시점까지 미뤄지는 지연 학습 알고리즘이다. 분류와 회귀 모두에서 알고리즘은tonnykang.tistory.comKNN 모델은 참 편하고 단순한 Base 모델로 사용하기에는 너무나 좋은 모델이다 하지만 각 instance간의 거리를 구해야하는 모델이기에범주형 Catagorical Feature같은 경우에는 문제가 생긴다... 예를 들어 아래와같은 데이터가 있다고 하자data = { 'Color': ['Red',..

축구의 새로운 분석 패러다임, OBV(On-Ball Value)

기존의 축구 통계 지표들은 어시스트, 기대 골 기여(xG Assisted), 빌드업 기대 골(xGBuildup) 등이 주를 이뤘다.하지만 이런 지표들은 득점 과정에서 일어나는 모든 행위의 가치를 제대로 포착하지 못했다.최근 새롭게 등장한 OBV(On-Ball Value) 모델은 이러한 한계를 보완하고 축구 분석의 지평을 넓혀준다. OBV의 두 가지 핵심 장점1) 득점 상황으로 이어지는 공격 과정에서 각각의 패스나 행위가 기회 창출에 미친 영향력을 정확히 가려낼 수 있다. 기회를 만드는 데 중요한 역할을 한 행위일수록 더 높은 가치를 부여받게 된다. 2) 높은 위험을 감수했지만 실패한 행위의 기회비용을 적절히 평가한다. 팀의 주요 공격수들이 위험한 시도를 하다 실패하더라도 전체적으로 팀에 이득이 된다면 긍..

축구/스카우트 2024.04.29

[유심,Esim] 미국, 하와이, 멕시코, 유럽, 여행 데이터 로밍

이번에 CES를 통해 미국으로 가게 되어 5일동안 쓸 유심을 구매하게 되었다 https://tonnykang.tistory.com/29 [부산대] CES 인당 600만원 지원 합격 후기 매일같이 공지를 읽다가 CES에 갈 학생들을 모집한다는 글을 봤다 학교에서 미국 비행기표 끊어주고 인당 600만원 지원해 준다길래 바로 신청했다 CES가 뭔지 몰라도 일단 미국 갈 생각으로 지원 tonnykang.tistory.com 나는 여행 갈 때 마다 쓰는 유심은 말톡에서 사용한다 이용하는데 절대로 불편한적 한번도 없었고 카톡 문의도 칼답 까지는 아니라도 사람들이 많이 질문하는 질문들은 모아져 있고 한국 시간 상담 시간이면 상담이 잘 되는 편이다 지금까지 유럽, 터키, 일본에서 다 잘 됐다 (광고가 아니라서 링크는 ..

728x90
반응형