T'SPACE

다채로운 에디터들의 이야기

728x90
반응형

데이터사이언스 3

분류기 성능지표들과 ROC Curve, Confusion Matrix

Confusion Matrix분류기 (Classifier) 는 Positive - False 로 이루어진 이진적인 데이터를 옳게 분류하는 모델이다 분류기가 한 예측은 맞거나(True) 틀리거나(False) 중 하나이다 그래서 모든 결과들을 테이블로 만들어둔게 Confusion Matrix이다 TP: True PositiveFP: False PositiveFN: False NegativeTN: True Negative AccuracyAccuracy는 정확도라고 하는데분류기가 예측한 것들중에서 실제로 맞춘 것들의 비율이다Accuracy가 1 이면 모든 데이터에 대해 옳게 정답을 내는 분류기이다 PrecisionPrecision은 분류기가 Positive라고 한 놈들 중실제로 정답이 Positive라고 예측 ..

Leetcode Introduction to Pandas 기본 문법 정리

데이터 사이언스, 인공지능의 기본 미덕인 Pandas의 기본을 익혀보려Leetcode의 Study Plan중 Introduction to Pandas를 풀어보았다 사실 파이썬 할줄알면 하루만에 15문제 다 풀수 있을텐데나는 일주일에 3문제씩 5주간 천천히 풀었다 풀면서 알아야할 문법을 정리 해보겠다 2877. Create a DataFrame from Listimport pandas as pddef createDataframe(student_data: List[List[int]]) -> pd.DataFrame: student_data_df=pd.DataFrame(student_data,columns=['student_id','age']) return student_data_df List로 in..

k-Nearest Neighbors (k-NN) 모델 KNN

k-NN(k-Nearest Neighbors)는 지연 학습 알고리즘이다.정의k-NN은 함수가 Locally (가깝게) 근사되고, 모든 계산이 함수 평가 시점까지 미뤄지는 지연 학습 알고리즘이다. 분류와 회귀 모두에서 알고리즘은 Feature 공간에서 가장 가까운 k개의 훈련 예제를 기반으로 출력을 예측한다. 작동 방식학습 단계:k-NN의 학습 단계는 없다! Lazy Learning Algorithm학습 데이터는 단순히 저장되고, 명시적인 모델은 학습되지 않는다.예측 단계:분류:주어진 테스트 인스턴스에 대해, 알고리즘은 테스트 인스턴스와 모든 훈련 인스턴스 간의 거리를 계산한다.가장 가까운 k개의 훈련 인스턴스(이웃, neighbor)를 식별한다.테스트 인스턴스의 클래스 레이블은 k개 이웃 중 다수결 투표..

728x90
반응형