T'SPACE

다채로운 에디터들의 이야기

728x90
반응형

오버샘플링 2

ADsP 데이터 분석 준 전문가 정리 14

데이터 마이닝Data Mining은 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다.데이터 마이닝의 종류데이터 마이닝 방법에 따른 분류지도학습정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다, 입력 데이터에 따른 출력 데이터 모두가 필요한 학습 방법이다비지도학습지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다. 컴퓨터가 학습할 때 입력 데이터만 가지고 그 속에 숨겨진 패턴을 찾아내는 학습 방법이다데이터 마이닝 분석 목적에 따른 분류분류 Classification 분석대표적인 지도학습 중 하나로 데이터가 어떤 그룹에 속하는지 판별하고자 하는 분석 기법이다군집 Clustering 분석비지도학습 중 하나로 여러 이질적인 데이터들 사이..

[LG Aimers] 해카톤 후기, 코드 분석

*LG Aimers 문제를 공개하면 문제가 있을까봐 간소하게 설명 합니다 문제 Train.csv 파일과 Submission.csv 파일을 두개 준다 Train 파일로 학습을 시켜 True, False를 판단해야하고 Submission에 주어진 정보로 True, False를 판단해 제출하면 채점을 하게 된다 1. Column, 필드(파라미터)가 엄청 많다 2. 결측값(Null Data, Missing Data)이 상당하다 3. 데이터의 질(오타, 형식)등이 고르지 않다 코드 1. 데이터 셋 읽어오기 df_train = pd.read_csv("train.csv") # 학습용 데이터 df_test = pd.read_csv("submission.csv") # 테스트 데이터(제출파일의 데이터) column_to_..

728x90
반응형