T'SPACE

다채로운 에디터들의 이야기

728x90
반응형

컴퓨터공학/LG Aimers 9

k-fold cross-validation 교차 검증 (언더핏팅 방지)

cf) 데이터 train data : 학습을 통해 가중치, 편향 업데이트 validation data : 하이퍼파라미터 조정, 모델의 성능 확인 test data : 모델의 최종 테스트 하이퍼파라미터 : 값에 따라서 모델의 성능에 영향을 주는 매개변수들(ex. learning rate, 은닉층의 수, 뉴런의 수 등) ↔ 가중치, 편향은 학습을 통해 바뀌어져가는 변수이다. cf) 기존 방식 1. 교차검증(cross-validation) 같은 데이터를 여러 번 반복해서 나누고 여러 모델을 학습하여 성능을 평가하는 방법 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있기 때문 (조금 더 안정적인 성능이 나옴) 장..

Overfitting 과적합

오버피팅(overfitting)이란? 학습 데이터에 대해 과하게 학습하여 실제 데이터에 대한 오차가 증가하는 현상 train-set에서는 정확도 매우 높게 나옴, but test-set에서는 낮은 정확도 오버피팅이 발생하는 이유 훈련 데이터의 부족 적은 양의 훈련 데이터로 모델을 훈련시키면, 모델은 훈련 데이터에만 맞추기 쉬움 복잡한 모델 구조 모델이 지나치게 복잡하면 훈련 데이터에 대한 노이즈나 특정 패턴을 학습하게 되어 일반화 성능이 감소 과도한 훈련 훈련 데이터에 모델을 지나치게 많이 학습시키면 특정 데이터에 과적합될 가능성이 높아짐 해결 방안 더 많은 데이터 수집 더 많은 데이터를 수집함으로써 다양한 상황에서도 일반화 되도록 함 데이터 확장 기존 데이터를 변형하여 새로운 데이터를 생성함으로써 훈련..

[LG Aimers] 해카톤 후기, 코드 분석

*LG Aimers 문제를 공개하면 문제가 있을까봐 간소하게 설명 합니다 문제 Train.csv 파일과 Submission.csv 파일을 두개 준다 Train 파일로 학습을 시켜 True, False를 판단해야하고 Submission에 주어진 정보로 True, False를 판단해 제출하면 채점을 하게 된다 1. Column, 필드(파라미터)가 엄청 많다 2. 결측값(Null Data, Missing Data)이 상당하다 3. 데이터의 질(오타, 형식)등이 고르지 않다 코드 1. 데이터 셋 읽어오기 df_train = pd.read_csv("train.csv") # 학습용 데이터 df_test = pd.read_csv("submission.csv") # 테스트 데이터(제출파일의 데이터) column_to_..

대각 행렬 Diagonal Matrix

대각 행렬은 위와 같이 i,j의 좌표가 같은 원소에만 값이 있는 행렬을 뜻 한다 쉽게말해 행렬에 죄측최상단 원소부터 대각선으로 내려오는 곳에 원소들만 있는 행렬이다 나머지는 0 그리고 그 원소들이 모두 1이면 Identity Matrix 항등 행렬이다 특징으로는 1) 대각행렬의 k승은 각 원소들을 각각 k승 한 것과 같다 2) 대각행렬의 역행렬은 각 원소들의 역수와 같다 3) determinent는 모든 원소들의 곱과 같다 4) Trace와 eigenvector(고유벡터)와의 관계에 의해 대각행렬의 각원소들은 그 대각행렬의 eigenvalue(고유값)이다 5) Symmetric, 대칭, 이다 https://tonnykang.tistory.com/96 eigenvalues & eigenvectors (고유..

eigenvalues & eigenvectors (고유값과 고유벡터)

일반적으로 고유값과 고유벡터를 배우면 위와 같은 식이 주어진다 이게 기하학적으로 무슨 뜻인지 확인해보면 A는 정방 행렬이고 λ는 고유값이고 (상수임!) x가 교유 벡터이다 Ax는 x라는 벡터를 A에 대해 선형 변환을 하는 것이다 λx는 x라는 벡터를 λ로 scaling (늘리거나 줄임) 것이다->왜냐 λ는 상수이기 때문이다 즉 A로 선형변환 했을 때 방향이나 차원등은 변하지 않고 λ의 크기로 scaling만 되는 벡터들이 고유 벡터인 것이다 그리고 그 고유 벡터가 A로 선형변환 됐을 때 커지거나 작아지는 정도 (scaling factor)가 λ인 고유 값이 된다 그래서 고유 벡터 마다 고유값이 있다 그러면 이들을 어떻게 구하는가? λ와 x 사이에 항등행렬(Identity Matrix)을 곱해준다 -> 일..

선형대수학, Trace

​ 행렬의 Trace는 그 행렬의 대각 성분들의 합이다 (좌측 상단 부터 우측 하단) ​ N x N 크기의 정방 행렬이 있다면 그 행렬의 trace는 아래와 같이 정의 된다 ​ ​ 그래서 trace는 행렬의 대각 성분들의 합으로 계산되어 스칼라 값이 됩니다. 행렬의 트레이스(trace)는 선형 대수학 및 기타 수학 분야에서 여러 흥미로운 성질과 응용을 가지고 있습니다. 예를 들어, 유사 변환(similarity transformations) 하에서 불변하며(변하지 않음), 행렬의 고유값(eigenvalues)의 합과 동일합니다. 물리학에서는 트레이스가 종종 에너지-운동량 텐서(energy-momentum tensor)의 식에서 나타납니다. ​ For a 2x2 matrix: ​ For a 3x3 matr..

역행렬, Inverse Matrix, 라플라스 전개, Laplace Extension

역행렬은 Inverse Matrix라고 한다 전형적인 2x2 행렬은 이런 식으로 구한다 고등학교 때 암기해라고 외우는 공식이다 그리고 밑에 분모는 특별하게 이름을 붙혀 Determinent라고 한다 (행렬식) |A| = det(A) 모든 행렬이 역행렬이 있는 것은 아닌데 역행렬이 있는 행렬은 Invertable Matrix이고 determinent가 0이 아니며 = Non-Singular Matrix = Non-degenerate Matrix 반대로 Non-Invertable Matrix는 detrminent가 0이다 = SIngular Matrix = degenerate Matrix 또 추가적인 determinent의 성질로는 그러나 행렬은 2x2만 있나? 아닌 경우가 더 많을 것이다 그럼 한단계 나아..

[인공지능 윤리] Artificial Intelligence Ethics

데이터 과학을 하면서 지켜야 할 윤리와 주의해야 할 점들이 있습니다. 인과관계 ≠ 상관관계 이 두 용어는 종종 혼동되기도 하지만, 실제로는 다른 개념들입니다. 1. 인과 관계 (Causation): - 인과 관계는 한 사건이 다른 사건에 직접적인 영향을 주는 관계를 의미합니다. - A가 발생하면 B도 발생하고, A가 발생하지 않으면 B도 발생하지 않는 관계를 말합니다. - 인과 관계는 원인과 결과 간의 명확하고 직접적인 연결성을 나타냅니다. - 예를 들어, 비가 오면 땅이 젖게 되는 것은 인과 관계입니다. 비(원인)가 땅이 젖게 만드는 결과를 초래합니다. 2. 상관 관계 (Correlation): - 상관 관계는 두 변수 간의 통계적 연관성을 나타냅니다. - 두 변수 간에 어떠한 관련이 있을 뿐이지, 하..

[LG Aimers] LG 에서 주최하는 LG Aimers 4기 선정후기

나는 다음학기 3학년 1학기를 시작하게 되는 컴공생이다 작년 군대에서 복학하고 좋은 사람들과 인연들을 만나 마음맞는 우리과 선후배들과 AI 스터디를 만들었다 함께 인공지능의 기초부터 공부하며 이론적인 내용을 쌓았다 그렇게 맞이한 2학년 2학기의 끝 우리는 우리들의 이론공부의 과실을 맺어줄 실무용 지식이 필요했다 그때 마치 올라 온 공지 "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다." LG AI 청년 교육프로그램 「LG Aimers」 4기 참가자 모집(~12/19) 1. 프로그램: LG AI 청년교육프로그램 「LG Aimers」4기 2. 교육내용: 지도학습, 강화학습, 딥러닝 등 최신 AI 교육 3. 진행프로그램 및 교육기간 - 온라인 AI 전문가 교육 과정: '..

728x90
반응형