T'SPACE

다채로운 에디터들의 이야기

728x90
반응형

overfitting 4

오버피팅 과적합과 언더핏팅

학습 곡선 해석하기훈련 데이터에 있는 정보를 크게 두 가지로 나눌 수 있습니다: 신호(signal)와 노이즈(noise)입니다. 신호는 모델이 새로운 데이터에서 예측할 때 도움이 되는 부분이며, 일반화될 수 있는 정보입니다. 반면, 노이즈는 훈련 데이터에서만 나타나는 우연한 변동이나 의미 없는 패턴을 포함하고 있으며, 실제로는 예측에 도움이 되지 않는 정보입니다.모델을 훈련할 때, 우리는 훈련 세트의 손실(loss)을 최소화하는 가중치 또는 파라미터를 선택합니다. 그러나 모델의 성능을 정확하게 평가하려면 새로운 데이터 세트, 즉 검증 데이터(validation data)에서 평가해야 합니다.훈련할 때, 우리는 각 에포크마다 훈련 세트의 손실을 그래프로 그립니다. 여기에 검증 데이터의 손실도 추가로 플로팅..

k-fold cross-validation 교차 검증 (언더핏팅 방지)

cf) 데이터 train data : 학습을 통해 가중치, 편향 업데이트 validation data : 하이퍼파라미터 조정, 모델의 성능 확인 test data : 모델의 최종 테스트 하이퍼파라미터 : 값에 따라서 모델의 성능에 영향을 주는 매개변수들(ex. learning rate, 은닉층의 수, 뉴런의 수 등) ↔ 가중치, 편향은 학습을 통해 바뀌어져가는 변수이다. cf) 기존 방식 1. 교차검증(cross-validation) 같은 데이터를 여러 번 반복해서 나누고 여러 모델을 학습하여 성능을 평가하는 방법 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있기 때문 (조금 더 안정적인 성능이 나옴) 장..

Overfitting 과적합

오버피팅(overfitting)이란? 학습 데이터에 대해 과하게 학습하여 실제 데이터에 대한 오차가 증가하는 현상 train-set에서는 정확도 매우 높게 나옴, but test-set에서는 낮은 정확도 오버피팅이 발생하는 이유 훈련 데이터의 부족 적은 양의 훈련 데이터로 모델을 훈련시키면, 모델은 훈련 데이터에만 맞추기 쉬움 복잡한 모델 구조 모델이 지나치게 복잡하면 훈련 데이터에 대한 노이즈나 특정 패턴을 학습하게 되어 일반화 성능이 감소 과도한 훈련 훈련 데이터에 모델을 지나치게 많이 학습시키면 특정 데이터에 과적합될 가능성이 높아짐 해결 방안 더 많은 데이터 수집 더 많은 데이터를 수집함으로써 다양한 상황에서도 일반화 되도록 함 데이터 확장 기존 데이터를 변형하여 새로운 데이터를 생성함으로써 훈련..

[인공지능 윤리] Artificial Intelligence Ethics

데이터 과학을 하면서 지켜야 할 윤리와 주의해야 할 점들이 있습니다. 인과관계 ≠ 상관관계 이 두 용어는 종종 혼동되기도 하지만, 실제로는 다른 개념들입니다. 1. 인과 관계 (Causation): - 인과 관계는 한 사건이 다른 사건에 직접적인 영향을 주는 관계를 의미합니다. - A가 발생하면 B도 발생하고, A가 발생하지 않으면 B도 발생하지 않는 관계를 말합니다. - 인과 관계는 원인과 결과 간의 명확하고 직접적인 연결성을 나타냅니다. - 예를 들어, 비가 오면 땅이 젖게 되는 것은 인과 관계입니다. 비(원인)가 땅이 젖게 만드는 결과를 초래합니다. 2. 상관 관계 (Correlation): - 상관 관계는 두 변수 간의 통계적 연관성을 나타냅니다. - 두 변수 간에 어떠한 관련이 있을 뿐이지, 하..

728x90
반응형