기록 블로그
[TIL 33] 본문
<TIL 반드시 들어가야 할 내용>
1. 어떤 문제가 있었는지
2. 내가 시도해 본 것들(자세히 쓰기)
3. 어떻게 해결했는지
4. 뭘 새롭게 알았는지(자세히 쓰기)
회귀 특강 정리 프로젝트에서 사용한 모델에 대해서는 명확하게 알고 있어야 함. 이진 분류 다항 분류 할 때 많이 사용 됨 : 로지스틱 회귀 과적합 : 너무 잘 데이터를 배움 언더샘플링을 할 때 : 데이터가 엄청 많을 때(데이터를 날려도 될 때) 장점 : 예측하고 싶은 비정상적인 패턴을 안 건들여도 됨/원본 그대로 가지고 예측 가능 오버샘플링 : 소수의 클래스를 증가 장점 : 데이터가 많이 없는 경우에도 사용 가능 단점 : 비정상 데이터를 조작하기 때문에 이 조작한 데이터가 비정상(사실)인지 아닌지 확실하지 않음 정확도, 정밀도, 재현율 공식 확인해보기 정확도와 정밀도의 차이 정확도는 전체 확율 그냥 모델이 통상 잘 맞춤 (정상이 중요한 사람 : 구매자 정밀도는 성공 확율 (비정상 수치형 데이터에는 이산형 데이터 0 1 2 3 4 연속형 데이터 0.1 0.001 가 존재 남과 여를 0과 1로 만든다. 남과 여 범주형 라벨링 결측치 처리할 때 처리하는 과정에 대해서 자세하게 설명하는게 좋음(이러한 가설을 세웠고, 그래서 이런 행동을 했고 그랬더니 모델 성능이 좋아짐) EDA를 많이 해서 잘 파악하기 원핫 인코딩과 레이블 인코딩을 잘 구분해서 써야함 (조심해서 써야하는 이유 : 모델이 보기에 숫자에 의미를 부여할 수 있음 컬럼별 상관관계 파악 잘하기 |