3-2. 데이터 전처리 (2)
2. 결측치 처리
2-1. Pattern
Missing data patterns
1. Random
2. Rule
2-2. Univariate
1. 제거
1) 해당 포인트 제거
- 데이터가 충분히 많다면 좋지 않음
2) 해당 변수를 제거
- 모델에 도움이 안 되는 변수를 제거
2. 평균값 삽입
3. 중위값 삽입
4. 상수값 삽입
→ 2~4처럼 값을 삽입하는 것은 분포를 무너뜨린다.
2-3. Multivariate
Model
1. 회귀분석
- X1을 X2,..., Xn으로 예측하고, X2로 X1,..., Xn을 예측한다.
- 이 과정을 반복한다.
2. KNN nearest
- Missing values are imputed with observed values randomly chosen from "similar" responding units.
Multivariate(합리적 접근법)
- 행정구역인구, 관할소방서인원
- 강수량
- 토지이용상황명, 도로측연명, 용도지역지구명
- 온도, 습도, 풍속
- 풍량
3. 이상치 처리
3-1. 이상치란?
데이터중 일반적인 데이터와 크게 다른 것을 말한다.
3-2. 이상치 탐색
1. Z-Score
2. IQR
3-3. 이상치 처리 관점
1. 정성적인 측면
- 이상치 발생 이유
- 이상치 의미
등을 알아봐야 한다.
2. 성능적인 측면
- Train Test Distribution
- 이상치를 제거함으로써 성능이 향상됨을 살펴보는 것이다.
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 1주차 3-4차시 Quiz 2 (0) | 2024.01.20 |
---|---|
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 (0) | 2024.01.20 |
[AI Tech] 1주차 3-1차시 데이터 전처리 (1) (1) | 2024.01.20 |
[AI Tech] 1주차 1-Appendix2차시 Pandas (0) | 2024.01.20 |
[AI Tech] 1주차 1-Appendix1차시 Numpy (0) | 2024.01.20 |