본문 바로가기

데이터_전처리

(4)
[AI Tech] 1주차 3-4차시 Quiz 2 3-4. Quiz 2 1번 범주형(Categorical type) 처리에 해당하지 않는 방식으로 옳은 것을 고르시오. 1) Embedding 2) Frequency encoding 3) One hot encoding 4) Scaling 더보기 Scaling은 연속형 처리의 데이터 전처리 방식이다. 2번 ID Species A 개 B 고양이 C 개 D 고양이, 개 ID Species_Dog Species_Cat A 1 0 B 0 1 C 1 0 D 1 1 다음 예시를 보고, 설명하고 있는 인코딩(Encoding) 방식을 고르시오. 1) One-hot encoding 2) Label encoding 3) Target encoding 4) Frequency encoding 더보기 One-hot encoding이..
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 3-3. 데이터 전처리 연습 1. 복습 1) EDA를 적절히 수행하기 위해 데이터의 구조를 바꾸는 것 역시 데이터 전처리 과정 중 하나이다. 2) 데이터 전처리는 EDA와 마찬가지로 정해진 답은 없고, 일반화 역시 어렵다. 3) 시작하는 과정에서 생각해 보면 좋은 방법은 존재한다. © NAVER Connect Foundation. All Rights Reserved
[AI Tech] 1주차 3-2차시 데이터 전처리 (2) 3-2. 데이터 전처리 (2) 2. 결측치 처리 2-1. Pattern Missing data patterns 1. Random 2. Rule 2-2. Univariate 1. 제거 1) 해당 포인트 제거 - 데이터가 충분히 많다면 좋지 않음 2) 해당 변수를 제거 - 모델에 도움이 안 되는 변수를 제거 2. 평균값 삽입 3. 중위값 삽입 4. 상수값 삽입 → 2~4처럼 값을 삽입하는 것은 분포를 무너뜨린다. 2-3. Multivariate Model 1. 회귀분석 - X1을 X2,..., Xn으로 예측하고, X2로 X1,..., Xn을 예측한다. - 이 과정을 반복한다. 2. KNN nearest - Missing values are imputed with observed values randomly ..
[AI Tech] 1주차 3-1차시 데이터 전처리 (1) 3-1. 데이터 전처리 (1) 데이터 전처리(Preprocessing) 머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정 → EDA에 따라 달라지는 데이터 전처리 → 모델, 목적에 따라 달라지는 데이터 전처리 선형? 트리? 딥러닝? 정해져 있지는 않지만, 어느 정도 분류는 되어 있다. - 연속형, 범주형 처리 - 결축치 처리 - 이상치 처리 Sklearn의 Boston Dataset*을 사용한다. 1. 연속형, 범주형 처리 1-1. 연속형 Scaling 데이터의 단위 혹은 분포를 변경한다. - 선형 기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적이다. 1. Scale 2. Scale + Distribution + Binning 방법 1. Min Max Sc..