본문 바로가기

취업준비

(68)
[AI Tech] 1주차 5-2차시 트리 모델 연습 5-2. 트리 모델 연습 1. 복습 트리 모델 1) 나무 구조를 활용해 Feature 값을 특정 기준으로 분류하고 목적에 맞는 의사결정을 만드는 모델이다. 2) 가장 기본이 되는 모델로는 '의사결정나무(Decision Tree)'로 볼 수 있다. 3) 이외에 Random Forest, AdaBoost, GBM, XGBoost, LightBGM, CatBoost 등이 있다. © NAVER Connect Foundation. All Rights Reserved
[AI Tech] 1주차 5-1차시 트리 모델 5-1. 트리 모델 1. What is tree model 1.1 트리 모델의 기초 의사결정나무 Decision Tree - 칼럼(feature) 값들을 어떠한 기준으로 group을 나누어 목적에 맞는 의사결정을 만드는 방법 - 하나의 질문으로 yes 또는 no로 decision을 내려서 분류한다. 1.2 트리 모델의 발전 - Decision Tree - Random Forest - AdaBoost - GBM - XGBoost / LightGBM / CatBoost → 이거를 중점적으로 볼 예정이다. 1.3 Bagging & Boosting 여러 개의 Decision Tree를 이용하여 모델을 생성한다. Bagging - 데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징이다. - 샘플링한 데이터 셋..
[AI Tech] 1주차 4-2차시 머신러닝 기본 개념 소개 (2) 4-2. 머신러닝 기본 개념 소개 (2) 2. Validation Strategy 2-1. What is Validation strategy Test Dataset - 가장 중요한 데이터 셋 - 정량적인 비교가 진행되어야 한다. - 테스트 데이터셋은 전체를 대표할 수 있는 것이 좋은 것이다. Validation Dataset - 주요 목적: 모델의 성능을 파악하기 위한 데이터 셋 - Validation은 Test와 최대한 유사한 것이 중요하다. - 다만, Test 데이터셋의 정보를 알 수 없을 경우(미래의 값일 경우)가 많다. - 전체 데이터셋과 유사한 데이터셋을 만드는 것이다. Train Dataset - 머신러닝 모델이 보고 학습하는 데이터셋 - 확보한 데이터셋에 따라 노이즈가 포함되었나 되지 않았나..
[AI Tech] 1주차 4-1차시 머신러닝 기본 개념 소개 (1) 4-1. 머신러닝 기본 개념 소개 1. Underfitting & Overfitting 1-1. What is Underfitting & Overfitting 용어 정리 - Fit: 데이터를 "잘" 설명할 수 있는 능력을 말한다. - Underfitting: 데이터를 설명하지 못하는 것 - Overfitting: 데이터를 과하게 설명하는 것 알아야 할 점 - 우리의 데이터 셋은 전체의 일부분이다. - Our dataset = Full dataset일 경우 Overfitting이 좋아 보일 수는 있지만, 실제로는 샘플 데이터가 전체 데이터에 비해 엄청 작다. (기억이 안 난다면 화장품의 sample을 빗대어 생각해 보자) - 데이터로 모든 것을 잘 설명할 수 있어야 한다. 주의점 - 원본 데이터는 특별한 ..
[AI Tech] 1주차 3-4차시 Quiz 2 3-4. Quiz 2 1번 범주형(Categorical type) 처리에 해당하지 않는 방식으로 옳은 것을 고르시오. 1) Embedding 2) Frequency encoding 3) One hot encoding 4) Scaling 더보기 Scaling은 연속형 처리의 데이터 전처리 방식이다. 2번 ID Species A 개 B 고양이 C 개 D 고양이, 개 ID Species_Dog Species_Cat A 1 0 B 0 1 C 1 0 D 1 1 다음 예시를 보고, 설명하고 있는 인코딩(Encoding) 방식을 고르시오. 1) One-hot encoding 2) Label encoding 3) Target encoding 4) Frequency encoding 더보기 One-hot encoding이..
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 3-3. 데이터 전처리 연습 1. 복습 1) EDA를 적절히 수행하기 위해 데이터의 구조를 바꾸는 것 역시 데이터 전처리 과정 중 하나이다. 2) 데이터 전처리는 EDA와 마찬가지로 정해진 답은 없고, 일반화 역시 어렵다. 3) 시작하는 과정에서 생각해 보면 좋은 방법은 존재한다. © NAVER Connect Foundation. All Rights Reserved
[AI Tech] 1주차 3-2차시 데이터 전처리 (2) 3-2. 데이터 전처리 (2) 2. 결측치 처리 2-1. Pattern Missing data patterns 1. Random 2. Rule 2-2. Univariate 1. 제거 1) 해당 포인트 제거 - 데이터가 충분히 많다면 좋지 않음 2) 해당 변수를 제거 - 모델에 도움이 안 되는 변수를 제거 2. 평균값 삽입 3. 중위값 삽입 4. 상수값 삽입 → 2~4처럼 값을 삽입하는 것은 분포를 무너뜨린다. 2-3. Multivariate Model 1. 회귀분석 - X1을 X2,..., Xn으로 예측하고, X2로 X1,..., Xn을 예측한다. - 이 과정을 반복한다. 2. KNN nearest - Missing values are imputed with observed values randomly ..
[AI Tech] 1주차 3-1차시 데이터 전처리 (1) 3-1. 데이터 전처리 (1) 데이터 전처리(Preprocessing) 머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정 → EDA에 따라 달라지는 데이터 전처리 → 모델, 목적에 따라 달라지는 데이터 전처리 선형? 트리? 딥러닝? 정해져 있지는 않지만, 어느 정도 분류는 되어 있다. - 연속형, 범주형 처리 - 결축치 처리 - 이상치 처리 Sklearn의 Boston Dataset*을 사용한다. 1. 연속형, 범주형 처리 1-1. 연속형 Scaling 데이터의 단위 혹은 분포를 변경한다. - 선형 기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적이다. 1. Scale 2. Scale + Distribution + Binning 방법 1. Min Max Sc..
[AI Tech] 1주차 1-Appendix2차시 Pandas 1-Appendix2. Pandas(Panel Data) 1. 정의 - 구조화된 데이터의 처리를 지원하는 Python 라이브러리 - 고성능 Array 계산 라이브러리인 Numpy와 통합하여, 강력한 "스프레드시트" 처리 기능을 제공 - 인덱싱, 연산용 함수, 전처리 함수 등을 제공함 2. 코드 # 라이브러리 호출 import pandas as pd # DATA URL data_url = 'https://archive.ics.uci.edu/m1/machine-learning-databases/housing/housing.data' # CSV 타입 데이터 df_data = pd.read_csv(data_url, sep='\s+', header = None) df_data.head() # 처음 다섯 줄 출력 ..
[AI Tech] 1주차 1-Appendix1차시 Numpy 1-Appendix1. Numpy 1. 정의 - Numerical Python - 파이썬의 고성능 과학 계산용 패키지 - Matrix와 Vector와 같은 Array 연산의 사실상의 표준 - 한글로 넘파이로 주로 통칭 2. 특징 - 일반 List에 비해 빠르고, 메모리 효율적 - 반복문 없이 데이터 배열에 대한 처리를 지원함 - 선형대수와 관련된 다양한 기능을 제공함 © NAVER Connect Foundation. All Rights Reserved