인공지능 (66) 썸네일형 리스트형 [AI Tech] 1주차 5-1차시 트리 모델 5-1. 트리 모델 1. What is tree model 1.1 트리 모델의 기초 의사결정나무 Decision Tree - 칼럼(feature) 값들을 어떠한 기준으로 group을 나누어 목적에 맞는 의사결정을 만드는 방법 - 하나의 질문으로 yes 또는 no로 decision을 내려서 분류한다. 1.2 트리 모델의 발전 - Decision Tree - Random Forest - AdaBoost - GBM - XGBoost / LightGBM / CatBoost → 이거를 중점적으로 볼 예정이다. 1.3 Bagging & Boosting 여러 개의 Decision Tree를 이용하여 모델을 생성한다. Bagging - 데이터 셋을 샘플링하여 모델을 만들어 나가는 것이 특징이다. - 샘플링한 데이터 셋.. [AI Tech] 1주차 4-2차시 머신러닝 기본 개념 소개 (2) 4-2. 머신러닝 기본 개념 소개 (2) 2. Validation Strategy 2-1. What is Validation strategy Test Dataset - 가장 중요한 데이터 셋 - 정량적인 비교가 진행되어야 한다. - 테스트 데이터셋은 전체를 대표할 수 있는 것이 좋은 것이다. Validation Dataset - 주요 목적: 모델의 성능을 파악하기 위한 데이터 셋 - Validation은 Test와 최대한 유사한 것이 중요하다. - 다만, Test 데이터셋의 정보를 알 수 없을 경우(미래의 값일 경우)가 많다. - 전체 데이터셋과 유사한 데이터셋을 만드는 것이다. Train Dataset - 머신러닝 모델이 보고 학습하는 데이터셋 - 확보한 데이터셋에 따라 노이즈가 포함되었나 되지 않았나.. [AI Tech] 1주차 4-1차시 머신러닝 기본 개념 소개 (1) 4-1. 머신러닝 기본 개념 소개 1. Underfitting & Overfitting 1-1. What is Underfitting & Overfitting 용어 정리 - Fit: 데이터를 "잘" 설명할 수 있는 능력을 말한다. - Underfitting: 데이터를 설명하지 못하는 것 - Overfitting: 데이터를 과하게 설명하는 것 알아야 할 점 - 우리의 데이터 셋은 전체의 일부분이다. - Our dataset = Full dataset일 경우 Overfitting이 좋아 보일 수는 있지만, 실제로는 샘플 데이터가 전체 데이터에 비해 엄청 작다. (기억이 안 난다면 화장품의 sample을 빗대어 생각해 보자) - 데이터로 모든 것을 잘 설명할 수 있어야 한다. 주의점 - 원본 데이터는 특별한 .. [AI Tech] 1주차 3-4차시 Quiz 2 3-4. Quiz 2 1번 범주형(Categorical type) 처리에 해당하지 않는 방식으로 옳은 것을 고르시오. 1) Embedding 2) Frequency encoding 3) One hot encoding 4) Scaling 더보기 Scaling은 연속형 처리의 데이터 전처리 방식이다. 2번 ID Species A 개 B 고양이 C 개 D 고양이, 개 ID Species_Dog Species_Cat A 1 0 B 0 1 C 1 0 D 1 1 다음 예시를 보고, 설명하고 있는 인코딩(Encoding) 방식을 고르시오. 1) One-hot encoding 2) Label encoding 3) Target encoding 4) Frequency encoding 더보기 One-hot encoding이.. [AI Tech] 1주차 3-3차시 데이터 전처리 연습 3-3. 데이터 전처리 연습 1. 복습 1) EDA를 적절히 수행하기 위해 데이터의 구조를 바꾸는 것 역시 데이터 전처리 과정 중 하나이다. 2) 데이터 전처리는 EDA와 마찬가지로 정해진 답은 없고, 일반화 역시 어렵다. 3) 시작하는 과정에서 생각해 보면 좋은 방법은 존재한다. © NAVER Connect Foundation. All Rights Reserved [AI Tech] 1주차 3-2차시 데이터 전처리 (2) 3-2. 데이터 전처리 (2) 2. 결측치 처리 2-1. Pattern Missing data patterns 1. Random 2. Rule 2-2. Univariate 1. 제거 1) 해당 포인트 제거 - 데이터가 충분히 많다면 좋지 않음 2) 해당 변수를 제거 - 모델에 도움이 안 되는 변수를 제거 2. 평균값 삽입 3. 중위값 삽입 4. 상수값 삽입 → 2~4처럼 값을 삽입하는 것은 분포를 무너뜨린다. 2-3. Multivariate Model 1. 회귀분석 - X1을 X2,..., Xn으로 예측하고, X2로 X1,..., Xn을 예측한다. - 이 과정을 반복한다. 2. KNN nearest - Missing values are imputed with observed values randomly .. [AI Tech] 1주차 3-1차시 데이터 전처리 (1) 3-1. 데이터 전처리 (1) 데이터 전처리(Preprocessing) 머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정 → EDA에 따라 달라지는 데이터 전처리 → 모델, 목적에 따라 달라지는 데이터 전처리 선형? 트리? 딥러닝? 정해져 있지는 않지만, 어느 정도 분류는 되어 있다. - 연속형, 범주형 처리 - 결축치 처리 - 이상치 처리 Sklearn의 Boston Dataset*을 사용한다. 1. 연속형, 범주형 처리 1-1. 연속형 Scaling 데이터의 단위 혹은 분포를 변경한다. - 선형 기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적이다. 1. Scale 2. Scale + Distribution + Binning 방법 1. Min Max Sc.. [AI Tech] 1주차 1-Appendix2차시 Pandas 1-Appendix2. Pandas(Panel Data) 1. 정의 - 구조화된 데이터의 처리를 지원하는 Python 라이브러리 - 고성능 Array 계산 라이브러리인 Numpy와 통합하여, 강력한 "스프레드시트" 처리 기능을 제공 - 인덱싱, 연산용 함수, 전처리 함수 등을 제공함 2. 코드 # 라이브러리 호출 import pandas as pd # DATA URL data_url = 'https://archive.ics.uci.edu/m1/machine-learning-databases/housing/housing.data' # CSV 타입 데이터 df_data = pd.read_csv(data_url, sep='\s+', header = None) df_data.head() # 처음 다섯 줄 출력 .. [AI Tech] 1주차 2-4차시 Quiz 1 2-4. Quiz 1 1번 정형데이터의 예시로 올바른 것을 고르시오. 1) ".WAV" 파일 형식의 음성 데이터 2) ".JPG" 파일 형식의 이미지 데이터 3) ".XLSX" 파일 형식의 스프레드시트 데이터 4) ".AVI" 파일 형식의 비디오 데이터 2번 다음 설명중 옳지 않은 것을 고르시오. 1) 정형데이터는 관계형 데이터베이스의 테이블에 담을 수 있는 데이터이다. 2) 정형데이터는 JPEG 이미지 파일 형식을 가진다. 3) 하나의 행(row)은 하나의 데이터 인스턴스를 가진다. 4) 하나의 열(column)은 각 데이터의 피처를 나타낸다. 3번 Customer ID Product 1 Product 2 A P11 P21 B P12 P22 C P13 P23 D P14 P24 다음 표에 대한 설명으로 .. [AI Tech] 1주차 2-3차시 탐색적 자료 분석 연습 2-3. 탐색적 자료 분석 연습 1. 복습 1) EDA는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위해 시각화와 통계적 방법을 통해 다양한 각도에서 관찰하고 이해하는 과정이다. → 문제를 직관적으로 이해하고, 정답에 가까워질 수 있게 됨 2)정형데이터/비정형 데이터 구분 없이 모든 데이터 분석에서 공통적으로 진행되는 필수 과정 데이터마다 적용되는 전문지식과 변수들이 다르고, 그 안의 내용 역시 천차만별이기에 EDA과정은 일반화가 어렵고 정해진 답이 없다. © NAVER Connect Foundation. All Rights Reserved 이전 1 ··· 3 4 5 6 7 다음