6. 프로젝트 2
[프로젝트 2] 캐글러가 되자 - Housing data (1)
1. 목표
v 캐글 가입하기
v 학습 데이터에서 라벨 제거하기
v 결측치 데이터 비율 계산하기
2. 프로젝트 코드
코드 구현: 캐글 가입하기
## 코드시작 ##
# 미션 1 코드 작성 : 캐글에 가입하고, 프로필명 공유하기
print('캐글프로필명') # '...' 에 프로필명을 채워주세요
## 코드종료 ##
코드 구현: 학습 데이터에서 라벨 제거하기
import warnings
warnings.filterwarnings("ignore")
import os
from os.path import join
import pandas as pd
import numpy as np
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, cross_val_score
import xgboost as xgb
import lightgbm as lgb
import matplotlib.pyplot as plt
import seaborn as sns
# 데이터 다운로드
!wget –no-check-certificate 'https://docs.google.com/uc?export=download&id=1IVvuG3SMlarSSGmcliGFjq1fMxZtksE0' -O kaggle-kakr-housing-data.zip
# 다운로드 받은 zip파일 압축풀기
!unzip -qq ./kaggle-kakr-housing-data.zip
train_data_path = './data/train.csv'
test_data_path = './data/test.csv'
data = pd.read_csv(train_data_path)
sub = pd.read_csv(test_data_path)
print('train data dim : {}'.format(data.shape))
print('sub data dim : {}'.format(sub.shape))
# data의 price를 y로 옮기기
y = data['price']
## 코드시작 ##
# 미션 2 코드 작성 : data에서 price 컬럼을 완전히 삭제하기
del data['price']
## 코드종료 ##
print(data.columns)
train_len = len(data) # 학습데이터의 수
data = pd.concat((data, sub), axis=0) # 학습데이터와 테스트 데이터 합치기
print(len(data)) # 합쳐진 데이터의 수
data.head() # 데이터 확인
data.info()
코드 구현: 결측치 데이터 비율 계산하기
## 코드시작 ##
# 미션 3-1 코드 작성 : data에 isna와 sum을 적용하여 각 컬럼의 결측치 수를 확인해보세요.
missing = pd.isna(data).sum() # '...' 을 코드로 채워주세요
print(missing)
## 코드종료 ##
missing/data.shape[0]
data.describe()
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 2주차 8-1차시 피처 엔지니어링 (1) (0) | 2024.01.23 |
---|---|
[AI Tech] 1주차 7차시 프로젝트 3 (0) | 2024.01.21 |
[AI Tech] 1주차 5-3차시 Quiz 3 (1) | 2024.01.21 |
[AI Tech] 1주차 5-2차시 트리 모델 연습 (1) | 2024.01.21 |
[AI Tech] 1주차 5-1차시 트리 모델 (2) | 2024.01.21 |