본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 6차시 프로젝트 2

6. 프로젝트 2

[프로젝트 2] 캐글러가 되자 - Housing data (1)

1. 목표

v 캐글 가입하기

v 학습 데이터에서 라벨 제거하기

v 결측치 데이터 비율 계산하기

 

2. 프로젝트 코드

코드 구현: 캐글 가입하기

## 코드시작 ##
# 미션 1 코드 작성 : 캐글에 가입하고, 프로필명 공유하기

print('캐글프로필명')  # '...' 에 프로필명을 채워주세요

## 코드종료 ##

 

코드 구현: 학습 데이터에서 라벨 제거하기

import warnings
warnings.filterwarnings("ignore")

import os
from os.path import join

import pandas as pd
import numpy as np

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, cross_val_score
import xgboost as xgb
import lightgbm as lgb

import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 다운로드
!wget –no-check-certificate 'https://docs.google.com/uc?export=download&id=1IVvuG3SMlarSSGmcliGFjq1fMxZtksE0' -O kaggle-kakr-housing-data.zip

# 다운로드 받은 zip파일 압축풀기
!unzip -qq ./kaggle-kakr-housing-data.zip

train_data_path = './data/train.csv'
test_data_path = './data/test.csv'

data = pd.read_csv(train_data_path)
sub = pd.read_csv(test_data_path)
print('train data dim : {}'.format(data.shape))
print('sub data dim : {}'.format(sub.shape))

# data의 price를 y로 옮기기
y = data['price']

## 코드시작 ##
# 미션 2 코드 작성 : data에서 price 컬럼을 완전히 삭제하기

del data['price']


## 코드종료 ##

print(data.columns)

train_len = len(data) # 학습데이터의 수
data = pd.concat((data, sub), axis=0) # 학습데이터와 테스트 데이터 합치기

print(len(data)) # 합쳐진 데이터의 수
data.head() # 데이터 확인

data.info()

 

코드 구현: 결측치 데이터 비율 계산하기

## 코드시작 ##
# 미션 3-1 코드 작성 : data에 isna와 sum을 적용하여 각 컬럼의 결측치 수를 확인해보세요.

missing = pd.isna(data).sum() # '...' 을 코드로 채워주세요
print(missing)


## 코드종료 ##

missing/data.shape[0]

data.describe()

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved