본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 2-2차시 탐색적 자료 분석 (2)

2-2. 탐색적 자료 분석 (2)

3. EDA Our Data

3.1 문제 이해 및 가설 세우기

1. 문제 이해

- Aggregation?

- Time Series?

- Aggregation + Time Series?

2. 가설 세우기

- 이전 달의 total이 영향을 끼치지 않을까?

- 작년 12월 달의 total이 영향을 끼치지 않을까?

- 거주 국적에 따른 영향이 있을까?

- 고객마다 주로 구매하는 품목이 있을까? 그렇다면 target에 어떤 영향이 있을까?

 

3.2 가설 검정 - 연속형

1. 개별 연속형 변수

Total

가설: 환불기록이 target에 영향을 줄까?

- 최솟값과 최댓값의 다른 점은 오직 부호만 있다.

- 데이터를 확인 후 인사이트를 파악해야 한다.

가설검정: 환불건수 보다는, 구매건수 자체가 유의하다. 구매건수가 높을수록 환불건수가 높다. (상관관계가 있다)

Count

가설검정: 구매 건수와 target은 유의한 상관관계를 갖는다.

2. 연속형 변수간의 관계

Year_month total sum

가설: 2011년 11월 total에 영향을 주는 월은 무엇일까?

가설검정: 2011년 11월의 total과 작년 11월의 total이 높은 상관관계를 갖는다.

- 월별 total sum vs target

- 월별 구매건수 vs target

 

3.3 가설 검정 - 범주형

1. 개별 범주형 변수

Country

가설: 국가별로 월별 total의 패턴이 다를까?

Product_id

가설: 5 digits number이지만, POST, D와 같은 예외사항을 뭘까? / 5 digits number이지만 숫자의 앞부분으로 갈수록 상품의 대분류를 나타내지 않을까?

가설검정: 5 digits number 중, 앞의 두자리를 뽑아서 Count plot을 보자.

가설검정: 5 digits number 중, 앞의 세자리를 뽑아서 description을 살펴 보자 -> 연관 상품끼리 묶여 있다.

Description

product_id가 아닌 description을 처리한 후 사용할 수 있을까? -> NLL이여서 여기서는 보진 않을 것

 

 

4. Summary

1. EDA란 "데이터를 이해하고 문제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정"

2, 데이터적 통찰력

3.데이터적 상상력

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved