2-2. 탐색적 자료 분석 (2)
3. EDA Our Data
3.1 문제 이해 및 가설 세우기
1. 문제 이해
- Aggregation?
- Time Series?
- Aggregation + Time Series?
2. 가설 세우기
- 이전 달의 total이 영향을 끼치지 않을까?
- 작년 12월 달의 total이 영향을 끼치지 않을까?
- 거주 국적에 따른 영향이 있을까?
- 고객마다 주로 구매하는 품목이 있을까? 그렇다면 target에 어떤 영향이 있을까?
3.2 가설 검정 - 연속형
1. 개별 연속형 변수
Total
가설: 환불기록이 target에 영향을 줄까?
- 최솟값과 최댓값의 다른 점은 오직 부호만 있다.
- 데이터를 확인 후 인사이트를 파악해야 한다.
가설검정: 환불건수 보다는, 구매건수 자체가 유의하다. 구매건수가 높을수록 환불건수가 높다. (상관관계가 있다)
Count
가설검정: 구매 건수와 target은 유의한 상관관계를 갖는다.
2. 연속형 변수간의 관계
Year_month total sum
가설: 2011년 11월 total에 영향을 주는 월은 무엇일까?
가설검정: 2011년 11월의 total과 작년 11월의 total이 높은 상관관계를 갖는다.
- 월별 total sum vs target
- 월별 구매건수 vs target
3.3 가설 검정 - 범주형
1. 개별 범주형 변수
Country
가설: 국가별로 월별 total의 패턴이 다를까?
Product_id
가설: 5 digits number이지만, POST, D와 같은 예외사항을 뭘까? / 5 digits number이지만 숫자의 앞부분으로 갈수록 상품의 대분류를 나타내지 않을까?
가설검정: 5 digits number 중, 앞의 두자리를 뽑아서 Count plot을 보자.
가설검정: 5 digits number 중, 앞의 세자리를 뽑아서 description을 살펴 보자 -> 연관 상품끼리 묶여 있다.
Description
product_id가 아닌 description을 처리한 후 사용할 수 있을까? -> NLL이여서 여기서는 보진 않을 것
4. Summary
1. EDA란 "데이터를 이해하고 문제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정"
2, 데이터적 통찰력
3.데이터적 상상력
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 1주차 2-4차시 Quiz 1 (0) | 2024.01.20 |
---|---|
[AI Tech] 1주차 2-3차시 탐색적 자료 분석 연습 (0) | 2024.01.20 |
[AI Tech] 1주차 2-1차시 탐색적 자료 분석 (1) (0) | 2024.01.20 |
[AI Tech] 1주차 1-4차시 프로젝트 1 (1) | 2024.01.19 |
[AI Tech] 1주차 1-3차시 파이썬 프로그래밍 연습 (0) | 2024.01.19 |