본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 2-1차시 탐색적 자료 분석 (1)

2-1. 탐색적 자료 분석 (1)

1. EDA

1.1 EDA 정의

- EDA(Exploratory Data Analysis, 탐색적 데이터 분석)은 데이터를 탐색하고 가설을 세우고 증명하는 과정을 의미한다.

- 다양한 시각을 통해 데이터를 이해하고 특정하고 찾아내는 과정

→ 이러한 특징들을 시각화, 통계량으로 표현한다.

→ 데이터를 특징과 문제들을 직관적으로 이해한다.

- 정형, 비정형 모든 데이터는 분석에 앞서서 이러한 EDA 과정을 수반한다.

 

1.2 EDA 과정

- 주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정

→ 문제를 해결하는 과정에서 데이터에 대한 이해는 필수적이다.

→ 문제에 대한 이해와 데이터에 대한 이해를 통해 적절한 전처리, 방법론들을 선택한다.

- 즉, 데이터를 통한 문제를 해결하기 위해 데이터를 이해하고 적절한 방법들을 적용하는 것이다.

- 탐색하고 생각하고 증명하는 과정의 반복

1. Data에 대한 가설 혹은 의문

2. 시각화 혹은 통계량, 모델링을 통한 가설 검증 (역으로 인사이트를 파악하기도 한다.)

3. 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결

- 데이터마다 상이한 도메인

데이터마다 도메인이 상이하고 해결하고자 하는 문제가 다르다.

→ 데이터의 종류, 그리고 사용하게 되는 모델에 따라 EDA의 방향성은 그때그때 다르다.

→ 금융, 제조, 보건 등 데이터는 고유의 도메인을 가진다.

→ 일반화가 어렵고 정해진 답이 없다.

- EDA의 시작

많은 가설 혹은 의문을 생각하고 풀어나가는 것이 좋지만, EDA에 대한 개요가 없다면 너무 비효율적이다.

그렇기에 EDA에 대한 시작은

1. 개별 변수의 분포(Variation)

2. 변수간의 분포와 관계(Covariation)

 

2. EDA Titanic Data

2.1 데이터 파악

1. Passenger ID: 승객 ID

2. Survived: 생존(1) 또는 사망(0)

3. Pclass: 승객 class(1, 2, 3)

4. Name: 승객 이름

5. Sex: 승객 성별

6. Age: 승객 나이

7. SibSp: 승객의 형제자매 / 배우자 수

8. Parch: 승객의 부모 / 자녀 수

9. Ticket: 표 번호 → 데이터 전처리가 필요하기에 사용 안 함

10. Fare: 요금

11. Cabin: 선실 → 데이터 전처리가 필요하기에 사용 안 함

12. Embarked: 승선한 항구 지역(S=Southampton, C=Cherbourg, Q=Queenstown)

 

2.2 개별변수

1. 연속형

2. 범주형

Class, Sex, Embarked

 

2.3 변수 간의 관계

1. 변수 간의 관계

1) 남성보다 여성이 더 적게 사망한 점

→ 이유를 찾아가는 과정에서 데이터를 분석할 수 있다.

2) 이름에서 Mrs, Mme, the Countess, Dona = married(Yes)

→ 미혼, 기혼 판별 가능

3) 기혼 여성이 생존율이 높음

→ 왜 높은지 이유를 생각해봐야 함

4) SibSp + Parch = 0

→ solo

데이터를 분석하고 다양한 고민을 해보자

 

5) FamilyType이라는 새로운 변수를 만들어 "Large", "Medium", "Single"(각각 가족 구성원이 많은 순)

→ 오히려 가족이 많을수록 살아남지 못하는 경우가 많았다.

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved