3-4. Quiz 2
1번
범주형(Categorical type) 처리에 해당하지 않는 방식으로 옳은 것을 고르시오.
1) Embedding
2) Frequency encoding
3) One hot encoding
4) Scaling
Scaling은 연속형 처리의 데이터 전처리 방식이다.
2번
ID | Species |
A | 개 |
B | 고양이 |
C | 개 |
D | 고양이, 개 |
ID | Species_Dog | Species_Cat |
A | 1 | 0 |
B | 0 | 1 |
C | 1 | 0 |
D | 1 | 1 |
다음 예시를 보고, 설명하고 있는 인코딩(Encoding) 방식을 고르시오.
1) One-hot encoding
2) Label encoding
3) Target encoding
4) Frequency encoding
One-hot encoding이란 N개의 범주형 데이터를 N개의 비트(0과 1) 벡터로 표현하는 방식을 말한다.
3번
패턴을 특정 짓기 어렵거나 랜덤으로 결측치가 발생한 경우 사용할 수 있는 결측치 대치 방법으로 적절하지 않은 것은?
1) 반복적인 데이터와 동일한 값으로 채우는 방법
2) Datapoint를 제거하는 방법
3) 결측치가 발생한 변수의 평균값이나 중간값을 삽입하는 방법
4) 특정상수 값으로 채우는 방법
특정 패턴이 존재하는 경우 반복적으로 발생하는 변수값과 동일한 값으로 결측치를 채워준다.
하지만 패턴을 특정하기 어렵거나 랜덤으로 발생한 경우에 대해서는
1) Data point 를 제거 하는 방법
2) 해당 결측치가 발생한 변수의 평균값이나 중앙값을 삽입하는 방법
3) 특정 값으로 채우는 방법
등이 있습니다.
4번
이상치 처리에 관련된 그래프에 대한 설명으로 옳지 않은 것을 고르시오.
1) (B)의 그래프는 샘플들이 랜덤하게 흩어져 있으며 XY간의 상관관계가 거의 없다.
2) (A) 그래프는 XY 간의 상관관계가 상당히 낮으며, Outlier로 추정되는 샘플이 몇개 존재한다.
3) (C) 그래프는 (D) 그래프에서 Outlier로 추측되는 데이터를 제거한 상태로 Linear한 관계를 가진다.
4) 이상치는 처리에 따라 모델의 성능에 큰 영향을 미칠 수 있다.
(A) 그래프는 XY 간의 상관관계가 상당히 높으며 Outlier로 추정되는 샘플이 몇 개 존재한다.
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 1주차 4-2차시 머신러닝 기본 개념 소개 (2) (3) | 2024.01.21 |
---|---|
[AI Tech] 1주차 4-1차시 머신러닝 기본 개념 소개 (1) (1) | 2024.01.21 |
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 (0) | 2024.01.20 |
[AI Tech] 1주차 3-2차시 데이터 전처리 (2) (0) | 2024.01.20 |
[AI Tech] 1주차 3-1차시 데이터 전처리 (1) (1) | 2024.01.20 |