본문 바로가기

취업준비/인공지능

[AI Tech] 2주차 8-2차시 피처 엔지니어링 (2)

8-2. 피처 엔지니어링 (2)

1. Pandas Group by 누적합을 이용한 Feature Engineering

원본 데이터에서 주어진 Feature에 고객 ID, 상품 ID, 주문 ID 기반으로 Pandas Group by 누적합(cumsum) 함수를 적용해서 새로운 Feature 생성

1.1 Group by cumsum Aggregation Feature Generation

EDA를 위한 Feature 생성 코드

 

1.2 cumsum_quantity_by_prod_id-sum Feature

 

1.3 cumsum_total_by_prod_id_sum Feature

 

1.4 cumsum_total_by_prod_id-skew Feature

데이터가 pos: 왼쪽으로 쏠림, neg: 오른쪽으로 쏠림

 

1.5 cumsum_qunatity_by_prod_id-mean Feature

 

1.6 cumsum_quantity_by_order_id-skew Feature

 

1.7 cumsum_quantity_by_prod_id-max Feature

 

1.8 cumsum_price_by_prod_id-skew Feature

 

1.9 cumsum_quantity_by_prod_id-skew Feature

 

1.10 cumsum_total_by_prod_id-std Feature

label 0과 1의 분포 차이가 크기에 Feature로 사용할 수 있을 것으로 보인다.

 

1.11 cumsum_total_by_order_id-min Feature

 

1.12 cumsum_total_by_prod_id-max Feature

 

1.13 cumsum_price_by_prod_id-sum Feature

 

1.14 cumsum_price_by_prod_id-max Feature

 

1.15 cumsum_quantity_by_prod_id-std Feature

 

 

2. 주문, 상품 데이터를 활용한 Feature Engineering

2.1 Group By nunique Aggregation Feature Generation

nunique는 unique한 것의 개수를 의미한다.

EDA를 위한 Feature 생성 코드

 

2.2 oder_id-nunique Feature

 

2.3 product_id-nunique Feature

 

 

3. Time Series 특성을 이용한 Feature Engineering

3.1 month, year_month Feature Generation

 

3.2 month Feature

 

3.3 year_month Feature

 

3.4 Time-Series diff Feature Generation

 

3.5 order_ts-first Feature

고객이 최초로 구매한 시간을 나타내는 Feature이다.

 

3.6 order_ts-last Feature

마지막에 구매할수록 label이 1이 될 확률이 높다.

 

3.7 order_ts_diff-max Feature

 

3.8 order_ts_diff-skew Feature

 

3.9 order_ts_diff-std Feature

 

3.10 order_ts_diff-sum Feature

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved