8-2. 피처 엔지니어링 (2)
1. Pandas Group by 누적합을 이용한 Feature Engineering
원본 데이터에서 주어진 Feature에 고객 ID, 상품 ID, 주문 ID 기반으로 Pandas Group by 누적합(cumsum) 함수를 적용해서 새로운 Feature 생성
1.1 Group by cumsum Aggregation Feature Generation
EDA를 위한 Feature 생성 코드
1.2 cumsum_quantity_by_prod_id-sum Feature
1.3 cumsum_total_by_prod_id_sum Feature
1.4 cumsum_total_by_prod_id-skew Feature
데이터가 pos: 왼쪽으로 쏠림, neg: 오른쪽으로 쏠림
1.5 cumsum_qunatity_by_prod_id-mean Feature
1.6 cumsum_quantity_by_order_id-skew Feature
1.7 cumsum_quantity_by_prod_id-max Feature
1.8 cumsum_price_by_prod_id-skew Feature
1.9 cumsum_quantity_by_prod_id-skew Feature
1.10 cumsum_total_by_prod_id-std Feature
label 0과 1의 분포 차이가 크기에 Feature로 사용할 수 있을 것으로 보인다.
1.11 cumsum_total_by_order_id-min Feature
1.12 cumsum_total_by_prod_id-max Feature
1.13 cumsum_price_by_prod_id-sum Feature
1.14 cumsum_price_by_prod_id-max Feature
1.15 cumsum_quantity_by_prod_id-std Feature
2. 주문, 상품 데이터를 활용한 Feature Engineering
2.1 Group By nunique Aggregation Feature Generation
nunique는 unique한 것의 개수를 의미한다.
2.2 oder_id-nunique Feature
2.3 product_id-nunique Feature
3. Time Series 특성을 이용한 Feature Engineering
3.1 month, year_month Feature Generation
3.2 month Feature
3.3 year_month Feature
3.4 Time-Series diff Feature Generation
3.5 order_ts-first Feature
고객이 최초로 구매한 시간을 나타내는 Feature이다.
3.6 order_ts-last Feature
마지막에 구매할수록 label이 1이 될 확률이 높다.
3.7 order_ts_diff-max Feature
3.8 order_ts_diff-skew Feature
3.9 order_ts_diff-std Feature
3.10 order_ts_diff-sum Feature
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 2주차 9-2차시 피처 엔지니어링 연습 (0) | 2024.01.24 |
---|---|
[AI Tech] 2주차 9-1차시 피처 중요도와 피처 선택 (0) | 2024.01.24 |
[AI Tech] 2주차 8-1차시 피처 엔지니어링 (1) (0) | 2024.01.23 |
[AI Tech] 1주차 7차시 프로젝트 3 (0) | 2024.01.21 |
[AI Tech] 1주차 6차시 프로젝트 2 (1) | 2024.01.21 |