ML 2

[Feature Engineering] MI & Creating Features 연습하기

새로운 Feature들을 발견해내기 위해서는 도메인 지식에 대한 이해와 더불어 이전 선행 연구들이 있는 지에 대해 살피는 것이 좋다. 또한 데이터 시각화를 통해 복잡한 관계를 단순화 할 방법이 있을 수 있기에 feature engineering 과정에서 시각화를 함께 진행하는 것이 좋다. Mathematical Transforms 기본적인 사칙연산 등과 같은 연산의 경우 외에도 로그 변환 등을 할 때 활용하게 된다. Counts 주로 Boolean 형태로 정의하게 되며 df['feature1'] = df[['feature2', 'feature3', 'feature4']].sum(axis=1) 와 같은 형태로 변환할 수 있다. Building-Up and Breaking-Down Features 시간에 대..

ML 2024.03.25

[Feature Engineering] Mutual Information이란?

ML에 대한 전반적인 복습을 위해 Kaggle에 있는 Feature Engineering을 통해 그 개념들과 예제에 대해서 다시 복기해보고자 한다. 튜토리얼에 나와 있는 Feature Engineering의 목적을 살펴보면 다음과 같다. "The goal of feature engineering is simply to make your data better suited to the problem at hand." Feature Engineering을 통해 얻을 수 있는 효과는 다음과 같다. 1) 모델의 예측 성능 향상 2) 계산적인 요구(computational needs)나 데이터 양에 대한 요구(data needs)를 줄여줌 3) 결과에 대한 해석 가능성 향상 유용한 Feature 발굴을 위해서는 만..

ML 2024.03.24