Feature Engineering

Feature Engineering

2019. 10. 30. 06:42ㆍAlgorithm

Feature Engineering for Machine Learning

리스케일링

알고리즘은 여러 변수의 상대적인 크기에 상당히 민감하다. 범위가 다른 여러개의 다양한 파라미터가 있는 경우 어떤 알고리즘은 편차가 더 큰 변수를 주요 변수로 간주하기도 한다.
각 파라미터의 스케일이 매우 다른 경우 모델이 학습하려는 파라미터 공간이 매우 왜곡되고 복잡해 질 수 있다. 이 때, Gradient Descent Algorithm을 사용할 경우 local minima 또는 경사면의 다른 복잡한 위치에 빠지는 경향이 있다.
고전적인 방법으로는 0과 1사이의 값으로 스케일은 선형 재조정 하는 방법이 있다. → 파라미터들이 동일 범위내에 있게 된다.
비선형 스케일링으로는 제곱 스케일링, 제곱근 스케일링, 로그 스케일링 등이 있다.

변수 생성

여러 데이터 요소를 이용하여 단일 측정값 내에서 파생 측정 기준을 이용할 수 있다. (ex : 가속도, 체질량, 주가지수에 대한 가격 수익 비율 등)
두 가지 변수 조합 : A, B (파라미터)로 곱셈, 나눗셈, 정규화
시간 경과에 따른 변화 측정 : 가속, 주, 월, 년 등의 변환
기준선을 이용한 편차 제거 : 기본 기대치를 기준으로 파라미터 조정
정규화

범주형 데이터의 재해석

원핫 인코딩 (One-hot encoding) : 카테고리 결과를 이진 변수 집합으로 벼경하고 각 결과 옵션을 이진 변수로 나타냄
해시 트릭 (hash trick) : 텍스트 코드에 주로 사용됨. 데이터를 숫자로 변환. 일반적으로 좋은 해시 함수는 입력 텍스트의 작은 변화에도 출력이 크게 바뀌는 것이다. Zipf분포를 이용해 다른 조건이 얼마나 자주 사용되는지 알 수 있다. 또한 좋은 해싱 함수는 출력에 제한된 범위를 가져야 한다. 해시를 적용하지 않음 Bag-of-word피처에 대해 학습한 결과와 비교 시, 성능 저하 없이 데이터 차원이 줄어드는 것을 알 수 있다.

Feature Selection

제한 없는 변수의 추가는 특정 모델에 대한 오버피팅이 일어날 가능성이 있고 모델의 성능이 저하될 수 있다.

초반에는 작은 데이터 셋에서 시작하며 성능에 현저한 개선이 있을 경우에 파라미터를 추가했다. 그러나 최근 관점이 바뀌어 매우 큰 피처세트에서 가장 효과적인 파라미터 서브셋이 식별 될 때까지 조합을 테스트 하는 방법이 부각되었고 머신러닝 분야에서 많이 사용되고 있다.

상관관계 이용

다중 공선성 (multicollinearity) : 데이터셋을 구성하는 피처들간의 일정수준 또는 높은 상관과계가 있는 것 → 모델 성능 하락 유발
- 구조적 다중 공선성 (Structural Multicollinearity) : 신규 피처 생성 시 발생
- 데이터 기반 다중 공선성 (Data-based Multicollinearity) : 2개의 변수가 동일 요소에 의해 영향을 받을 시 발생
데이터의 상관관계 행렬에 대한 고유값 (eigenvalues)를 검토하여 다중 공선성을 테스트 할 수 있다. 고유값 집합으로 피처가 데이터셋에 대해 '새로운 정보'를 얼마나 많이 제공하는지 측정할 수 있다. 고유값이 작으면 해당 데이터는 다른 피처와 상관관계가 있을 수 있다.

정규화

정규화 기법은 피처 셀렉션 중 효과적인 방법 중 하나이다.
많이 사용하는 정규화 모델 중 L1은 Lasso, L2는 Ridge Regression 이라고도 한다.
Lasso는 중요하지 않은 피처에 대해서 계수를 0으로 한다. 효과적이긴 하지만 Lasso 기법이 반영된 회귀 모델은 안정성이 약할 수 있다
이 문제는 Ridge Regression기법을 통해 해결 가능하다. 제곱 계수를 페널티로 사용함으로써 피처 셀렉션에 직접적 효과를 보이지는 않지만 안정적이고 신뢰도가 높다.

RFE

유전자 모델

PSO알고리즘 (Particle Swam Optimization, 입자 군집 최적화) (0)	2019.10.07
P-value #2/2 (0)	2019.09.26
P-value # 1/2 (0)	2019.09.11

행복한 직장인