Feature Engineering

2019. 10. 30. 06:42Algorithm

Feature Engineering for Machine Learning

 

리스케일링

  • 알고리즘은 여러 변수의 상대적인 크기에 상당히 민감하다. 범위가 다른 여러개의 다양한 파라미터가 있는 경우 어떤 알고리즘은 편차가 더 큰 변수를 주요 변수로 간주하기도 한다. 

  • 각 파라미터의 스케일이 매우 다른 경우 모델이 학습하려는 파라미터 공간이 매우 왜곡되고 복잡해 질 수 있다. 이 때, Gradient Descent Algorithm을 사용할 경우 local minima 또는 경사면의 다른 복잡한 위치에 빠지는 경향이 있다. 

  • 고전적인 방법으로는 0과 1사이의 값으로 스케일은 선형 재조정 하는 방법이 있다. → 파라미터들이 동일 범위내에 있게 된다.

  • 비선형 스케일링으로는 제곱 스케일링, 제곱근 스케일링, 로그 스케일링 등이 있다. 

변수 생성

  • 여러 데이터 요소를 이용하여 단일 측정값 내에서 파생 측정 기준을 이용할 수 있다. (ex : 가속도, 체질량, 주가지수에 대한 가격 수익 비율 등)

  • 두 가지 변수 조합 : A, B (파라미터)로 곱셈, 나눗셈, 정규화

  • 시간 경과에 따른 변화 측정 : 가속, 주, 월, 년 등의 변환

  • 기준선을 이용한 편차 제거 : 기본 기대치를 기준으로 파라미터 조정

  • 정규화

범주형 데이터의 재해석

  • 원핫 인코딩 (One-hot encoding) : 카테고리 결과를 이진 변수 집합으로 벼경하고 각 결과 옵션을 이진 변수로 나타냄

  • 해시 트릭 (hash trick) : 텍스트 코드에 주로 사용됨. 데이터를 숫자로 변환. 일반적으로 좋은 해시 함수는 입력 텍스트의 작은 변화에도 출력이 크게 바뀌는 것이다. Zipf분포를 이용해 다른 조건이 얼마나 자주 사용되는지 알 수 있다. 또한 좋은 해싱 함수는 출력에 제한된 범위를 가져야 한다. 해시를 적용하지 않음 Bag-of-word피처에 대해 학습한 결과와 비교 시, 성능 저하 없이 데이터 차원이 줄어드는 것을 알 수 있다.

 

 Feature Selection

 

제한 없는 변수의 추가는 특정 모델에 대한 오버피팅이 일어날 가능성이 있고 모델의 성능이 저하될 수 있다.

초반에는 작은 데이터 셋에서 시작하며 성능에 현저한 개선이 있을 경우에 파라미터를 추가했다. 그러나 최근 관점이 바뀌어 매우 큰 피처세트에서 가장 효과적인 파라미터 서브셋이 식별 될 때까지 조합을 테스트 하는 방법이 부각되었고 머신러닝 분야에서 많이 사용되고 있다.

 

상관관계 이용

  • 다중 공선성 (multicollinearity) : 데이터셋을 구성하는 피처들간의 일정수준 또는 높은 상관과계가 있는 것 → 모델 성능 하락 유발

    • 구조적 다중 공선성 (Structural Multicollinearity) : 신규 피처 생성 시 발생

    • 데이터 기반 다중 공선성 (Data-based Multicollinearity) : 2개의 변수가 동일 요소에 의해 영향을 받을 시 발생

  • 데이터의 상관관계 행렬에 대한 고유값 (eigenvalues)를 검토하여 다중 공선성을 테스트 할 수 있다. 고유값 집합으로 피처가 데이터셋에 대해 '새로운 정보'를 얼마나 많이 제공하는지 측정할 수 있다. 고유값이 작으면 해당 데이터는 다른 피처와 상관관계가 있을 수 있다.

정규화

  • 정규화 기법은 피처 셀렉션 중 효과적인 방법 중 하나이다.

  • 많이 사용하는 정규화 모델 중 L1은 Lasso, L2는 Ridge Regression 이라고도 한다.

  • Lasso는 중요하지 않은 피처에 대해서 계수를 0으로 한다. 효과적이긴 하지만 Lasso 기법이 반영된 회귀 모델은 안정성이 약할 수 있다

  • 이 문제는 Ridge Regression기법을 통해 해결 가능하다. 제곱 계수를 페널티로 사용함으로써 피처 셀렉션에 직접적 효과를 보이지는 않지만 안정적이고 신뢰도가 높다.

RFE

  • Recursive Feature Elimination

  • greedy(탐욕적) search

  • 각 반복 단계에서 피처를 별도로 설정 → 데이터셋의 모든 피처가 제거될 때까지 나머지 피처 세트로 반복작업 수행 → 제거되는 순서가 rank

  • rfe의 안정성은 기본 모델의 안정성에 달려있다

유전자 모델

  • 효과적인 모델을 생성할 때 자연선택(natural selection)을 모방 

'Algorithm' 카테고리의 다른 글

PSO알고리즘 (Particle Swam Optimization, 입자 군집 최적화)  (0) 2019.10.07
P-value #2/2  (0) 2019.09.26
P-value # 1/2  (0) 2019.09.11