-
데이터 표현과 특성 공학전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 18:42
- 특성의 종류
- 연속형 특성
- 범주형 특성
- 원 핫 인코딩이 표현에 사용됨
- 구간 분할
- 연속형 데이터에 아주 강력한 선형 모델을 만드는 방법
- 각 구간에서 다른 값을 가지고 있으므로 선형 모델이 훨씬 유연해짐
- 상호 작용과 다항식
- 구간 선형 회귀에 기울기를 추가
- 구간 데이터에 원본 데이터 특성을 추가
- 기울기가 모든 구간에서 같기 때문에 데이터의 특성을 잘 반영하지 못함
- 구간별로 기울기를 다르게 함
- 구간 데이터와 원본 데이터를 곱한 특성들을 추가
- 선형 모델이 더욱 유연해짐
- 원본 특성을 거듭제곱한 고차항 특성을 추가
- 1차원 데이터셋에서도 부드러운 곡선을 만듬
- 데이터가 부족한 영역에서는 너무 민감하게 동작
- 단순한 모델에서는 성능을 높여주지만, 복잡한 모델에서는 성능이 낮아질 수 있음
- (생각)단순한 모델에서는 특성 추가가
Underfitting 으로 인한 낮은 성능을 해결 해주지만,
복잡한 모델에서는 오히려 Overfitting을 발생시켜 성능을 저하 시킴 - 일변량 비선형 변환
- 대부분의 모델에서는 특성이 정규분포와 비슷할 때 최고의 성능을 낸다.
- Log, exp 와 같은 함수를 사용해 정규분포와 비슷하게 만들 수 있다.
- 특성 자동 선택
- 일변량 통계
- 개별 특성과 타깃 사이에 중요한 통계적 관계가 있는지를 계산 후
깊게 관련된 특성을 선택 - 각 특성이 독립적으로 평가되는 것이 특징
- 모델 기반 특성 선택
- 지도학습 머신러닝 모델을 사용하여 특성의 중요도를 평가 후
가장 중요한 특성들만 선택 - 특성 선택에 사용하는 모델과 최종적으로 사용할 모델이 같을 필요는 없다.
- 반복적 특성 선택
- 처음에 모든 특성을 가진 모델에서 시작하여
특성 중요도가 낮은 특성을 제거 해 나가는 방법
'전공 서적 > 파이썬 라이브러리를 활용한 머신러닝' 카테고리의 다른 글
알고리즘 체인과 파이프라인 (0) 2018.08.06 모델 평가와 성능 향상 (0) 2018.08.06 비지도학습 (0) 2018.08.06 지도학습 (0) 2018.08.06 댓글