ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 표현과 특성 공학
    전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 18:42
      1. 특성의 종류
        1. 연속형 특성
        2. 범주형 특성
          1. 원 핫 인코딩이 표현에 사용됨
      2. 구간 분할
        1. 연속형 데이터에 아주 강력한 선형 모델을 만드는 방법
        2. 각 구간에서 다른 값을 가지고 있으므로 선형 모델이 훨씬 유연해짐
      1.  
      1. 상호 작용과 다항식
        1. 구간 선형 회귀에 기울기를 추가
          1. 구간 데이터에 원본 데이터 특성을 추가
          2. 기울기가 모든 구간에서 같기 때문에 데이터의 특성을 잘 반영하지 못함
        2. 구간별로 기울기를 다르게 함
          1. 구간 데이터와 원본 데이터를 곱한 특성들을 추가
          2. 선형 모델이 더욱 유연해짐
        3. 원본 특성을 거듭제곱한 고차항 특성을 추가
          1. 1차원 데이터셋에서도 부드러운 곡선을 만듬
          2. 데이터가 부족한 영역에서는 너무 민감하게 동작
          3. 순한 모델에서는 성능을 높여주지만, 복잡한 모델에서는 성능이 낮아질 수 있음
            1. (생각)단순한 모델에서는 특성 추가가
              Underfitting 으로 인한 낮은 성능을 해결 해주지만,
              복잡한 모델에서는 오히려 Overfitting을 발생시켜 성능을 저하 시킴
        4. 일변량 비선형 변환
          1. 대부분의 모델에서는 특성이 정규분포와 비슷할 때 최고의 성능을 낸다.
          2. Log, exp 와 같은 함수를 사용해 정규분포와 비슷하게 만들 수 있다.
        5. 특성 자동 선택
          1. 일변량 통계
            1. 개별 특성과 타깃 사이에 중요한 통계적 관계가 있는지를 계산 후
              깊게 관련된 특성을 선택
            2. 각 특성이 독립적으로 평가되는 것이 특징
          2. 모델 기반 특성 선택
            1. 지도학습 머신러닝 모델을 사용하여 특성의 중요도를 평가 후
              가장 중요한 특성들만 선택
            2. 특성 선택에 사용하는 모델과 최종적으로 사용할 모델이 같을 필요는 없다.
          3. 반복적 특성 선택
            1. 처음에 모든 특성을 가진 모델에서 시작하여
              특성 중요도가 낮은 특성을 제거 해 나가는 방법



    '전공 서적 > 파이썬 라이브러리를 활용한 머신러닝' 카테고리의 다른 글

    알고리즘 체인과 파이프라인  (0) 2018.08.06
    모델 평가와 성능 향상  (0) 2018.08.06
    비지도학습  (0) 2018.08.06
    지도학습  (0) 2018.08.06

    댓글