ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 지도학습
    전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 14:45
      1. 분류와 회귀
        1. 분류
          1. 미리 정의된 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것
          2. 이진 분류, 다중 분류로 나뉨
        2. 회귀
          1. 실수를 예측하는 것
      2. 일반화, 과대적합, 과소적합
        1. 일반화
          1. 훈련 이후 들어온 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력
        2. 과대적합
          1. 훈련 세트의 정확성을 높이기 위하여 모델이 너무 복잡해진 경우
        3. 과소적합
          1. 훈련이 부족해 모델이 너무 간단한 경우
      1. 지도 학습 알고리즘
        1. K-최근접 이웃
          1. 새로운 데이터 포인트에 대해 예측할 때 훈련 데이터셋에서
            가장 가까운 데이터 포인트를 찾는다.
          2. 이웃의 수를 늘릴수록 결정 경계는 더 부드러워진다.
          3. 장점
            1. 이해하기 매우 쉬운 모델
            2. 대개 많은 조정 없이 좋은 성능을 낸다.
          4. 단점
            1. 훈련 세트가 매우 크면 예측이 느려진다.
            2. 데이터를 전처리하는 과정이 중요하다.
        2. 선형 모델
          1. 입력 특성에 대한 선형 함수를 만들어 예측을 수행
          2. 선형 회귀
            1. 장점
              1. 매개 변수가 없다
            2. 단점
              1. 모델의 복잡도를 제어할 방법이 없다.
          3. 릿지 회귀
            1. Alpha 매개변수를 통해 기울기를 줄임으로써 모델을 단순하게 만들 수 있다.
            2. 사용되는 규제를 L2 규제라고 한다.
          4. 라쏘
            1. 일부 계수를 0으로 만들어 모델의 복잡도를 낮춘다.
            2. 사용되는 규제를 L1 규제라고 한다.
          5. 분류용 선형모델
            1. 선형 분류기는 선, 평면, 초평면을 이용해 두 개의 클래스를 구분한다.
          6. 다중 클래스 분류용 선형 모델
            1. 각 클래스를 모든 클래스와 구분하도록 이진 분류 모델을 학습시킨다.
          7. 장점
            1. 학습 속도, 예측이 빠르다.
            2. 매우 큰 데이터셋과 희소한 데이터셋에서도 잘 작동한다.
            3. 훈련 과정을 이해하기 쉽다.
        3. 나이브 베이즈 분류기
          1. 장점
            1. 훈련과 예측 속도가 선형 모델보다 빠르다.
            2. 대용량, 고차원 데이터셋에 적용 가능하다.
            3. 훈련 과정을 이해하기 쉽다.
          2. 단점
            1. 선형 모델보다는 정확도가 떨어진다.
        4. 결정 트리
          1. 장점
            1. 모델을 쉽게 시각화 할 수 있어 비전문가도 이해하기 쉽다.
            2. 데이터의 스케일에 구애받지 않는다.
            3. 전처리 과정이 필요하지 않다.
          2. 단점
            1. 일반화 성능이 좋지 않다.
        5. 결정 트리의 앙상블
          1. 앙상블
            1. 여러 머신러닝 모델을 연결하여 강력한 모델을 만드는 기법
          2. 랜덤 포레스트
            1. 결정 트리의 단점인 과대 적합을 방지할 있는 방법
            2. 여러 개의 트리를 만들어 결과의 평균을 구함으로써 과대 적합의 양을 줄임
            3. 장점
              1. 랜덤 포레스트는 기본 결정 트리의 단점을 보완하고 장점은 그대로 가지고 있다.
            1. 단점
              1. 대량의 데이터셋에서는 랜덤 포레스트 모델 제작 시간이 걸릴 있다.
              2. 매우 차원이 높고 희소한 데이터에서는 작동하지 않는다.
          3. 그래디언트 부스팅 회귀 트리
            1. 여러개의 간단한 모델을 많이 연결하여 강력한 모델을 만드는 방법
            2. 장점
              1. 매개변수를 잘 조정할 경우 랜덤 포레스트보다 더 높은 정확도를 제공한다.
            3. 단점
              1. 매개변수를 잘 조정해야 한다.
              2. 훈련 시간이 길다.
              3. 희소한 고차원 데이터에 대해서는 잘 작동하지 않는다.
          4. 커널 서포트 벡터 머신
            1. 장점
              1. 다양한 데이터셋에서 잘 작동한다.
              2. 데이터의 특성이 적어도 복잡한 결정 경계를 만들 수 있다.
            2. 단점
              1. 샘플이 많을 경우 많은 자원을 필요로 한다.
              2. 데이터 전처리와 매개변수 설정에 신경을 많이 써야 한다.
          5. 신경망(딥러닝)
            1. 장점
              1. 대량의 데이터에 내재된 정보를 잡아내고 매우 복잡한 모델을 만들 수 있다.
              2. 충분한 연산시간, 데이터, 매개변수 조정이 있을 경우
                다른 머신러닝 알고리즘을 뛰어넘는 성능을 낸다.
            2. 단점
              1. 학습이 오래 걸릴 수 있다.
              2. 데이터 전처리에 주의해야 한다.

댓글