-
지도학습전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 14:45
- 분류와 회귀
- 분류
- 미리 정의된 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것
- 이진 분류, 다중 분류로 나뉨
- 회귀
- 실수를 예측하는 것
- 일반화, 과대적합, 과소적합
- 일반화
- 훈련 이후 들어온 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력
- 과대적합
- 훈련 세트의 정확성을 높이기 위하여 모델이 너무 복잡해진 경우
- 과소적합
- 훈련이 부족해 모델이 너무 간단한 경우
- 지도 학습 알고리즘
- K-최근접 이웃
- 새로운 데이터 포인트에 대해 예측할 때 훈련 데이터셋에서
가장 가까운 데이터 포인트를 찾는다. - 이웃의 수를 늘릴수록 결정 경계는 더 부드러워진다.
- 장점
- 이해하기 매우 쉬운 모델
- 대개 많은 조정 없이 좋은 성능을 낸다.
- 단점
- 훈련 세트가 매우 크면 예측이 느려진다.
- 데이터를 전처리하는 과정이 중요하다.
- 선형 모델
- 입력 특성에 대한 선형 함수를 만들어 예측을 수행
- 선형 회귀
- 장점
- 매개 변수가 없다
- 단점
- 모델의 복잡도를 제어할 방법이 없다.
- 릿지 회귀
- Alpha 매개변수를 통해 기울기를 줄임으로써 모델을 단순하게 만들 수 있다.
- 사용되는 규제를 L2 규제라고 한다.
- 라쏘
- 일부 계수를 0으로 만들어 모델의 복잡도를 낮춘다.
- 사용되는 규제를 L1 규제라고 한다.
- 분류용 선형모델
- 선형 분류기는 선, 평면, 초평면을 이용해 두 개의 클래스를 구분한다.
- 다중 클래스 분류용 선형 모델
- 각 클래스를 모든 클래스와 구분하도록 이진 분류 모델을 학습시킨다.
- 장점
- 학습 속도, 예측이 빠르다.
- 매우 큰 데이터셋과 희소한 데이터셋에서도 잘 작동한다.
- 훈련 과정을 이해하기 쉽다.
- 나이브 베이즈 분류기
- 장점
- 훈련과 예측 속도가 선형 모델보다 빠르다.
- 대용량, 고차원 데이터셋에 적용 가능하다.
- 훈련 과정을 이해하기 쉽다.
- 단점
- 선형 모델보다는 정확도가 떨어진다.
- 결정 트리
- 장점
- 모델을 쉽게 시각화 할 수 있어 비전문가도 이해하기 쉽다.
- 데이터의 스케일에 구애받지 않는다.
- 전처리 과정이 필요하지 않다.
- 단점
- 일반화 성능이 좋지 않다.
- 결정 트리의 앙상블
- 앙상블
- 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법
- 랜덤 포레스트
- 결정 트리의 단점인 과대 적합을 방지할 수 있는 방법
- 여러 개의 트리를 만들어 그 결과의 평균을 구함으로써 과대 적합의 양을 줄임
- 장점
- 랜덤 포레스트는 기본 결정 트리의 단점을 보완하고 장점은 그대로 가지고 있다.
- 단점
- 대량의 데이터셋에서는 랜덤 포레스트 모델 제작 시 시간이 걸릴 수 있다.
- 매우 차원이 높고 희소한 데이터에서는 잘 작동하지 않는다.
- 그래디언트 부스팅 회귀 트리
- 여러개의 간단한 모델을 많이 연결하여 강력한 모델을 만드는 방법
- 장점
- 매개변수를 잘 조정할 경우 랜덤 포레스트보다 더 높은 정확도를 제공한다.
- 단점
- 매개변수를 잘 조정해야 한다.
- 훈련 시간이 길다.
- 희소한 고차원 데이터에 대해서는 잘 작동하지 않는다.
- 커널 서포트 벡터 머신
- 장점
- 다양한 데이터셋에서 잘 작동한다.
- 데이터의 특성이 적어도 복잡한 결정 경계를 만들 수 있다.
- 단점
- 샘플이 많을 경우 많은 자원을 필요로 한다.
- 데이터 전처리와 매개변수 설정에 신경을 많이 써야 한다.
- 신경망(딥러닝)
- 장점
- 대량의 데이터에 내재된 정보를 잡아내고 매우 복잡한 모델을 만들 수 있다.
- 충분한 연산시간, 데이터,
매개변수 조정이 있을 경우
다른 머신러닝 알고리즘을 뛰어넘는 성능을 낸다. - 단점
- 학습이 오래 걸릴 수 있다.
- 데이터 전처리에 주의해야 한다.
'전공 서적 > 파이썬 라이브러리를 활용한 머신러닝' 카테고리의 다른 글
알고리즘 체인과 파이프라인 (0) 2018.08.06 모델 평가와 성능 향상 (0) 2018.08.06 데이터 표현과 특성 공학 (0) 2018.08.06 비지도학습 (0) 2018.08.06
댓글