-
결정 트리전공 서적/핸즈온 머신러닝 2018. 9. 13. 23:43
- 예측하기
- 한 노드의 모든 샘플이 같은 클래스에 속해 있다면 노드를 순수(gini=0)하다고 한다.
- 지니 불순도
- 클래스 확률 추정
- 결정 트리는 한 샘플이 특정 클래스 k에 속할 확률을 추정할 수도 있다.
- CART 훈련 알고리즘
- 훈련 세트를 하나의 특성 k와 임계값 t_k를 사용해 두 개의 서브셋으로 나눈다.
k와 t_k는 가장 순수한 서브셋으로 나눌 수 있는 값을 찾아 사용한다.
서브셋을 성공적으로 둘로 나누었다면 같은 방식을 반복한다.
이 과정은 최대 깊이가 되면 중지하거나, 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다.- 분류에 대한 CART 비용함수
- 최적의 트리를 찾는 알고리즘의 소요 시간 : O(exp(m))
- 회귀
- 각 노드에서 클래스를 예측하는 대신 어떤 값을 예측한다.
리프 노드에 있는 훈련 샘플의 평균 타깃 값이 예측 값이 된다.
- 두 개의 결정 트리 회귀 모델의 예측
- 회귀에서 CART 알고리즘은 평균제곱오차를 최소화하도록 분할한다.
- 불안정성
- 결정 트리는 계단 모양의 결정 경계를 만든다.
때문에, 훈련 세트의 회전에 민감하다. - 훈련 데이터를 더 좋은 방향으로 회전시키는 PCA 기법을 사용해 문제를 해결할 수 있다.
- 훈련 세트의 회전에 민감한 결정트리
댓글