-
앙상블 학습과 랜덤 포레스트전공 서적/핸즈온 머신러닝 2018. 9. 23. 22:46
앙상블 학습과 랜덤 포레스트 일련의 예측기로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있다. 이 때, 일련의 예측기를 앙상블이라고 부르기 때문에 이를 앙상블 학습이라고 하며, 앙상블 학습 알고리즘을 앙상블 방법이라고 한다. 투표 기반 분류기 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 모아 가장 많이 선택된 클래스를 예측하는 것이다. 이렇게 다수결 투표로 정해지는 분류기를 직접 투표 분류기라고 한다. 직접 투표 분류기의 예측 직접 투표 분류기가 앙상블에 포함된 개별 분류기 중 가장 뛰어난 것보다 정확도가 높을 경우가 많다. 각 분류기가 약한 학습기라도 충분하게 많고 다양하다면 앙상블은 강한 학습기가 될 수 있다. 모든 분류기가 클래스의 확률의 예측할 수 있..
-
결정 트리전공 서적/핸즈온 머신러닝 2018. 9. 13. 23:43
예측하기 한 노드의 모든 샘플이 같은 클래스에 속해 있다면 노드를 순수(gini=0)하다고 한다. 지니 불순도 클래스 확률 추정 결정 트리는 한 샘플이 특정 클래스 k에 속할 확률을 추정할 수도 있다. CART 훈련 알고리즘 훈련 세트를 하나의 특성 k와 임계값 t_k를 사용해 두 개의 서브셋으로 나눈다. k와 t_k는 가장 순수한 서브셋으로 나눌 수 있는 값을 찾아 사용한다.서브셋을 성공적으로 둘로 나누었다면 같은 방식을 반복한다. 이 과정은 최대 깊이가 되면 중지하거나, 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다. 분류에 대한 CART 비용함수 최적의 트리를 찾는 알고리즘의 소요 시간 : O(exp(m)) 회귀 각 노드에서 클래스를 예측하는 대신 어떤 값을 예측한다. 리프 노드에 있는 훈련..
-
서포트 벡터 머신전공 서적/핸즈온 머신러닝 2018. 9. 12. 12:15
서포트 벡터 머신 매우 강력하고 다목적인 머신러닝 모델 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합하다. 선형 SVM 분류 선형 SVM 분류 클래스 사이의 가장 폭이 넓는 도로를 찾는 방법 라지 마진 분류 라고도 한다. 도로 바깥에 훈련 샘플을 추가해도 결정 경계에 영향을 미치지 않으며 서포트 벡터에 의해 경계가 결정된다. 라지 마진 분류 SVM은 특성 스케일에 민감하다. 소프트 마진 분류 모든 샘플이 도로 바깥쪽에 올바르게 분류되어 있는 것을 하드 마진 분류라고 한다. 하드 마진 분류는 데이터가 선형적으로 구분될 수 있어야 제대로 작동하며, 이상치에 민감하다. 이상치에 민감한 하드 마진 하드 마진의 문제를 피하기 위하여 도로의 폭을 넓게 유지하는 것과 마진 오류 사이에 적절한 ..
-
모델 훈련전공 서적/핸즈온 머신러닝 2018. 8. 30. 14:55
선형 회귀 선형 회귀 선형 모델은 입력 특성의 가중치 합과 편향 이라는 상수를 더해 예측을 만든다. 정규방정식 비용 함수를 최소화 하는 값을 찾기 위한 해석적인 방법 경사 하강법 경사 하강법 비용 함수를 최소화하기 위해 반복해서 파라미터를 조정해 가는 것 파라미터 벡터에 대해 비용 함수의 현재 그래디언트를 계산한 후 그래디언트가 감소하는 방향으로 진행한다. 최소값에 도달하면 그래디언트는 0이 된다. 경사 하강법에서 중요한 파라미터는 스텝의 크기이다. 스텝의 크기는 학습률 하이퍼파라미터로 결정된다. 학습률이 너무 작으면 알고리즘이 수렴하기 위해 반복을 많이 진행해야 하므로 시간이 오래걸린다. 학습률이 너무 크면 이전보다 더 높은 곳으로 올라갈 수 도 있다. 경사 하강법의 문제점 왼쪽에서 시작할 경우 전역 ..
-
분류전공 서적/핸즈온 머신러닝 2018. 8. 23. 14:35
성능 측정 오차 행렬 오차 행렬의 행은 실제 클래스를 나타내고, 열은 예측한 클래스를 나타낸다. 정밀도 양성 예측의 정확도를 나타낸다. 재현율 (민감도, TPR(진짜 양성 비율)) 분류기가 정확하게 감지한 양성 샘플의 비율 정밀도와 재현율 F1 점수 정밀도와 재현율을 하나의 숫자로 만든 것 F1 점수는 정밀도와 재현율의 조화 평균이다. 정밀도/재현율 트레이드오프 정밀도와 재현율 중 한 쪽을 추구할 경우 다른 쪽을 포기해야 하는 것 ROC 곡선 거짓 양성 비율(FPR)에 대한 진짜 양성 비율(TPR)의 곡선 곡선 아래의 면적(AUC)를 측정하면 분류기들을 비교할 수 있다. 다중 분류 일대다(OvA) 전략 클래스별로 이진 분류기를 훈련시켜 각 분류기의 결정 점수 중 가장 높은 것을 클래스로 선택 일대일(Ov..