전공 서적/핸즈온 머신러닝
-
인공 신경망 소개전공 서적/핸즈온 머신러닝 2018. 11. 4. 23:59
생물학적 뉴런에서 인공 뉴런까지 퍼셉트론 퍼셉트론은 TLU라는 인공 뉴런을 기반으로 한다. 입력과 출력이 숫자이고, 각각의 입력 연결은 가중치와 연관되어 있다. TLU는 입력의 가중치 합을 계산한 후 계단 함수를 적용하여 결과를 출력한다. TLU 퍼셉트론은 층이 하나뿐인 TLU로 구성된다. 각 뉴런은 모든 입력 뉴런에 입력되어 있다. 퍼셉트론은 연결된 뉴런이 동일한 출력을 낼 때마다 연결 가중치가 증가하는 방식으로 학습된다. 잘못된 출력을 만드는 연결은 강화 시키지 않는다. 퍼셉트론 학습 규칙 다층 퍼셉트론을 사용하여 일반 퍼셉트론의 일부 제약을 줄일 수 있다. 다층 퍼셉트론과 역전파 다층 퍼셉트론은 입력층, 은닉층, 출력층으로 구성된다. 출력층을 제외한 모든 층은 편향 뉴런을 포함하며 다음 층과 완전히..
-
차원 축소전공 서적/핸즈온 머신러닝 2018. 9. 25. 16:05
차원 축소 차원의 저주 : 많은 특성은 훈련을 느리게 하고 좋은 솔루션을 찾기 어렵게 만든다. 차원 축소를 통해 고차원의 훈련 세트를 하나의 그래프로 그릴 수 있다. 이같은 과정에서 군집 같은 시각적인 패턴을 감지할 수 있다. 차원의 저주 고차원의 데이터셋에서는 대부분의 훈련 데이터가 서로 멀리 떨어져 있다. 훈련 세트의 차원이 클수록 과대적합 위험이 커진다. 차원의 저주를 해결하는 해결책 하나는 훈련 샘플의 밀도가 충분히 높아질 때까지 훈련 세트의 크기를 키우는 것이다. 일정 밀도에 도달하기 위해 필요한 훈련 샘플 수는 차원 수가 커짐에 따라 기하급수적으로 증가한다. 차원 축소를 위한 접근 방법 투영 대부분의 실전 문제는 훈련 샘플이 모든 차원에 걸쳐 균일하게 퍼져 있지 않고, 고차원 공간 안의 저 차..
-
앙상블 학습과 랜덤 포레스트전공 서적/핸즈온 머신러닝 2018. 9. 23. 22:46
앙상블 학습과 랜덤 포레스트 일련의 예측기로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있다. 이 때, 일련의 예측기를 앙상블이라고 부르기 때문에 이를 앙상블 학습이라고 하며, 앙상블 학습 알고리즘을 앙상블 방법이라고 한다. 투표 기반 분류기 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 모아 가장 많이 선택된 클래스를 예측하는 것이다. 이렇게 다수결 투표로 정해지는 분류기를 직접 투표 분류기라고 한다. 직접 투표 분류기의 예측 직접 투표 분류기가 앙상블에 포함된 개별 분류기 중 가장 뛰어난 것보다 정확도가 높을 경우가 많다. 각 분류기가 약한 학습기라도 충분하게 많고 다양하다면 앙상블은 강한 학습기가 될 수 있다. 모든 분류기가 클래스의 확률의 예측할 수 있..
-
결정 트리전공 서적/핸즈온 머신러닝 2018. 9. 13. 23:43
예측하기 한 노드의 모든 샘플이 같은 클래스에 속해 있다면 노드를 순수(gini=0)하다고 한다. 지니 불순도 클래스 확률 추정 결정 트리는 한 샘플이 특정 클래스 k에 속할 확률을 추정할 수도 있다. CART 훈련 알고리즘 훈련 세트를 하나의 특성 k와 임계값 t_k를 사용해 두 개의 서브셋으로 나눈다. k와 t_k는 가장 순수한 서브셋으로 나눌 수 있는 값을 찾아 사용한다.서브셋을 성공적으로 둘로 나누었다면 같은 방식을 반복한다. 이 과정은 최대 깊이가 되면 중지하거나, 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다. 분류에 대한 CART 비용함수 최적의 트리를 찾는 알고리즘의 소요 시간 : O(exp(m)) 회귀 각 노드에서 클래스를 예측하는 대신 어떤 값을 예측한다. 리프 노드에 있는 훈련..
-
서포트 벡터 머신전공 서적/핸즈온 머신러닝 2018. 9. 12. 12:15
서포트 벡터 머신 매우 강력하고 다목적인 머신러닝 모델 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합하다. 선형 SVM 분류 선형 SVM 분류 클래스 사이의 가장 폭이 넓는 도로를 찾는 방법 라지 마진 분류 라고도 한다. 도로 바깥에 훈련 샘플을 추가해도 결정 경계에 영향을 미치지 않으며 서포트 벡터에 의해 경계가 결정된다. 라지 마진 분류 SVM은 특성 스케일에 민감하다. 소프트 마진 분류 모든 샘플이 도로 바깥쪽에 올바르게 분류되어 있는 것을 하드 마진 분류라고 한다. 하드 마진 분류는 데이터가 선형적으로 구분될 수 있어야 제대로 작동하며, 이상치에 민감하다. 이상치에 민감한 하드 마진 하드 마진의 문제를 피하기 위하여 도로의 폭을 넓게 유지하는 것과 마진 오류 사이에 적절한 ..
-
모델 훈련전공 서적/핸즈온 머신러닝 2018. 8. 30. 14:55
선형 회귀 선형 회귀 선형 모델은 입력 특성의 가중치 합과 편향 이라는 상수를 더해 예측을 만든다. 정규방정식 비용 함수를 최소화 하는 값을 찾기 위한 해석적인 방법 경사 하강법 경사 하강법 비용 함수를 최소화하기 위해 반복해서 파라미터를 조정해 가는 것 파라미터 벡터에 대해 비용 함수의 현재 그래디언트를 계산한 후 그래디언트가 감소하는 방향으로 진행한다. 최소값에 도달하면 그래디언트는 0이 된다. 경사 하강법에서 중요한 파라미터는 스텝의 크기이다. 스텝의 크기는 학습률 하이퍼파라미터로 결정된다. 학습률이 너무 작으면 알고리즘이 수렴하기 위해 반복을 많이 진행해야 하므로 시간이 오래걸린다. 학습률이 너무 크면 이전보다 더 높은 곳으로 올라갈 수 도 있다. 경사 하강법의 문제점 왼쪽에서 시작할 경우 전역 ..
-
분류전공 서적/핸즈온 머신러닝 2018. 8. 23. 14:35
성능 측정 오차 행렬 오차 행렬의 행은 실제 클래스를 나타내고, 열은 예측한 클래스를 나타낸다. 정밀도 양성 예측의 정확도를 나타낸다. 재현율 (민감도, TPR(진짜 양성 비율)) 분류기가 정확하게 감지한 양성 샘플의 비율 정밀도와 재현율 F1 점수 정밀도와 재현율을 하나의 숫자로 만든 것 F1 점수는 정밀도와 재현율의 조화 평균이다. 정밀도/재현율 트레이드오프 정밀도와 재현율 중 한 쪽을 추구할 경우 다른 쪽을 포기해야 하는 것 ROC 곡선 거짓 양성 비율(FPR)에 대한 진짜 양성 비율(TPR)의 곡선 곡선 아래의 면적(AUC)를 측정하면 분류기들을 비교할 수 있다. 다중 분류 일대다(OvA) 전략 클래스별로 이진 분류기를 훈련시켜 각 분류기의 결정 점수 중 가장 높은 것을 클래스로 선택 일대일(Ov..
-
머신러닝 프로젝트 처음부터 끝까지전공 서적/핸즈온 머신러닝 2018. 8. 22. 13:06
큰 그림 보기 문제 정의 비즈니스 목적을 정확히 아는 것이 중요하다. 비즈니스의 목적이 문제의 구성, 알고리즘의 선택, 평가 시 사용할 성능 지표, 모델 튜닝을 위한 자원 을 결정한다. 파이프라인 데이터 처리 컴포넌트들이 연속되어 있는 것 각 컴포넌트는 완전히 독립적이며, 컴포넌트 사이의 인터페이스는 데이터 저장소 밖에 없다. 시스템을 이해하기 쉽게 만들고, 각자의 컴포넌트에 집중할 수 있다. 한 컴포넌트가 고장 날 경우 하위 컴포넌트는 문제가 생긴 컴포넌트의 마지막 출력을 사용해 평상시처럼 동작할 수 있다. 성능 측정 지표 선택 평균 제곱근 오차(RMSE) 예측에 얼마나 많은 오류가 있는지 알 수 있음 평균 절대 오차(MAE) 데이터 가져오기 테스트 세트 만들기 데이터 스누핑 편향 테스트 세트를 볼 경..
-
한눈에 보는 머신러닝전공 서적/핸즈온 머신러닝 2018. 8. 16. 22:32
왜 머신러닝을 사용하는가? 전통적인 접근 방법 문제가 단순하지 않을 경우 길고 복잡한 규칙으로 인해 유지보수의 난이도가 높아진다. 머신러닝 기반 접근 방법 패턴을 감지하여 좋은 기준을 자동으로 학습한다. 프로그램이 짧아지고 유지 보수하기 쉬우며 정확도가 더 높다. 머신러닝 기반 시스템은 변화를 자동으로 인식하고 업데이트 한다. 전통적인 방식으로는 너무 복잡하거나 알려진 알고리즘이 없는 문제를 해결할 수 있다. 머신러닝 알고리즘이 학습한 것을 조사하여 예상치 못한 연관 관계나 새로운 추세를 발견할 수도 있다. 데이터마이닝 머신러닝 기술을 적용하여 대용량의 데이터를 분석할 경우 겉으로 보이지 않던 패턴을 발견할 수 있다. 머신러닝 시스템의 종류 지도 학습과 비지도 학습 지도 학습 알고리즘에 주입하는 훈련 데..