ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 머신러닝 프로젝트 처음부터 끝까지
    전공 서적/핸즈온 머신러닝 2018. 8. 22. 13:06

    1. 그림 보기
      1. 문제 정의
        1. 비즈니스 목적을 정확히 아는 것이 중요하다.
          비즈니스의 목적이 문제의 구성, 알고리즘의 선택, 평가 사용할 성능 지표, 모델 튜닝을 위한 자원 결정한다.
        2. 파이프라인
          1. 데이터 처리 컴포넌트들이 연속되어 있는

      컴포넌트는 완전히 독립적이며, 컴포넌트 사이의 인터페이스는 데이터 저장소 밖에 없다.

      1. 시스템을 이해하기 쉽게 만들고, 각자의 컴포넌트에 집중할 있다.
      2. 컴포넌트가 고장 경우 하위 컴포넌트는 문제가 생긴 컴포넌트의 마지막 출력을 사용해 평상시처럼 동작할 있다.
      1. 성능 측정 지표 선택
        1. 평균 제곱근 오차(RMSE)
          1. 예측에 얼마나 많은 오류가 있는지 있음
        2. 평균 절대 오차(MAE)
      1. 데이터 가져오기
        1. 테스트 세트 만들기
          1. 데이터 스누핑 편향
            1. 테스트 세트를 경우 테스트 세트에서 겉으로 드러난 패턴에 속아 특정 머신러닝 모델을 선택할 수도 있다.
          2. 계층적 샘플링
            1. 테스트 세트가 전체 데이터를 대표하도록 나누는 방법
      2. 데이터 이해를 위한 탐색과 시각화
        1. 상관관계 조사
          1. 상관관계의 범위는 -1 ~ 1 이다.
            1
            가까우면 양의 상관관계를 가지고, -1 가까우면 음의 상관관계를 나타낸다.
            0 가까울 경우 선형 상관관계가 없다.
      3. 머신러닝 알고리즘을 위한 데이터 준비
        1. 데이터 정제
          1. 누락된 특성을 처리하는 방법
            1. 해당 행을 제거
            2. 전체 열을 제거
            3. 값으로 채움 (0, 평균, 중간값)
          2. 사이킷런의 설계 철학
            1. 일관성
              1. 추정기
                1. 데이터셋을 기반으로 일련의 모델 파라미터들을 추정하는 객체
                2. fit 메서드에 의해 수행된다.
              2. 변환기
                1. 데이터셋을 변환하는 추정기
                2. transform 메서드를 이용해 변환한다.
              3. 예측기
                1. 주어진 데이터셋에 대해 예측을 있는 추정기
                2. predict 메서드를 사용해 예측을 수행한다.
                3. 테스트 세트를 사용해 예측의 품질을 수행하는 score 메서드를 가진다.
            2. 검사 가능
              1. 모든 추정기의 하이퍼파라미터는 직접 접근할 있다.
            3. 클래스 남용 방지
              1. 데이터셋을  numpy 배열이나 scipy 희소행렬로 표현한다.
            4. 조합성
              1. 기존의 구성요소를 최대한 재사용한다.
            5. 합리적인 기본값
              1. 대부분의 매개변수에 합리적인 기본값을 미리 지정해두었다.
        2. 텍스트와 범주형 특성 다루기
          1. 머신러닝 알고리즘은 숫자형을 다루므로 텍스트 카테고리는 숫자로 변환해야 한다.
          2. 카테고리를 다른 정수값으로 매핑하는 방법을 사용할 경우
            머신러닝 알고리즘이 가까이 있는 값들이 비슷하다고 생각하는 문제가 있다.
          3. 카테고리별 이진 특성을 만드는 - 인코딩 사용하여 문제를 해결한다.
        3. 특성 스케일링
          1. 머신러닝 알고리즘은 일반적으로 특성의 스케일이 많이 다를 경우 작동하지 않는다.
          2. 모든 특성의 범위를 같게 만드는 방법으로 min-max 스케일링, 표준화 있다.
          3. min-max 스케일링
            1. 정규화라고도 한다.
            2. 모든 데이터를 0~1 범위에 들도록 값을 조정한다.
          4. 표준화
            1. 결과 분포의 분산이 1 되도록 한다.
            2. 범위의 상한과 하한이 존재하지 않는다.
      4. 모델 세부 튜닝
        1. 랜덤 탐색
          1. 하이퍼파라미터 탐색공간 커질 경우 랜덤 탐색을 사용하는 편이 좋다.
          2. 장점
            1. 반복 횟수 조절만으로 하이퍼파라미터 탐색에 투입할 컴퓨팅 자원을 제어할 있다.


    '전공 서적 > 핸즈온 머신러닝' 카테고리의 다른 글

    결정 트리  (0) 2018.09.13
    서포트 벡터 머신  (0) 2018.09.12
    모델 훈련  (0) 2018.08.30
    분류  (0) 2018.08.23
    한눈에 보는 머신러닝  (0) 2018.08.16

    댓글