ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 비지도학습
    전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 15:00
      1. 차원 축소, 특성 추출, 매니폴드 학습
        1. 주성분 분석(PCA)
          1. 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술
          2. 특성 추출에 사용됨
          3. 주성분
            1. 주된 분산의 방향
          4. 데이터의 차원 축소 시 얼마나 많은 성분을 유지할지 알려주어야 함
        2. 비음수 행렬 분해(NMF)
          1. 성분의 가중치 합으로 각 데이터 포인트를 나타낼 수 있음
          2. 음수가 아닌 성분과 계수값을 찾음
          3. 패턴 추출에 사용됨
        3. t-SNE를 이용한 매니폴드 학습
          1. 시각화가 목적, 3개 이상의 특성은 거의 뽑지 않음
          2. 훈련 데이터를 새로운 표현으로 변환 시키지만 새로운 데이터에는 적용하지 못함
          3. 이웃 데이터 포인트에 대한 정보를 보존하려 노력
      2. 군집
        1. K-평균 군집
          1. 데이터를 영역을 대표하는 클러스터 중심을 찾음
          2. 실패 경우
            1. 클러스터는 둥근 형태로 나타남
            2. 비교적 간단한 형태를 구분할 수 있음
            3. 방향을 고려하지 않아 방향성 있는 데이터를 잘 처리하지 못함
          3. 이해, 구현의 편의, 동작 속도가 장점
        2. 병합 군집
          1. 시작시 각 포인트를 하나의 클러스터로 지정하고 종료 조건까지 비슷한 두 클러스터를 병합 해 나감
          2. 새로운 데이터 포인트에 대해서는 예측이 불가능
          3. 덴드로그램을 사용해 시각화 할 수 있다.
        3. DBSCAN
          1. 특성 공간에서 가까이 있는 데이터가 많아 붐비는 지역의 포인트를 찾음
          2. 밀집 지역에 있는 포인트를 핵심 샘플이라고 함
          3. 한 데이터 포인트에서 eps 거리 안에 데이터가 min_sample 개수만큼 들어있으면 그 데이터 포인트를 핵심샘플로 분류함
          4. eps보다 가까운 핵심 샘플은 동일 클러스터로 합쳐짐
          5. eps 거리 안에 더 이상 핵심 샘플이 없을 때까지 자라남
          6. 하나의 큰 클러스터 외에는 만들 수 없음
        4. 군집 알고리즘을 평가하는 지표
          1. 타깃값으로 군집 평가하기
            1. 지표로 ARI, NMI가 사용됨
            2. 비지도 학습시에는 타깃값이 없기 떄문에 알고리즘 개발 시에 사용됨
          2. 타깃값없이 군집 평가하기
            1. 지표로 실루엣 계수가 사용됨
            2. 모양이 복잡한 클러스터에서는 정확도가 낮음

    댓글