-
비지도학습전공 서적/파이썬 라이브러리를 활용한 머신러닝 2018. 8. 6. 15:00
- 차원 축소, 특성 추출, 매니폴드 학습
- 주성분 분석(PCA)
- 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술
- 특성 추출에 사용됨
- 주성분
- 주된 분산의 방향
- 데이터의 차원 축소 시 얼마나 많은 성분을 유지할지 알려주어야 함
- 비음수 행렬 분해(NMF)
- 성분의 가중치 합으로 각 데이터 포인트를 나타낼 수 있음
- 음수가 아닌 성분과 계수값을 찾음
- 패턴 추출에 사용됨
- t-SNE를 이용한 매니폴드 학습
- 시각화가 목적, 3개 이상의 특성은 거의 뽑지 않음
- 훈련 데이터를 새로운 표현으로 변환 시키지만 새로운 데이터에는 적용하지 못함
- 이웃 데이터 포인트에 대한 정보를 보존하려 노력
- 군집
- K-평균 군집
- 데이터를 영역을 대표하는 클러스터 중심을 찾음
- 실패 경우
- 클러스터는 둥근 형태로 나타남
- 비교적 간단한 형태를 구분할 수 있음
- 방향을 고려하지 않아 방향성 있는 데이터를 잘 처리하지 못함
- 이해, 구현의 편의, 동작 속도가 장점
- 병합 군집
- 시작시 각 포인트를 하나의 클러스터로 지정하고 종료 조건까지 비슷한 두 클러스터를 병합 해 나감
- 새로운 데이터 포인트에 대해서는 예측이 불가능
- 덴드로그램을 사용해 시각화 할 수 있다.
- DBSCAN
- 특성 공간에서 가까이 있는 데이터가 많아 붐비는 지역의 포인트를 찾음
- 밀집 지역에 있는 포인트를 핵심 샘플이라고 함
- 한 데이터 포인트에서 eps 거리 안에 데이터가 min_sample 개수만큼 들어있으면 그 데이터 포인트를 핵심샘플로 분류함
- eps보다 가까운 핵심 샘플은 동일 클러스터로 합쳐짐
- eps 거리 안에 더 이상 핵심 샘플이 없을 때까지 자라남
- 하나의 큰 클러스터 외에는 만들 수 없음
- 군집 알고리즘을 평가하는 지표
- 타깃값으로 군집 평가하기
- 지표로 ARI, NMI가 사용됨
- 비지도 학습시에는 타깃값이 없기 떄문에 알고리즘 개발 시에 사용됨
- 타깃값없이 군집 평가하기
- 지표로 실루엣 계수가 사용됨
- 모양이 복잡한 클러스터에서는 정확도가 낮음
'전공 서적 > 파이썬 라이브러리를 활용한 머신러닝' 카테고리의 다른 글
알고리즘 체인과 파이프라인 (0) 2018.08.06 모델 평가와 성능 향상 (0) 2018.08.06 데이터 표현과 특성 공학 (0) 2018.08.06 지도학습 (0) 2018.08.06 댓글