r kmeans 예제

이제 데이터를 교육 및 테스트 집합으로 나눌 수 있는 좋은 시기가 될 것입니다. 이것은 모든 데이터 과학 프로젝트에서 중요한 단계이며, 학습 세트에서 모델을 학습하고, 필요한 매개 변수의 값을 결정하고, 최종적으로 테스트 세트에서 모델을 테스트하기 위해 수행됩니다. 예를 들어 클러스터링 알고리즘으로 작업할 때 이 분할은 k-평균 클러스터링의 클러스터 수인 k와 같은 매개 변수를 식별할 수 있도록 수행됩니다. 그러나,이 사례 연구의 경우, 당신은 이미 5 입니다 예상 클러스터의 수를 알고 – 뉴욕시의 자치구의 수. 따라서, 당신은 전통적인 방식으로 작동하지 않고 오히려, k-평균 클러스터링에 대해 학습에 대해 주로 유지한다. kmeans 함수를 통해 R에서 k-means를 계산할 수 있습니다. 여기서는 데이터를 두 개의 클러스터(중심 = 2)로 그룹화합니다. kmeans 함수에는 여러 초기 구성및 최상의 구성에 대한 보고서를 시도하는 nstart 옵션도 있습니다. 예를 들어 nstart = 25를 추가하면 25개의 초기 구성이 생성됩니다.

이 방법을 사용하면 권장됩니다. kmeans는 인쇄 및 피팅 된 방법을 가지고 클래스 “kmeans”의 객체를 반환합니다. 클러스터링의 개념을 이해하기 위해 예제를 만들어 보겠습니다. 단순화를 위해 두 가지 차원에서 작업합니다. 고객 및 고객 의 총 지출에 대한 데이터가 있습니다. 광고를 개선하기 위해 마케팅 팀은 고객에게 더 많은 타겟 이메일을 보내려고 합니다. 요약: R의 kmeans() 함수는 최소한 숫자 데이터와 여러 센터(또는 클러스터)가 필요합니다. 클러스터 센터는 $centers 사용하여 당겨지습니다. 클러스터 할당은 $cluster 사용하여 당겨지며 $totss 및 $betweenss 보고 클러스터를 평가할 수 있습니다. 배포 기반 클러스터링: 이 클러스터링은 통계: 분포 모델링과 매우 밀접한 관련이 있습니다. 클러스터링은 데이터 포인트가 가우시안 분포와 같은 특정 분포에 속할 가능성이 얼마나 되는지에 대한 개념을 기반으로 합니다. 클러스터의 데이터 포인트는 동일한 분포에 속합니다.

이 모델은 강한 이론적 기초를 가지고 있지만, 그들은 종종 과적합으로 고통. 가우시안 혼합물 모델은, 기대-최대화 알고리즘을 사용하는 유명한 분포 기반 클러스터링 방법이다. 위의 그림에서는 관찰값을 손으로 클러스터하고 세 그룹의 각 그룹을 정의합니다. 이 예제는 다소 간단하고 시각적입니다. 새 관측이 데이터 세트에 추가되는 경우 원 내에서 레이블을 지정할 수 있습니다. 당신은 우리의 판단에 따라 원을 정의합니다. 대신 기계 학습을 사용하여 데이터를 객관적으로 그룹화할 수 있습니다. # 5 개의 클러스터가있는 K-평균 클러스터링은 <- kmeans (mydata, 5) # 1 차 2 주성분에 대한 클러스터 플롯 # 대부분의 읽기 가능한 그래프 라이브러리 (클러스터) clusplot (mydata, fit$cluster, color=$cluster, color=TRUE, 음영 =TRUE, 레이블 =2, 라인 =0) # 센트로이드 플롯에 대한 매개 변수를 다양합니다. 첫 번째 2 판별 함수 라이브러리 (fpc) 플롯 클러스터 (mydata, fit$cluster) # K-평균 클러스터 분석 적합 <-kmeans (mydata, 5) # 5 클러스터 솔루션 # get 클러스터 는 집계 (mydata, by= list, FUN = 평균) # 추가 클러스터 할당 mydata <- data.frame (mydata, fit$cluster) k-means 클러스터링에 대한 표준 R 함수는 kmeans() [통계 패키지]이며, 이는 단순화된 형식은 다음과 같습니다: R.

k 값의 kmeans() 함수를 사용할 수 있습니다. 또한 kmeans 함수 내에서 최상의 구성에 대해 여러 초기 구성 및 보고서를 시도하는 nstart 옵션이 있습니다. 시드를 사용하면 임의로 생성된 숫자에 대한 시작점을 만들 수 있으므로 코드가 실행될 때마다 동일한 대답이 생성됩니다. kmeans의 출력은 정보의 여러 비트와 목록입니다. 가장 중요한 것은 도시의 교통 흐름에 저장된 많은 정보가 있습니다. 이 데이터는 위치를 통해 채굴 할 때 도시의 주요 관광 명소에 대한 정보를 제공 할 수 있습니다, 그것은 우리가 주거 지역, 사무실 / 학교 구역, 고속도로 등과 같은 도시의 다양한 영역을 이해하는 데 도움이 될 수 있습니다.