Wine ??? ? ??

sclab.yonsei.ac.kr

Wine ??? ? ??

미니탭을 이용한 클러스터링 실습 - 1


내용

• 미니탭에서 지원하는 클러스터링 기법

• 실습

Wine 데이터셋 예제

– Iris 데이터셋 예제

– BostonHousing 데이터셋 예제

S FT COMPUTING @ YONSEI UNIV . KOREA

1

16


미니탭에서 지원하는 클러스터링 기법(계속)

• 관측 개체 군집

– 모든 관측치를 분리한 상태에서 시작하는 응집적 계층적 방법

– 가장 가까운 두 개의 관측치가 결합

• 변수 군집

– 변수의 수를 줄이기 위해 사용

– 모든 변수를 분리한 상태에서 시작하는 응집적 계층적 방법

• K-평균 군집

– 서로 가까이에 있는 관측치를 그룹화

– 처음에 군집의 개수를 결정(K)

S FT COMPUTING @ YONSEI UNIV . KOREA

2

16


미니탭에서 지원하는 클러스터링 기법(계속)

• 유사도 계산을 위한 거리 측도

– Euclid 방법 : 일반적인 수학적 거리 측도 (거리 제곱합의 제곱근)

– Pearson 방법 : 거리 제곱합의 제곱근을 분산으로 나누는 방법

– Manhattan 거리 : 절대 거리의 합

– Euclid 제곱 : Euclid 방법의 제곱

– Pearson 제곱 : Pearson 방법의 제곱

S FT COMPUTING @ YONSEI UNIV . KOREA

3

16


미니탭에서 지원하는 클러스터링 기법

• 연결 방법

– 합병 단계에서 가장 가까운 두 개의 군집이 결합될 때 필요한 연결 규칙

– 단일 연결 : 한 군집 내에 있는 관측치와 다른 군집 내에 있는 관측치의

최소 거리

– 평균 연결 : 한 군집에 있는 관측 개체와 다른 군집에 있는 관측 개체 사이

의 평균거리

– 중심 연결 : 두 군집 중심 사이의 거리 또는 평균 사이의 거리

– 완전 연결 : 한 군집 내에 있는 관측치와 다른 군집 내에 있는 관측치의 최

대 거리

– 중위수 연결 : 한 군집에 있는 관측치와 다른 군집에 있는 관측치의 중위

수 간 거리

(중위수 : 데이터를 크기 순서로 배열할 때 중앙에 오는 데이터)

S FT COMPUTING @ YONSEI UNIV . KOREA

4

16


미니탭에서 지원하는 클러스터링 기법

• 연결 방법 (계속)

– McQuitty 연결 : 결합될 군집의 다른 군집에 대한 거리의 평균

– Ward 연결 : 점에서 중심까지의 편차에 대한 제곱을 더함

S FT COMPUTING @ YONSEI UNIV . KOREA

5

16


S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

6

16


Wine 데이터 셋 구성

• 같은 지역 내에 있는 세 개의 다른 포도주 양조장에서 얻은 와인의 13

가지 성질을 포함

– Alcohol : 알코올

– Malic Acid : 말산

– Ash : 물푸레나무

– Alkalinity of ash : 물푸레나무의 알칼리도

– Magnesium : 마그네슘

– Total phenols : 총 페놀

– Flavanoids : 플래버노이즈

– Nonflavanoid phenols

– Proanthocyanins : 프로안토시아닌

– Color intensity : 색의 강도

– Hue : 색상

– OD280/OD315 of diluted wines

– Proline : 프롤린

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

7

16


문제

1. Wine 데이터 셋을 시각화 하기 위해 주성분 분석으로 2개의 주성분

을 찾으시오.

(주성분 분석 : 서로 연관이 있는 변수들의 정보들을 최대한 확보하는 적은

수의 새로운 변수들을 생성하는 방법)

2. 1번에서 찾은 주성분으로 Wine 데이터 셋을 2차원으로 시각화 하여

데이터의 분포를 확인하고 몇 개의 군집으로 구분할 수 있을지를 논

하시오.

3. K-평균 군집 분석을 이용하여 2번에서 정한 군집의 개수로 군집화

하시오.

4. 관측 개체 군집 분석을 이용하여 3번에서 수행한 군집의 개수와 비

교하시오.

5. 군집된 클러스터의 속성을 비교하시오.

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

8

16


1번 풀이(계속)

Wine 데이터 셋 불러오기

– 미니탭 상단의 메뉴에서 [파일]->[워크시트 열기] 클릭 후 Wine.xls 열기

• 미니탭 상단의 메뉴에서 [통계분석]->[다변량 분석]->[주성분 분석]

클릭

• 변수란에 왼쪽에 변수들을 모두 클릭하고 “선택”버튼 클릭

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

9

16


1번 풀이(계속)

• 계산할 성분 수에 “2” 입력

• 행렬 유형 : 상관계수

• “저장”버튼 클릭

• 점수란에 “C15, C16” 입력 후 확인

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

10

16


1번 풀이

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

• 워크시트에 주성분1(PC1)은 C15열에 주성분2(PC2)는 C16열에 저장

된 것 확인

11

16


2번 풀이(계속)

• [그래프]->[산점도] 클릭

• “단순” 선택 후 “확인”버튼 클릭

• X변수, Y변수에 PCA의 결과로 얻은 주성분 각각을 선택 후 “확인”버

튼 클릭

S FT COMPUTING @ YONSEI UNIV . KOREA

주성분2

Wine 데이터 셋 예제

주성분1

12

16


2번 풀이

• 주성분 PC1와 PC2로 데이터 셋을 시각화

• 2~3개의 군집으로 그룹화 하는 것이 적절함

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

13

16


3번 풀이(계속)

• [통계분석]->[다변량 분석]->[K-평균 군집 분석] 클릭

• “군집수” 란에 “2” 입력, 변수 표준화 체크박스 선택

• 저장버튼 클릭

• “소속 군집 열” 란에 c17 입력 후 확인버튼 클릭

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

14

16


3번 풀이(계속)

• 미니탭 화면에 워크시트 C15 컬럼에 군집화 결과가 저장됨

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

15

16


3번 풀이(계속)

• 산점도 그래프를 이용하여 클러스터링의 결과를 시각화

• [그래프]->[산점도] 클릭

• “그룹” 표시 선택 후 “확인” 버튼 클릭

• 산점도 그리는 나머지 설정은 이전과 동일

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

• 결과 그래프에서 임의의 점을 선택 후 마우스 오른쪽 버튼 클릭 및

“기호편집” 클릭

16

16


3번 풀이

• “기호 편집”에서 [그룹] 탭을 클릭 후 C17 선택 및 “확인”버튼 클릭

• 클러스터링의 결과를 산점도로 확인

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

17

16


4번 풀이(계속)

• 상단 메뉴에서 [통계분석]->[다변량 분석]->[관측 개체 군집 분석] 클


• 연결 방법은 “완전”, 변수 표준화 체크 박스 클릭, 군집 수 “4”

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

18

16


4번 풀이(계속)

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

• 유사성 수준의 차이는 3개의 군집이 최종 분할로 충분함을 나타냄

19

16


5번 풀이 (계속)

• 군집된 클러스터의 각 성분 비교를 위해 데이터 표준화

• 상위 메뉴의 [계산]->[표준화] 클릭

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

20

16


5번 풀이 (계속)

• C18-C30에 표준화 결과 저장

• 워크시트의 변수 이름 복사

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

21

16


5번 풀이 (계속)

• 막대 차트 생성 : [그래프]->[막대 차트] 메뉴 클릭

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

22

16


5번 풀이 (계속)

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

• 함수를 “평균”으로, 그래프 변수를 “표준화된 변수들”로, 그룹화 범주

형 변수에 “Cluster”로 설정 후 “확인” 버튼 클릭

23

16


5번 풀이

• 결과 해석

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

– e.g. 군집 1의 알코올 성분이 군집 2의 알코올 성분보다 평균 15정도 더

많음

24

16


추가문제

• 거리측도를 변경하여 군집화를 수행하고 비교하시오.

– Euclid, Manhattan, Pearson, Euclid 제곱, Pearson 제곱

S FT COMPUTING @ YONSEI UNIV . KOREA

Wine 데이터 셋 예제

25

16


S FT COMPUTING @ YONSEI UNIV . KOREA

Iris 데이터 셋

예제

26

16


Iris 데이터 셋 구성

• 3가지 붓꽃을 분류하기 위한 데이터셋 (Setosa, Versicolour, Virginica)

– Sepal length (cm 단위) : 꽃받침의 길이

– Sepal width (cm 단위) : 꽃받침의 너비

– Petal length (cm 단위) : 꽃잎의 길이

– Petal width (cm 단위) : 꽃잎의 너비

– Species : 꽃의 종류 (setosa / versicolor / virginica)

S FT COMPUTING @ YONSEI UNIV . KOREA

• Iris 데이터 셋 예제

27

16


문제

S FT COMPUTING @ YONSEI UNIV . KOREA

• Iris 데이터 셋 예제

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시

오)

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고

결과를 비교하시오.

28

16


1번 답

S FT COMPUTING @ YONSEI UNIV . KOREA

• Iris 데이터 셋 예제

1. Iris 데이터 셋을 시각화 하시오. (필요하면 주성분 분석을 수행하시

오)

29

16


2번 답

S FT COMPUTING @ YONSEI UNIV . KOREA

• Iris 데이터 셋 예제

2. 관측 개체 군집 분석과 K-평균 군집 분석을 이용하여 군집화 하고

결과를 비교하시오.

30

16


BostonHousing 데이터 셋

S FT COMPUTING @ YONSEI UNIV . KOREA

예제

31

16


BostonHousing 데이터 셋 구성

• 보스턴 시의 주택 가격에 대한 데이터 셋

– CRIM : 자치시(town) 별 1인당 범죄율

– ZN : 25,000 평방피트를 초과하는 거주지역의 비율

– INDUS : 비소매 상업 지역이 점유하고 있는 토지의 비율

– CHAS : 찰스강에 대한 더미변수(강의 경계는 1, 아니면 0)

– NOX : 10ppm 당 농축 일산화질소

– RM : 주택 1가구당 평균 방의 개수

– AGE : 1940년 이전에 건축된 소유주택의 비율

– DIS : 5개의 보스턴 직업센터까지의 접근성 지수

– RAD : 방사형 도로까지의 접근성 지수

– TAX : 10,000 달러 당 재산세율

– PTRATIO : 자치시별 학생/교사 비율

– B : 1000(Bk-0.63)^2 (Bk는 자치시별 흑인의 비율)

– LSTAT : 모집단의 하위계층의 비율(%)

– MEDV : 본인 소유의 주택가격(중앙값) (단위 : $1,000)

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

32

16


문제

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각

화 하시오.

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데

이터 셋을 군집화 하시오.

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

4. 관측 개체 군집 분석의 거리 측도를 Manhattan과 Pearson으로 변

경하고 군집 수를 4로 설정하여 군집화 하시오.

33

16


1번 답

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

1. BostonHousing 데이터 셋의 RM 컬럼과 MEDV 컬럼을 이용해 시각

화 하시오.

34

16


2번 답

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

2. K-평균 군집 분석을 이용하여 RM 컬럼과 MEDV 컬럼으로 전체 데

이터 셋을 군집화 하시오.

35

16


3번 답

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

3. 2번의 결과를 관측 개체 군집 분석을 수행하여 비교하시오.

36

16


4번 답

4. 관측 개체 군집 분석의 거리 측도를 변경하고 군집 수를 4로 설정

하여 군집화 하시오.

Manhattan 거리 Pearson 거리

S FT COMPUTING @ YONSEI UNIV . KOREA

• BostonHousing 데이터 셋 예제

37

16

More magazines by this user
Similar magazines