24.02.2015 Views

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2009 년 한국통신학회 추계학술발표대회<br />

분석기가 분석 할 수 있는 분석 기준의 개수를<br />

의미한다. 예로써 시그니쳐 기반의 분석기인 경우<br />

시그니쳐를 가지고 있는 분석 기준들의 개수를 의미<br />

한다.<br />

• 분석 용량<br />

분석기가 특정 기간 동안 <strong>트래픽</strong>의 손실 없이 분석할<br />

수 있는 최대 <strong>트래픽</strong> 용량을 의미한다.<br />

• 강건성<br />

환경 변화에 따른 분석기의 성능을 의미한다. 세부<br />

항목으로는 a)online/offline b)페킷 손실 가능성 c)<br />

비대칭 라우팅 처리 d) 선행 처리 필요 e) 분석 <strong>트래픽</strong><br />

변화에 대한 처리가 있다.<br />

3.2 실험 방법 <strong>평가</strong> 요소<br />

• 정답 데이터 생성 방법<br />

예로써 수작업, 디바이스 이용 등이 있다.<br />

• online/offline<br />

해당 실험이 online 혹은 offline 으로 진행 되었는지는<br />

나타낸다.<br />

• <strong>트래픽</strong> 수집 방법<br />

분석 대상 <strong>트래픽</strong>을 선택적으로 수집 하였는지 혹은<br />

분석 대상 네트워크에서 발생하는 전체 <strong>트래픽</strong>을 수집<br />

하였는지를 나타낸다.<br />

• 실험 장비<br />

실험에서 사용한 실험 장비의 사양(CPU, RAM, Disk,<br />

OS 등)을 나타낸다.<br />

3.3 분석 결과 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />

앞서 설명한 분석기와 실험 방법을 통하여 얻은 분석<br />

결과에 대한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소 이다.<br />

• 분석율<br />

분석 대상 전체 <strong>트래픽</strong> 중 분석된 <strong>트래픽</strong>의 비율을<br />

나타낸다.<br />

• 분석 결과 범위<br />

분석 결과에 속한 분석 기준의 개수를 의미한다.<br />

• 정확도<br />

해당 분석 방법의 결과와 정답지 데이터를 비교하여<br />

얼마나 해당 분석기가 정확하게 분석하는지를 나타낸다.<br />

정확도는 크게 전체 정확도와 개별 정확도로 나뉜다.<br />

정확도(Accuracy)는 다른 <strong>평가</strong> 요소와 달리 여러 <strong>검증</strong><br />

범위를 가진다. <strong>검증</strong> 범위에 대한 내용은 <strong>평가</strong> 요소<br />

설명 후 4 장에서 제시한다.<br />

• 전체 정확도<br />

<strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서 정확하게 분석된<br />

<strong>트래픽</strong>의 비율을 나타낸다.<br />

• 개별 정확도(Individual Accuracy)<br />

각 분석 기준 별 <strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서<br />

정확하게 분석된 <strong>트래픽</strong>의 비율을 나타낸다. 만약<br />

응용을 분석 기준으로 정하였다면, 각 응용 별,<br />

정확도를 의미한다. 개별 정확도는 FP(False positive),<br />

FN(False Neg<strong>at</strong>ive)로 계산된다. 응용 X 의 FP 란,<br />

해당 알고리즘이 X 가 아닌 응용을 X 라 분석한 것을<br />

의미한다. 또한 응용 X 의 FN 이란, 해당 알고리즘이<br />

X 를 X 가 아니라고 분석한 것을 의미한다. 특히, FN 은<br />

FN-Unclassified 와 FN-Mis_Classific<strong>at</strong>ion 으로 나눌<br />

수 있는데, 전자는 해당 알고리즘이 X 를 분석하지<br />

못한 것이고, 후자는 해당 알고리즘이 X 를 다른<br />

응용으로 분석한 것이다. 네트워크 관리의 <strong>트래픽</strong><br />

제어의 관점에서 본다면 FN-Unclassified 보다 FN-<br />

Mis_Classific<strong>at</strong>ion 이 더 큰 위험성을 가진다. 즉, 잘못<br />

분석하는 것은 아니 분석한 만 못하다는 의미이다.<br />

Ⅳ. <strong>검증</strong> 범위<br />

실제 네트워크에 개발된 분석 알고리즘을 적용시킬<br />

경우, 전체 <strong>트래픽</strong>을 <strong>검증</strong>하지 못한다. 네트워크 내의<br />

모든 호스트에 <strong>검증</strong>을 <strong>위한</strong> 에이전트, TMA 를 설치하기<br />

못하기 때문이다. 제한된 <strong>검증</strong> 데이터로 인해 <strong>검증</strong>의<br />

범위가 다음과 같이 3 가지로 나뉜다.<br />

• 정답 데이터 영역<br />

발생시킨 응용을 알고 있는 <strong>트래픽</strong>(정답지 데이터)에<br />

대한 정확도(Accuracy)이다. 분석된 양과 상관없이<br />

<strong>트래픽</strong> 전체에 대한 정확도(Accuracy)이기 때문에<br />

알고리즘이 분석하지 못한 부분에 대한 정보가<br />

반영된다. 즉, FN-Unclassified 와 FN-<br />

Mis_Classific<strong>at</strong>ion 모두 포함한다.<br />

• 적용 범위 영역<br />

Answer range 와 비슷하나 범위(Coverage)에 속한<br />

응용에 대해서만 적용된다는 점이 다르다. 시그니쳐<br />

기반의 알고리즘에서는 시그니쳐를 가지는 응용에<br />

한해서 <strong>검증</strong>을 하게 된다.<br />

• 분석 영역<br />

오직 분석된 <strong>트래픽</strong>에 한해 정확도(Accuracy)를<br />

구한다. FN 은 FN-Unclassified 를 포함 하지 않는다.<br />

즉, FN 은 FN-Mis_Classific<strong>at</strong>ion 만을 의미한다.<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

Ground-truth Range<br />

{abc, ac, bc, c}<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Coverage Range<br />

{abc, bc}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Classific<strong>at</strong>ion Range<br />

{abc, ac}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

그림 1. <strong>검증</strong> 범위<br />

Ⅴ. 결론<br />

본 논문에서는 <strong>트래픽</strong> 분석의 필요성을 제시하고<br />

기존의 여러 방법론들의 무분별한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에<br />

대해 문제점을 제시 하였다. <strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 기준<br />

부재는 <strong>트래픽</strong> 분석 연구의 발전을 더디게 만든다.<br />

분석기, 실험 방법, 분석 결과, 각각에 대한 다각적인<br />

<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의 하였다. 본 논문에서 제안한<br />

<strong>객관적</strong> 요소는 다양한 분석 방법론의 성능을 정확히<br />

측정 할 뿐만 아니라, 다른 방법론과의 비교를 가능하게<br />

한다. 향후 연구로는 정확한 정답 데이터 생성이 관한<br />

연구를 계획 중이다.<br />

참 고 문 헌<br />

[1] Myung-Sup Kim, Young J.Won, James Won-Ki<br />

Hong, “ Applic<strong>at</strong>ion-Level Traffic Monitoring and<br />

an Analysis on IP Networks” , ETRI Journal Vol. 27,<br />

No.1, February 2005.<br />

[2] T.Karagiannis, K.P apagiannaki and M.F<br />

aloutsos,“ BLINC: Multilevel Traffic Classific<strong>at</strong>ion<br />

in the Dark,” in Proc. of ACM SIGCOMM, August<br />

2005.<br />

[3] Moore, A.W., Zuev, D.: Internet traffic<br />

classific<strong>at</strong>ion using bayesian analysis techniques.<br />

In: Proceedings of ACM SIGMETRICS. (2005) 50–<br />

60.<br />

[4] Risso, F. Baldi, M. Morandi, O. Baldini, A.<br />

Monclus, P. Lightweight, Payload-Based Traffic<br />

Classific<strong>at</strong>ion: An Experimental Evalu<strong>at</strong>ion. In<br />

proceeding of Communic<strong>at</strong>ions, 2008. ICC '08. IEEE<br />

Intern<strong>at</strong>ional Conference, 2008.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!