24.02.2015 Views

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2009 년 한국통신학회 추계학술발표대회<br />

<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> <strong>객관적</strong> <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에 관한 연구<br />

윤성호, 박준상, 박진완, 오영석, 김명섭<br />

고려대학교<br />

{sungho_yoon, junsang_park, jinwan_park, youngsuk_oh, tmskim}@korea.ac.kr<br />

A Study of Evalu<strong>at</strong>ion and Verific<strong>at</strong>ion Method<br />

for Internet Traffic Classific<strong>at</strong>ion<br />

Sung-Ho Yoon, Jun-sang park, Jin-Wan park, Young-Seok oh, Myung-Sup Kim<br />

<strong>Korea</strong> Univ.<br />

요 약<br />

<strong>인터넷</strong> 사용의 대중화와 네트워크의 발전은 다양하고 대용량의 <strong>인터넷</strong> <strong>트래픽</strong>을 발생시키고 있다. 효과적인 네트워크<br />

관리를 위하여 <strong>트래픽</strong> 분석은 필수적인다. 다양한 <strong>트래픽</strong> 분석 방법론의 연구에 비해 분석 결과를 <strong>검증</strong>하는 방법은<br />

매우 더딘 것이 현실이다. 본 논문에서는 <strong>트래픽</strong> 분석 결과를 <strong>검증</strong>하는 방법론은 제시한다. 다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />

요소를 정의 함으로써 다양한 분석 방법론의 성능을 <strong>평가</strong>하고 <strong>검증</strong>함을 물론 여러 다른 방법론과의 성능 비교 역시<br />

가능하게 한다.<br />

Ⅰ. 서 론 1<br />

대용량의 <strong>인터넷</strong> 회선이 보편화되고 <strong>인터넷</strong> 서비스를<br />

이용하는 사용자가 급격히 증가 함에 따라 <strong>인터넷</strong><br />

<strong>트래픽</strong>이 급증하고 매우 다양해 졌다. 이는 전통적으로<br />

사용되는 WWW, FTP, e-mail 등의 <strong>인터넷</strong> 서비스뿐<br />

아니라 통합된 음성 망 서비스, 멀티미디어 파일의<br />

스트리밍 서비스 등의 멀티미디어 서비스를 제공하는<br />

네트워크 기반의 응용 프로그램이 더욱 다양하게<br />

개발됨에 따른 것이다. 따라서 효과적인 네트워크 관리를<br />

<strong>위한</strong> <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석의 중요성이 커지고<br />

있다[1]. 이러한 <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석은 네트워크<br />

관리와 제어 측면에서 많은 이점을 가진다.<br />

<strong>인터넷</strong> <strong>트래픽</strong> 분석은 목표 네트워크 링크로부터<br />

패킷을 수집하여 분석 기준에 맞게 분류하고 이를<br />

수량적으로 보이는 일련의 과정을 의미한다.<br />

<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> 많은 방법론이 제안되었다.<br />

제안된 방법론들은 다음과 같이 6 가지 카테고리로<br />

분류할 수 있다. Well-known port 기반, 페이로드<br />

시그니쳐 기반, 프로토콜 의미 기반, 통계적 분석 기반,<br />

머신 러닝 기반, 상관관계 기반이 그것이다.<br />

여러 다양한 방법론을 적용한 <strong>트래픽</strong> 분석에 관한<br />

연구는 활발히 진행되는 반면, 제안하는 분석기와 이를<br />

이용한 분석 결과를 <strong>객관적</strong>으로 <strong>평가</strong>하는 기준에 대한<br />

연구는 아직 미비한 실정이다.<br />

<strong>객관적</strong>인 <strong>평가</strong> 기준의 부재는 제안한 분석 방법론의<br />

정확한 성능 <strong>평가</strong>와 다양한 방법론 간의 성능 비교를<br />

어렵게 한다. 따라서 본 논문에서는 <strong>트래픽</strong> 분석의<br />

<strong>객관적</strong>인 <strong>검증</strong>과 <strong>평가</strong> 방법을 제안한다.<br />

2 장에서는 정답 데이터의 정의를 설명하고, 3 장에서는<br />

다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의한다. 4 장에서 <strong>검증</strong><br />

범위를 5 장에서 결론을 제시한다.<br />

* 이 논문은 2007 년 정부(교육인적자원부)의 재원으로 한국학술<br />

진흥재단의 지원을 받아 수행된 연구임.(KRF-2007-331-D00387)<br />

Ⅱ. 정답 데이터(Ground-truth D<strong>at</strong>a) 생성<br />

본 장에서는 정답 데이터의 의미와 기존 연구의<br />

무분별한 정답 데이터 생성 방법을 보인다. 본 논문은<br />

<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소에 초점을 맞추기 때문에 구체적인<br />

정답 데이터 생성 방법은 생략한다.<br />

정답 데이터는 실제 분석 대상인 <strong>트래픽</strong> 중 그 원천이<br />

확인된 <strong>트래픽</strong>을 의미한다. 이러한 데이터는 실제 분석된<br />

데이터와 비교하여 분석된 결과의 정확도를 측정하는데<br />

사용한다. 따라서 분석 결과의 정확한 <strong>검증</strong>을 위해서는<br />

정확한 정답 데이터가 필요하다. 하지만, 현재 정답<br />

데이터를 만드는 연구는 정확도와 효율성 측면에서 많은<br />

문제점을 가지고 있다. 예를 들어 다른 분석 방법의 분석<br />

결과를 정답 데이터로 사용한다[2] 던지 혹은<br />

수작업으로 정답 데이터를 생성하는 경우[3]도 있다.<br />

Ⅲ. <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />

정확한 정답지 데이터의 중요성과 같은 맥락으로<br />

<strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong>을 <strong>위한</strong> 요소를 정의하는 것 또한<br />

매우 중요하다. 이미 [4]에서 일부 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />

요소들을 정의 하였지만 본 논문에서는 추가적으로 좀더<br />

체계적이고 자세하게 정의 한다.<br />

3.1 분석기 <strong>평가</strong> 요소<br />

• 분석기준<br />

<strong>트래픽</strong>을 분석하는 분석기준을 의미한다. 예로써 응용,<br />

응용 타입, 프로토콜 등이 있다.<br />

• 분석 방법론 타입<br />

분석기가 기반을 둔 방법론의 타입을 의미한다. 예로써<br />

페이로드 시그니쳐 기반, 프로토콜 의미 기반 등이<br />

있다.<br />

• 분석 범위


2009 년 한국통신학회 추계학술발표대회<br />

분석기가 분석 할 수 있는 분석 기준의 개수를<br />

의미한다. 예로써 시그니쳐 기반의 분석기인 경우<br />

시그니쳐를 가지고 있는 분석 기준들의 개수를 의미<br />

한다.<br />

• 분석 용량<br />

분석기가 특정 기간 동안 <strong>트래픽</strong>의 손실 없이 분석할<br />

수 있는 최대 <strong>트래픽</strong> 용량을 의미한다.<br />

• 강건성<br />

환경 변화에 따른 분석기의 성능을 의미한다. 세부<br />

항목으로는 a)online/offline b)페킷 손실 가능성 c)<br />

비대칭 라우팅 처리 d) 선행 처리 필요 e) 분석 <strong>트래픽</strong><br />

변화에 대한 처리가 있다.<br />

3.2 실험 방법 <strong>평가</strong> 요소<br />

• 정답 데이터 생성 방법<br />

예로써 수작업, 디바이스 이용 등이 있다.<br />

• online/offline<br />

해당 실험이 online 혹은 offline 으로 진행 되었는지는<br />

나타낸다.<br />

• <strong>트래픽</strong> 수집 방법<br />

분석 대상 <strong>트래픽</strong>을 선택적으로 수집 하였는지 혹은<br />

분석 대상 네트워크에서 발생하는 전체 <strong>트래픽</strong>을 수집<br />

하였는지를 나타낸다.<br />

• 실험 장비<br />

실험에서 사용한 실험 장비의 사양(CPU, RAM, Disk,<br />

OS 등)을 나타낸다.<br />

3.3 분석 결과 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />

앞서 설명한 분석기와 실험 방법을 통하여 얻은 분석<br />

결과에 대한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소 이다.<br />

• 분석율<br />

분석 대상 전체 <strong>트래픽</strong> 중 분석된 <strong>트래픽</strong>의 비율을<br />

나타낸다.<br />

• 분석 결과 범위<br />

분석 결과에 속한 분석 기준의 개수를 의미한다.<br />

• 정확도<br />

해당 분석 방법의 결과와 정답지 데이터를 비교하여<br />

얼마나 해당 분석기가 정확하게 분석하는지를 나타낸다.<br />

정확도는 크게 전체 정확도와 개별 정확도로 나뉜다.<br />

정확도(Accuracy)는 다른 <strong>평가</strong> 요소와 달리 여러 <strong>검증</strong><br />

범위를 가진다. <strong>검증</strong> 범위에 대한 내용은 <strong>평가</strong> 요소<br />

설명 후 4 장에서 제시한다.<br />

• 전체 정확도<br />

<strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서 정확하게 분석된<br />

<strong>트래픽</strong>의 비율을 나타낸다.<br />

• 개별 정확도(Individual Accuracy)<br />

각 분석 기준 별 <strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서<br />

정확하게 분석된 <strong>트래픽</strong>의 비율을 나타낸다. 만약<br />

응용을 분석 기준으로 정하였다면, 각 응용 별,<br />

정확도를 의미한다. 개별 정확도는 FP(False positive),<br />

FN(False Neg<strong>at</strong>ive)로 계산된다. 응용 X 의 FP 란,<br />

해당 알고리즘이 X 가 아닌 응용을 X 라 분석한 것을<br />

의미한다. 또한 응용 X 의 FN 이란, 해당 알고리즘이<br />

X 를 X 가 아니라고 분석한 것을 의미한다. 특히, FN 은<br />

FN-Unclassified 와 FN-Mis_Classific<strong>at</strong>ion 으로 나눌<br />

수 있는데, 전자는 해당 알고리즘이 X 를 분석하지<br />

못한 것이고, 후자는 해당 알고리즘이 X 를 다른<br />

응용으로 분석한 것이다. 네트워크 관리의 <strong>트래픽</strong><br />

제어의 관점에서 본다면 FN-Unclassified 보다 FN-<br />

Mis_Classific<strong>at</strong>ion 이 더 큰 위험성을 가진다. 즉, 잘못<br />

분석하는 것은 아니 분석한 만 못하다는 의미이다.<br />

Ⅳ. <strong>검증</strong> 범위<br />

실제 네트워크에 개발된 분석 알고리즘을 적용시킬<br />

경우, 전체 <strong>트래픽</strong>을 <strong>검증</strong>하지 못한다. 네트워크 내의<br />

모든 호스트에 <strong>검증</strong>을 <strong>위한</strong> 에이전트, TMA 를 설치하기<br />

못하기 때문이다. 제한된 <strong>검증</strong> 데이터로 인해 <strong>검증</strong>의<br />

범위가 다음과 같이 3 가지로 나뉜다.<br />

• 정답 데이터 영역<br />

발생시킨 응용을 알고 있는 <strong>트래픽</strong>(정답지 데이터)에<br />

대한 정확도(Accuracy)이다. 분석된 양과 상관없이<br />

<strong>트래픽</strong> 전체에 대한 정확도(Accuracy)이기 때문에<br />

알고리즘이 분석하지 못한 부분에 대한 정보가<br />

반영된다. 즉, FN-Unclassified 와 FN-<br />

Mis_Classific<strong>at</strong>ion 모두 포함한다.<br />

• 적용 범위 영역<br />

Answer range 와 비슷하나 범위(Coverage)에 속한<br />

응용에 대해서만 적용된다는 점이 다르다. 시그니쳐<br />

기반의 알고리즘에서는 시그니쳐를 가지는 응용에<br />

한해서 <strong>검증</strong>을 하게 된다.<br />

• 분석 영역<br />

오직 분석된 <strong>트래픽</strong>에 한해 정확도(Accuracy)를<br />

구한다. FN 은 FN-Unclassified 를 포함 하지 않는다.<br />

즉, FN 은 FN-Mis_Classific<strong>at</strong>ion 만을 의미한다.<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

Ground-truth Range<br />

{abc, ac, bc, c}<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Coverage Range<br />

{abc, bc}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Classific<strong>at</strong>ion Range<br />

{abc, ac}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

그림 1. <strong>검증</strong> 범위<br />

Ⅴ. 결론<br />

본 논문에서는 <strong>트래픽</strong> 분석의 필요성을 제시하고<br />

기존의 여러 방법론들의 무분별한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에<br />

대해 문제점을 제시 하였다. <strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 기준<br />

부재는 <strong>트래픽</strong> 분석 연구의 발전을 더디게 만든다.<br />

분석기, 실험 방법, 분석 결과, 각각에 대한 다각적인<br />

<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의 하였다. 본 논문에서 제안한<br />

<strong>객관적</strong> 요소는 다양한 분석 방법론의 성능을 정확히<br />

측정 할 뿐만 아니라, 다른 방법론과의 비교를 가능하게<br />

한다. 향후 연구로는 정확한 정답 데이터 생성이 관한<br />

연구를 계획 중이다.<br />

참 고 문 헌<br />

[1] Myung-Sup Kim, Young J.Won, James Won-Ki<br />

Hong, “ Applic<strong>at</strong>ion-Level Traffic Monitoring and<br />

an Analysis on IP Networks” , ETRI Journal Vol. 27,<br />

No.1, February 2005.<br />

[2] T.Karagiannis, K.P apagiannaki and M.F<br />

aloutsos,“ BLINC: Multilevel Traffic Classific<strong>at</strong>ion<br />

in the Dark,” in Proc. of ACM SIGCOMM, August<br />

2005.<br />

[3] Moore, A.W., Zuev, D.: Internet traffic<br />

classific<strong>at</strong>ion using bayesian analysis techniques.<br />

In: Proceedings of ACM SIGMETRICS. (2005) 50–<br />

60.<br />

[4] Risso, F. Baldi, M. Morandi, O. Baldini, A.<br />

Monclus, P. Lightweight, Payload-Based Traffic<br />

Classific<strong>at</strong>ion: An Experimental Evalu<strong>at</strong>ion. In<br />

proceeding of Communic<strong>at</strong>ions, 2008. ICC '08. IEEE<br />

Intern<strong>at</strong>ional Conference, 2008.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!