인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2009 년 한국통신학회 추계학술발표대회<br />
<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> <strong>객관적</strong> <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에 관한 연구<br />
윤성호, 박준상, 박진완, 오영석, 김명섭<br />
고려대학교<br />
{sungho_yoon, junsang_park, jinwan_park, youngsuk_oh, tmskim}@korea.ac.kr<br />
A Study of Evalu<strong>at</strong>ion and Verific<strong>at</strong>ion Method<br />
for Internet Traffic Classific<strong>at</strong>ion<br />
Sung-Ho Yoon, Jun-sang park, Jin-Wan park, Young-Seok oh, Myung-Sup Kim<br />
<strong>Korea</strong> Univ.<br />
요 약<br />
<strong>인터넷</strong> 사용의 대중화와 네트워크의 발전은 다양하고 대용량의 <strong>인터넷</strong> <strong>트래픽</strong>을 발생시키고 있다. 효과적인 네트워크<br />
관리를 위하여 <strong>트래픽</strong> 분석은 필수적인다. 다양한 <strong>트래픽</strong> 분석 방법론의 연구에 비해 분석 결과를 <strong>검증</strong>하는 방법은<br />
매우 더딘 것이 현실이다. 본 논문에서는 <strong>트래픽</strong> 분석 결과를 <strong>검증</strong>하는 방법론은 제시한다. 다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />
요소를 정의 함으로써 다양한 분석 방법론의 성능을 <strong>평가</strong>하고 <strong>검증</strong>함을 물론 여러 다른 방법론과의 성능 비교 역시<br />
가능하게 한다.<br />
Ⅰ. 서 론 1<br />
대용량의 <strong>인터넷</strong> 회선이 보편화되고 <strong>인터넷</strong> 서비스를<br />
이용하는 사용자가 급격히 증가 함에 따라 <strong>인터넷</strong><br />
<strong>트래픽</strong>이 급증하고 매우 다양해 졌다. 이는 전통적으로<br />
사용되는 WWW, FTP, e-mail 등의 <strong>인터넷</strong> 서비스뿐<br />
아니라 통합된 음성 망 서비스, 멀티미디어 파일의<br />
스트리밍 서비스 등의 멀티미디어 서비스를 제공하는<br />
네트워크 기반의 응용 프로그램이 더욱 다양하게<br />
개발됨에 따른 것이다. 따라서 효과적인 네트워크 관리를<br />
<strong>위한</strong> <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석의 중요성이 커지고<br />
있다[1]. 이러한 <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석은 네트워크<br />
관리와 제어 측면에서 많은 이점을 가진다.<br />
<strong>인터넷</strong> <strong>트래픽</strong> 분석은 목표 네트워크 링크로부터<br />
패킷을 수집하여 분석 기준에 맞게 분류하고 이를<br />
수량적으로 보이는 일련의 과정을 의미한다.<br />
<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> 많은 방법론이 제안되었다.<br />
제안된 방법론들은 다음과 같이 6 가지 카테고리로<br />
분류할 수 있다. Well-known port 기반, 페이로드<br />
시그니쳐 기반, 프로토콜 의미 기반, 통계적 분석 기반,<br />
머신 러닝 기반, 상관관계 기반이 그것이다.<br />
여러 다양한 방법론을 적용한 <strong>트래픽</strong> 분석에 관한<br />
연구는 활발히 진행되는 반면, 제안하는 분석기와 이를<br />
이용한 분석 결과를 <strong>객관적</strong>으로 <strong>평가</strong>하는 기준에 대한<br />
연구는 아직 미비한 실정이다.<br />
<strong>객관적</strong>인 <strong>평가</strong> 기준의 부재는 제안한 분석 방법론의<br />
정확한 성능 <strong>평가</strong>와 다양한 방법론 간의 성능 비교를<br />
어렵게 한다. 따라서 본 논문에서는 <strong>트래픽</strong> 분석의<br />
<strong>객관적</strong>인 <strong>검증</strong>과 <strong>평가</strong> 방법을 제안한다.<br />
2 장에서는 정답 데이터의 정의를 설명하고, 3 장에서는<br />
다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의한다. 4 장에서 <strong>검증</strong><br />
범위를 5 장에서 결론을 제시한다.<br />
* 이 논문은 2007 년 정부(교육인적자원부)의 재원으로 한국학술<br />
진흥재단의 지원을 받아 수행된 연구임.(KRF-2007-331-D00387)<br />
Ⅱ. 정답 데이터(Ground-truth D<strong>at</strong>a) 생성<br />
본 장에서는 정답 데이터의 의미와 기존 연구의<br />
무분별한 정답 데이터 생성 방법을 보인다. 본 논문은<br />
<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소에 초점을 맞추기 때문에 구체적인<br />
정답 데이터 생성 방법은 생략한다.<br />
정답 데이터는 실제 분석 대상인 <strong>트래픽</strong> 중 그 원천이<br />
확인된 <strong>트래픽</strong>을 의미한다. 이러한 데이터는 실제 분석된<br />
데이터와 비교하여 분석된 결과의 정확도를 측정하는데<br />
사용한다. 따라서 분석 결과의 정확한 <strong>검증</strong>을 위해서는<br />
정확한 정답 데이터가 필요하다. 하지만, 현재 정답<br />
데이터를 만드는 연구는 정확도와 효율성 측면에서 많은<br />
문제점을 가지고 있다. 예를 들어 다른 분석 방법의 분석<br />
결과를 정답 데이터로 사용한다[2] 던지 혹은<br />
수작업으로 정답 데이터를 생성하는 경우[3]도 있다.<br />
Ⅲ. <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />
정확한 정답지 데이터의 중요성과 같은 맥락으로<br />
<strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong>을 <strong>위한</strong> 요소를 정의하는 것 또한<br />
매우 중요하다. 이미 [4]에서 일부 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />
요소들을 정의 하였지만 본 논문에서는 추가적으로 좀더<br />
체계적이고 자세하게 정의 한다.<br />
3.1 분석기 <strong>평가</strong> 요소<br />
• 분석기준<br />
<strong>트래픽</strong>을 분석하는 분석기준을 의미한다. 예로써 응용,<br />
응용 타입, 프로토콜 등이 있다.<br />
• 분석 방법론 타입<br />
분석기가 기반을 둔 방법론의 타입을 의미한다. 예로써<br />
페이로드 시그니쳐 기반, 프로토콜 의미 기반 등이<br />
있다.<br />
• 분석 범위
2009 년 한국통신학회 추계학술발표대회<br />
분석기가 분석 할 수 있는 분석 기준의 개수를<br />
의미한다. 예로써 시그니쳐 기반의 분석기인 경우<br />
시그니쳐를 가지고 있는 분석 기준들의 개수를 의미<br />
한다.<br />
• 분석 용량<br />
분석기가 특정 기간 동안 <strong>트래픽</strong>의 손실 없이 분석할<br />
수 있는 최대 <strong>트래픽</strong> 용량을 의미한다.<br />
• 강건성<br />
환경 변화에 따른 분석기의 성능을 의미한다. 세부<br />
항목으로는 a)online/offline b)페킷 손실 가능성 c)<br />
비대칭 라우팅 처리 d) 선행 처리 필요 e) 분석 <strong>트래픽</strong><br />
변화에 대한 처리가 있다.<br />
3.2 실험 방법 <strong>평가</strong> 요소<br />
• 정답 데이터 생성 방법<br />
예로써 수작업, 디바이스 이용 등이 있다.<br />
• online/offline<br />
해당 실험이 online 혹은 offline 으로 진행 되었는지는<br />
나타낸다.<br />
• <strong>트래픽</strong> 수집 방법<br />
분석 대상 <strong>트래픽</strong>을 선택적으로 수집 하였는지 혹은<br />
분석 대상 네트워크에서 발생하는 전체 <strong>트래픽</strong>을 수집<br />
하였는지를 나타낸다.<br />
• 실험 장비<br />
실험에서 사용한 실험 장비의 사양(CPU, RAM, Disk,<br />
OS 등)을 나타낸다.<br />
3.3 분석 결과 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />
앞서 설명한 분석기와 실험 방법을 통하여 얻은 분석<br />
결과에 대한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소 이다.<br />
• 분석율<br />
분석 대상 전체 <strong>트래픽</strong> 중 분석된 <strong>트래픽</strong>의 비율을<br />
나타낸다.<br />
• 분석 결과 범위<br />
분석 결과에 속한 분석 기준의 개수를 의미한다.<br />
• 정확도<br />
해당 분석 방법의 결과와 정답지 데이터를 비교하여<br />
얼마나 해당 분석기가 정확하게 분석하는지를 나타낸다.<br />
정확도는 크게 전체 정확도와 개별 정확도로 나뉜다.<br />
정확도(Accuracy)는 다른 <strong>평가</strong> 요소와 달리 여러 <strong>검증</strong><br />
범위를 가진다. <strong>검증</strong> 범위에 대한 내용은 <strong>평가</strong> 요소<br />
설명 후 4 장에서 제시한다.<br />
• 전체 정확도<br />
<strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서 정확하게 분석된<br />
<strong>트래픽</strong>의 비율을 나타낸다.<br />
• 개별 정확도(Individual Accuracy)<br />
각 분석 기준 별 <strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서<br />
정확하게 분석된 <strong>트래픽</strong>의 비율을 나타낸다. 만약<br />
응용을 분석 기준으로 정하였다면, 각 응용 별,<br />
정확도를 의미한다. 개별 정확도는 FP(False positive),<br />
FN(False Neg<strong>at</strong>ive)로 계산된다. 응용 X 의 FP 란,<br />
해당 알고리즘이 X 가 아닌 응용을 X 라 분석한 것을<br />
의미한다. 또한 응용 X 의 FN 이란, 해당 알고리즘이<br />
X 를 X 가 아니라고 분석한 것을 의미한다. 특히, FN 은<br />
FN-Unclassified 와 FN-Mis_Classific<strong>at</strong>ion 으로 나눌<br />
수 있는데, 전자는 해당 알고리즘이 X 를 분석하지<br />
못한 것이고, 후자는 해당 알고리즘이 X 를 다른<br />
응용으로 분석한 것이다. 네트워크 관리의 <strong>트래픽</strong><br />
제어의 관점에서 본다면 FN-Unclassified 보다 FN-<br />
Mis_Classific<strong>at</strong>ion 이 더 큰 위험성을 가진다. 즉, 잘못<br />
분석하는 것은 아니 분석한 만 못하다는 의미이다.<br />
Ⅳ. <strong>검증</strong> 범위<br />
실제 네트워크에 개발된 분석 알고리즘을 적용시킬<br />
경우, 전체 <strong>트래픽</strong>을 <strong>검증</strong>하지 못한다. 네트워크 내의<br />
모든 호스트에 <strong>검증</strong>을 <strong>위한</strong> 에이전트, TMA 를 설치하기<br />
못하기 때문이다. 제한된 <strong>검증</strong> 데이터로 인해 <strong>검증</strong>의<br />
범위가 다음과 같이 3 가지로 나뉜다.<br />
• 정답 데이터 영역<br />
발생시킨 응용을 알고 있는 <strong>트래픽</strong>(정답지 데이터)에<br />
대한 정확도(Accuracy)이다. 분석된 양과 상관없이<br />
<strong>트래픽</strong> 전체에 대한 정확도(Accuracy)이기 때문에<br />
알고리즘이 분석하지 못한 부분에 대한 정보가<br />
반영된다. 즉, FN-Unclassified 와 FN-<br />
Mis_Classific<strong>at</strong>ion 모두 포함한다.<br />
• 적용 범위 영역<br />
Answer range 와 비슷하나 범위(Coverage)에 속한<br />
응용에 대해서만 적용된다는 점이 다르다. 시그니쳐<br />
기반의 알고리즘에서는 시그니쳐를 가지는 응용에<br />
한해서 <strong>검증</strong>을 하게 된다.<br />
• 분석 영역<br />
오직 분석된 <strong>트래픽</strong>에 한해 정확도(Accuracy)를<br />
구한다. FN 은 FN-Unclassified 를 포함 하지 않는다.<br />
즉, FN 은 FN-Mis_Classific<strong>at</strong>ion 만을 의미한다.<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
Ground-truth Range<br />
{abc, ac, bc, c}<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Coverage Range<br />
{abc, bc}<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Classific<strong>at</strong>ion Range<br />
{abc, ac}<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
그림 1. <strong>검증</strong> 범위<br />
Ⅴ. 결론<br />
본 논문에서는 <strong>트래픽</strong> 분석의 필요성을 제시하고<br />
기존의 여러 방법론들의 무분별한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에<br />
대해 문제점을 제시 하였다. <strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 기준<br />
부재는 <strong>트래픽</strong> 분석 연구의 발전을 더디게 만든다.<br />
분석기, 실험 방법, 분석 결과, 각각에 대한 다각적인<br />
<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의 하였다. 본 논문에서 제안한<br />
<strong>객관적</strong> 요소는 다양한 분석 방법론의 성능을 정확히<br />
측정 할 뿐만 아니라, 다른 방법론과의 비교를 가능하게<br />
한다. 향후 연구로는 정확한 정답 데이터 생성이 관한<br />
연구를 계획 중이다.<br />
참 고 문 헌<br />
[1] Myung-Sup Kim, Young J.Won, James Won-Ki<br />
Hong, “ Applic<strong>at</strong>ion-Level Traffic Monitoring and<br />
an Analysis on IP Networks” , ETRI Journal Vol. 27,<br />
No.1, February 2005.<br />
[2] T.Karagiannis, K.P apagiannaki and M.F<br />
aloutsos,“ BLINC: Multilevel Traffic Classific<strong>at</strong>ion<br />
in the Dark,” in Proc. of ACM SIGCOMM, August<br />
2005.<br />
[3] Moore, A.W., Zuev, D.: Internet traffic<br />
classific<strong>at</strong>ion using bayesian analysis techniques.<br />
In: Proceedings of ACM SIGMETRICS. (2005) 50–<br />
60.<br />
[4] Risso, F. Baldi, M. Morandi, O. Baldini, A.<br />
Monclus, P. Lightweight, Payload-Based Traffic<br />
Classific<strong>at</strong>ion: An Experimental Evalu<strong>at</strong>ion. In<br />
proceeding of Communic<strong>at</strong>ions, 2008. ICC '08. IEEE<br />
Intern<strong>at</strong>ional Conference, 2008.