인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
2009 년 한국통신학회 추계학술발표대회<br />
분석기가 분석 할 수 있는 분석 기준의 개수를<br />
의미한다. 예로써 시그니쳐 기반의 분석기인 경우<br />
시그니쳐를 가지고 있는 분석 기준들의 개수를 의미<br />
한다.<br />
• 분석 용량<br />
분석기가 특정 기간 동안 <strong>트래픽</strong>의 손실 없이 분석할<br />
수 있는 최대 <strong>트래픽</strong> 용량을 의미한다.<br />
• 강건성<br />
환경 변화에 따른 분석기의 성능을 의미한다. 세부<br />
항목으로는 a)online/offline b)페킷 손실 가능성 c)<br />
비대칭 라우팅 처리 d) 선행 처리 필요 e) 분석 <strong>트래픽</strong><br />
변화에 대한 처리가 있다.<br />
3.2 실험 방법 <strong>평가</strong> 요소<br />
• 정답 데이터 생성 방법<br />
예로써 수작업, 디바이스 이용 등이 있다.<br />
• online/offline<br />
해당 실험이 online 혹은 offline 으로 진행 되었는지는<br />
나타낸다.<br />
• <strong>트래픽</strong> 수집 방법<br />
분석 대상 <strong>트래픽</strong>을 선택적으로 수집 하였는지 혹은<br />
분석 대상 네트워크에서 발생하는 전체 <strong>트래픽</strong>을 수집<br />
하였는지를 나타낸다.<br />
• 실험 장비<br />
실험에서 사용한 실험 장비의 사양(CPU, RAM, Disk,<br />
OS 등)을 나타낸다.<br />
3.3 분석 결과 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />
앞서 설명한 분석기와 실험 방법을 통하여 얻은 분석<br />
결과에 대한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소 이다.<br />
• 분석율<br />
분석 대상 전체 <strong>트래픽</strong> 중 분석된 <strong>트래픽</strong>의 비율을<br />
나타낸다.<br />
• 분석 결과 범위<br />
분석 결과에 속한 분석 기준의 개수를 의미한다.<br />
• 정확도<br />
해당 분석 방법의 결과와 정답지 데이터를 비교하여<br />
얼마나 해당 분석기가 정확하게 분석하는지를 나타낸다.<br />
정확도는 크게 전체 정확도와 개별 정확도로 나뉜다.<br />
정확도(Accuracy)는 다른 <strong>평가</strong> 요소와 달리 여러 <strong>검증</strong><br />
범위를 가진다. <strong>검증</strong> 범위에 대한 내용은 <strong>평가</strong> 요소<br />
설명 후 4 장에서 제시한다.<br />
• 전체 정확도<br />
<strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서 정확하게 분석된<br />
<strong>트래픽</strong>의 비율을 나타낸다.<br />
• 개별 정확도(Individual Accuracy)<br />
각 분석 기준 별 <strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서<br />
정확하게 분석된 <strong>트래픽</strong>의 비율을 나타낸다. 만약<br />
응용을 분석 기준으로 정하였다면, 각 응용 별,<br />
정확도를 의미한다. 개별 정확도는 FP(False positive),<br />
FN(False Neg<strong>at</strong>ive)로 계산된다. 응용 X 의 FP 란,<br />
해당 알고리즘이 X 가 아닌 응용을 X 라 분석한 것을<br />
의미한다. 또한 응용 X 의 FN 이란, 해당 알고리즘이<br />
X 를 X 가 아니라고 분석한 것을 의미한다. 특히, FN 은<br />
FN-Unclassified 와 FN-Mis_Classific<strong>at</strong>ion 으로 나눌<br />
수 있는데, 전자는 해당 알고리즘이 X 를 분석하지<br />
못한 것이고, 후자는 해당 알고리즘이 X 를 다른<br />
응용으로 분석한 것이다. 네트워크 관리의 <strong>트래픽</strong><br />
제어의 관점에서 본다면 FN-Unclassified 보다 FN-<br />
Mis_Classific<strong>at</strong>ion 이 더 큰 위험성을 가진다. 즉, 잘못<br />
분석하는 것은 아니 분석한 만 못하다는 의미이다.<br />
Ⅳ. <strong>검증</strong> 범위<br />
실제 네트워크에 개발된 분석 알고리즘을 적용시킬<br />
경우, 전체 <strong>트래픽</strong>을 <strong>검증</strong>하지 못한다. 네트워크 내의<br />
모든 호스트에 <strong>검증</strong>을 <strong>위한</strong> 에이전트, TMA 를 설치하기<br />
못하기 때문이다. 제한된 <strong>검증</strong> 데이터로 인해 <strong>검증</strong>의<br />
범위가 다음과 같이 3 가지로 나뉜다.<br />
• 정답 데이터 영역<br />
발생시킨 응용을 알고 있는 <strong>트래픽</strong>(정답지 데이터)에<br />
대한 정확도(Accuracy)이다. 분석된 양과 상관없이<br />
<strong>트래픽</strong> 전체에 대한 정확도(Accuracy)이기 때문에<br />
알고리즘이 분석하지 못한 부분에 대한 정보가<br />
반영된다. 즉, FN-Unclassified 와 FN-<br />
Mis_Classific<strong>at</strong>ion 모두 포함한다.<br />
• 적용 범위 영역<br />
Answer range 와 비슷하나 범위(Coverage)에 속한<br />
응용에 대해서만 적용된다는 점이 다르다. 시그니쳐<br />
기반의 알고리즘에서는 시그니쳐를 가지는 응용에<br />
한해서 <strong>검증</strong>을 하게 된다.<br />
• 분석 영역<br />
오직 분석된 <strong>트래픽</strong>에 한해 정확도(Accuracy)를<br />
구한다. FN 은 FN-Unclassified 를 포함 하지 않는다.<br />
즉, FN 은 FN-Mis_Classific<strong>at</strong>ion 만을 의미한다.<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
Ground-truth Range<br />
{abc, ac, bc, c}<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Coverage Range<br />
{abc, bc}<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
classified<br />
a<br />
ac<br />
ab<br />
abc<br />
Classific<strong>at</strong>ion Range<br />
{abc, ac}<br />
Total Traffic<br />
In-coverage<br />
b<br />
bc<br />
c<br />
ground-truth<br />
그림 1. <strong>검증</strong> 범위<br />
Ⅴ. 결론<br />
본 논문에서는 <strong>트래픽</strong> 분석의 필요성을 제시하고<br />
기존의 여러 방법론들의 무분별한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에<br />
대해 문제점을 제시 하였다. <strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 기준<br />
부재는 <strong>트래픽</strong> 분석 연구의 발전을 더디게 만든다.<br />
분석기, 실험 방법, 분석 결과, 각각에 대한 다각적인<br />
<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의 하였다. 본 논문에서 제안한<br />
<strong>객관적</strong> 요소는 다양한 분석 방법론의 성능을 정확히<br />
측정 할 뿐만 아니라, 다른 방법론과의 비교를 가능하게<br />
한다. 향후 연구로는 정확한 정답 데이터 생성이 관한<br />
연구를 계획 중이다.<br />
참 고 문 헌<br />
[1] Myung-Sup Kim, Young J.Won, James Won-Ki<br />
Hong, “ Applic<strong>at</strong>ion-Level Traffic Monitoring and<br />
an Analysis on IP Networks” , ETRI Journal Vol. 27,<br />
No.1, February 2005.<br />
[2] T.Karagiannis, K.P apagiannaki and M.F<br />
aloutsos,“ BLINC: Multilevel Traffic Classific<strong>at</strong>ion<br />
in the Dark,” in Proc. of ACM SIGCOMM, August<br />
2005.<br />
[3] Moore, A.W., Zuev, D.: Internet traffic<br />
classific<strong>at</strong>ion using bayesian analysis techniques.<br />
In: Proceedings of ACM SIGMETRICS. (2005) 50–<br />
60.<br />
[4] Risso, F. Baldi, M. Morandi, O. Baldini, A.<br />
Monclus, P. Lightweight, Payload-Based Traffic<br />
Classific<strong>at</strong>ion: An Experimental Evalu<strong>at</strong>ion. In<br />
proceeding of Communic<strong>at</strong>ions, 2008. ICC '08. IEEE<br />
Intern<strong>at</strong>ional Conference, 2008.