12.07.2015 Views

Caracterização e re-identificação de papéis em Redes de Conexão

Caracterização e re-identificação de papéis em Redes de Conexão

Caracterização e re-identificação de papéis em Redes de Conexão

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Caracterização</strong> e <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong><strong>Conexão</strong>Larissa Pinheiro Spinelli 1 , Daniel R. Figuei<strong>re</strong>do 11 Programa <strong>de</strong> Engenharia <strong>de</strong> Sist<strong>em</strong>as e ComputaçãoUniversida<strong>de</strong> Fe<strong>de</strong>ral do Rio <strong>de</strong> Janeiro (UFRJ)Rio <strong>de</strong> Janeiro – RJ – Brasil{larissa, daniel}@land.ufrj.brAbstract. Connection Networks a<strong>re</strong> an abstraction to mo<strong>de</strong>l the exchange ofinformation between entities. In this abstraction, entities a<strong>re</strong> <strong>re</strong>p<strong>re</strong>sented byvertices and the exchange of information between two entities is <strong>re</strong>p<strong>re</strong>sented byedges. Entities in Connection Networks can have distinct roles which can be<strong>re</strong>lated to their functionality. For example, in the Internet Connection Network,entities <strong>re</strong>p<strong>re</strong>sented by IP add<strong>re</strong>sses can play the role of client or server. However,many Connection Networks a<strong>re</strong> anonymized in or<strong>de</strong>r to omit informationconcerning the i<strong>de</strong>ntity and the role of the entities. This paper p<strong>re</strong>sents a studyof the structural characteristics of the Internet Connection Network as well as acharacterization of the diffe<strong>re</strong>nt roles played by vertices. Using this characterization,this work proposes techniques to <strong>re</strong>-i<strong>de</strong>ntify the role of vertices in anonymizedInternet Connection Networks. These techniques use only the structuralproperties of the network. Finally, the proposed techniques a<strong>re</strong> evaluated andcompa<strong>re</strong>d to assess their efficiency in <strong>re</strong>-i<strong>de</strong>ntifying roles. Numerical <strong>re</strong>sults a<strong>re</strong>very promising and indicate that it is possible to <strong>re</strong>-i<strong>de</strong>ntify roles with a successrate of over 96%.Resumo. Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> são uma abstração para mo<strong>de</strong>lar a troca <strong>de</strong>informação ent<strong>re</strong> um conjunto <strong>de</strong> entida<strong>de</strong>s. Nesta abstração, entida<strong>de</strong>s são<strong>re</strong>p<strong>re</strong>sentadas por vértices e a troca <strong>de</strong> informação ent<strong>re</strong> duas entidadas são<strong>re</strong>p<strong>re</strong>sentadas por a<strong>re</strong>stas. Entida<strong>de</strong>s <strong>em</strong> uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> po<strong>de</strong>m possuir<strong>papéis</strong> distintos, po<strong>de</strong>ndo este estar <strong>re</strong>lacionado com a função <strong>de</strong>s<strong>em</strong>penhadapela entida<strong>de</strong>. Por ex<strong>em</strong>plo, na Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> da Internet, entida<strong>de</strong>s <strong>re</strong>p<strong>re</strong>sentadaspor en<strong>de</strong><strong>re</strong>ços IPs po<strong>de</strong>m <strong>de</strong>s<strong>em</strong>penhar o papel <strong>de</strong> cliente ou servidor.Ent<strong>re</strong>tanto, muitas Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> são anonimizadas <strong>de</strong> forma a omitirinformações <strong>re</strong>lacionadas a i<strong>de</strong>ntida<strong>de</strong> e o papel das entida<strong>de</strong>s. Este trabalhoap<strong>re</strong>senta um estudo das características estruturais da Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> daInternet, assim como a caracterização dos dife<strong>re</strong>ntes <strong>papéis</strong> existentes. Combase nesta caracterização, este trabalho propões técnicas para <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong><strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> da Internet que foram anonimizadas. Estastécnicas utilizam-se apenas das proprieda<strong>de</strong>s estruturais da Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong>anônima. Por fim, as técnicas propostas são avaliadas e comparadas ent<strong>re</strong> sipara medir a eficiência da <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong> dos <strong>papéis</strong>. Resultados numéricossão muito promisso<strong>re</strong>s e indicam ser possível <strong>re</strong>-i<strong>de</strong>ntificar <strong>papéis</strong> com taxas <strong>de</strong>acerto superior a 96%.1929


1. IntroduçãoA á<strong>re</strong>a <strong>de</strong> estudo conhecida por Re<strong>de</strong>s Complexas v<strong>em</strong> possibilitando – pelo <strong>de</strong>senvolvimento<strong>de</strong> diversas técnicas e mo<strong>de</strong>los – o entendimento <strong>de</strong> características e funcionalida<strong>de</strong>s<strong>de</strong> uma varieda<strong>de</strong> <strong>de</strong> sist<strong>em</strong>as <strong>em</strong> <strong>re</strong><strong>de</strong>s p<strong>re</strong>sentes na natu<strong>re</strong>za e na socieda<strong>de</strong>[Albert and Barabási 2002].Nosso trabalho <strong>de</strong>tém-se ao estudo <strong>de</strong> um sist<strong>em</strong>a <strong>em</strong> particular, ao qual <strong>de</strong>nominamosRe<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong>. As Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> <strong>re</strong>p<strong>re</strong>sentam troca <strong>de</strong> informaçãoent<strong>re</strong> entida<strong>de</strong>s. Um vértice neste sist<strong>em</strong>a <strong>re</strong>p<strong>re</strong>senta uma entida<strong>de</strong> participante dacomunicação, e, ao trocar informações, os vértices estabelec<strong>em</strong> uma a<strong>re</strong>sta ent<strong>re</strong> eles.Um ex<strong>em</strong>plo <strong>de</strong> Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> é a Internet on<strong>de</strong> os IPs são os vértices da <strong>re</strong><strong>de</strong> e atroca <strong>de</strong> pacotes ent<strong>re</strong> IPs é <strong>re</strong>p<strong>re</strong>sentado por uma a<strong>re</strong>sta. Os vértices das Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong>possu<strong>em</strong> atributos quanto ao papel <strong>de</strong>s<strong>em</strong>penhado na troca <strong>de</strong> informação, ou seja,os vértices são dife<strong>re</strong>nciáveis <strong>em</strong> tipos. No ex<strong>em</strong>plo da Internet t<strong>em</strong>os que os vérticespo<strong>de</strong>m ser <strong>de</strong>nominados cliente se iniciam conexões ou servidor se apenas <strong>re</strong>ceberamsolicitações <strong>de</strong> conexões.Alguns sist<strong>em</strong>as possu<strong>em</strong> informações sensíveis, <strong>de</strong> cunho pessoal ou sigiloso,<strong>re</strong>cor<strong>re</strong>ndo a anonimização para sua disponibilização pública. A anonimização objetivaa impossibilida<strong>de</strong> – <strong>de</strong>vido à <strong>re</strong>moção ou substituição <strong>de</strong> informações <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong> – <strong>de</strong><strong>re</strong>lação, di<strong>re</strong>ta ou indi<strong>re</strong>ta, ent<strong>re</strong> a instância anônima e a informação <strong>re</strong>al por ela <strong>re</strong>p<strong>re</strong>sentada.A anonimização das Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> leva, por ex<strong>em</strong>plo, a perda <strong>de</strong> informaçõesquanto ao papel <strong>de</strong>s<strong>em</strong>penhado pelos vértices e a i<strong>de</strong>ntida<strong>de</strong> <strong>re</strong>al <strong>de</strong>stes. Ent<strong>re</strong>tanto, muitosestudos <strong>re</strong>centes mostram a possibilida<strong>de</strong> da quebra do anonimato ou inferência <strong>de</strong>informação <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>, pela exploração das proprieda<strong>de</strong>s topológicas das <strong>re</strong><strong>de</strong>s.Este trabalho ap<strong>re</strong>senta uma caracterização das proprieda<strong>de</strong>s topológicas dasRe<strong>de</strong>s <strong>de</strong> Conexões, tanto indiscriminadamente, quanto pela distinção <strong>de</strong> <strong>papéis</strong>.Inspirando-se nesta caracterização são propostas técnicas que possibilitam a inferência <strong>de</strong>informações <strong>re</strong>levantes – como a <strong>re</strong>-i<strong>de</strong>ntififcação <strong>de</strong> <strong>papéis</strong>, baseando-se apenas na estruturada <strong>re</strong><strong>de</strong>. Neste trabalho faz<strong>em</strong>os ainda uma avaliação das técnicas <strong>de</strong> <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong>propostas e mostramos que é possível promover a <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong>Conexões Anônimas com taxas <strong>de</strong> acerto superior a 96%.Deste modo, este trabalho está organizado com a seguinte estrutura. Na Seção2 são <strong>de</strong>finidas, formalmente, as Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> e os possíveis <strong>papéis</strong> nelas i<strong>de</strong>ntificáveis.Na Seção 3 são ap<strong>re</strong>sentados alguns trabalhos <strong>re</strong>lacionados. Na Seção 4 é<strong>re</strong>alizada a caracterização das proprieda<strong>de</strong>s topológicas da Re<strong>de</strong>s <strong>de</strong> Conexões. Na Seção5 são ap<strong>re</strong>sentadas técnicas para a <strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> anonimizadase, compl<strong>em</strong>entarmente, na Seção 6 são ap<strong>re</strong>sentados e avaliados <strong>re</strong>sultados daaplicação <strong>de</strong>stas técnicas. Por último, na Seção 7 são feitas as consi<strong>de</strong>rações finais sob<strong>re</strong>o trabalho.2. Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong>O conceito <strong>de</strong> Re<strong>de</strong> <strong>de</strong> Conexões foi introduzido no trabalho [Iliofotou et al. 2007] como nome <strong>de</strong> Grafo <strong>de</strong> Dispersão <strong>de</strong> Tráfego (TDG - Traffic Dispersion Graph). TDGssão <strong>re</strong>p<strong>re</strong>sentações gráficas <strong>de</strong> várias interações di<strong>re</strong>cionadas (”qu<strong>em</strong> se comunica comqu<strong>em</strong>”) <strong>de</strong> um grupo <strong>de</strong> entida<strong>de</strong>s. Nesse contexto a Internet po<strong>de</strong> ser uma Re<strong>de</strong> <strong>de</strong>1930


(a) Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong>(b) Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> AnônimaFigura 1. Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> e sua Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> Anonimizada equivalente<strong>Conexão</strong> no qual os vértices <strong>re</strong>p<strong>re</strong>sentam entida<strong>de</strong>s com en<strong>de</strong><strong>re</strong>ços IP distintos e as a<strong>re</strong>stas<strong>re</strong>p<strong>re</strong>sentam a troca <strong>de</strong> pacotes ent<strong>re</strong> entida<strong>de</strong>s.Na construção <strong>de</strong> uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> po<strong>de</strong>mos utilizar diversos tráfegos. Nonosso estudo consi<strong>de</strong>ramos apenas fluxos <strong>de</strong> comunicação TCP cuja orig<strong>em</strong> ou <strong>de</strong>stinofosse a porta 80. Os vértices <strong>de</strong>ste grafo foram classificados – durante o estudo <strong>de</strong>caracterização – quanto a inicialização do estabelecimento da conexão TCP ent<strong>re</strong> as entida<strong>de</strong>s.A conexão TCP é assimétrica e, <strong>de</strong>ste modo, entida<strong>de</strong>s que apenas iniciaramconexões foram <strong>de</strong>nominadas como Cliente, as que apenas <strong>re</strong>ceberam conexões foram<strong>de</strong>nominadas como Servidor e as que inicializaram e <strong>re</strong>ceberam conexões como Cliente/Servidor.Neste trabalho utiliza<strong>re</strong>mos a seguinte notação para <strong>re</strong>fe<strong>re</strong>nciar os <strong>papéis</strong>:Cliente é <strong>de</strong>notado por C, Servidor por S e Cliente/Servidor por CS. As a<strong>re</strong>stas possu<strong>em</strong>notação similar <strong>de</strong>notando os tipos <strong>de</strong> vértices por elas conectados, por ex<strong>em</strong>plo, a<strong>re</strong>stasque conectam vértices C e S são <strong>de</strong>notadas por C-S, as que conectam vértices CS e CSserão CS-CS. Na Figura 1(a) v<strong>em</strong>os um ex<strong>em</strong>plo <strong>de</strong>stas <strong>de</strong>nonimações o IP3 apenas iniciaconexões sendo C, o IP1 apenas <strong>re</strong>cebe conexões sendo S e o IP4 tanto inicia como <strong>re</strong>cebeconexões sendo CS. A Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> utilizada neste trabalho utiliza apenas o en<strong>de</strong><strong>re</strong>ço<strong>de</strong> orig<strong>em</strong> e <strong>de</strong>stino proveniente <strong>de</strong> pacotes SYN do protocolo TCP para estruturação da<strong>re</strong><strong>de</strong>.2.1. Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> AnônimaA anonimização <strong>de</strong> uma <strong>re</strong><strong>de</strong> po<strong>de</strong> ser feita utilizando diversas técnicas. Uma <strong>de</strong>lasutiliza-se da <strong>de</strong>sassociação da informação sensível através <strong>de</strong> um mapeamento um-paraumcom i<strong>de</strong>ntificado<strong>re</strong>s sintéticos [Hay et al. 2008]. A <strong>re</strong><strong>de</strong> anônima gerada é isomorfa à<strong>re</strong><strong>de</strong> i<strong>de</strong>ntificada que a gerou. Deste modo, um i<strong>de</strong>ntificador da <strong>re</strong><strong>de</strong> <strong>re</strong>al é s<strong>em</strong>p<strong>re</strong> mapeadopara o mesmo i<strong>de</strong>ntificador sintético da <strong>re</strong><strong>de</strong> anonimizada b<strong>em</strong> como, uma a<strong>re</strong>sta existenteent<strong>re</strong> duas instâncias da <strong>re</strong><strong>de</strong> <strong>re</strong>al existirá também ent<strong>re</strong> os vértices cor<strong>re</strong>spon<strong>de</strong>ntesanônimos. Uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> Anônima nada mais é uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> quepassou para uma anonimização <strong>de</strong> i<strong>de</strong>ntificado<strong>re</strong>s e teve o atributo <strong>de</strong> papel omitido. AFigura 1 ex<strong>em</strong>plifica este processo. Um probl<strong>em</strong>a crítico existente <strong>em</strong> <strong>re</strong><strong>de</strong>s anônimas é aquebra da segurança das informações. Neste sentido, diversos estudos <strong>re</strong>centes v<strong>em</strong> mostrandoque é possível quebrar o anonimato ou inferir informações <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong> a partir,apenas, da exploração da estrutura da <strong>re</strong><strong>de</strong> anônima. Em Re<strong>de</strong>s <strong>de</strong> Conexões Anônimasesse probl<strong>em</strong>a <strong>re</strong>laciona-se, por ex<strong>em</strong>plo, a <strong>re</strong>-i<strong>de</strong>ntificão <strong>de</strong> <strong>papéis</strong>.1931


3. Trabalhos RelacionadosEm [Hay and Srivastava 2006] traces <strong>de</strong> tráfego <strong>re</strong>al foram utilizados para estruturar Re<strong>de</strong>s<strong>de</strong> <strong>Conexão</strong> – <strong>de</strong>finido pelos auto<strong>re</strong>s como Grafo <strong>de</strong> Dispersão <strong>de</strong> Tráfego (TDGs- Traffic Dispersion Graphs). Neste trabalho a análise e utilização <strong>de</strong> características topológicasé feita com o propósito <strong>de</strong> classificação <strong>de</strong> tráfego, e a Re<strong>de</strong> <strong>de</strong> Conexões <strong>em</strong>estudo possui di<strong>re</strong>ção quanto ao envio <strong>de</strong> pacotes. O acréscimo da informação <strong>de</strong> di<strong>re</strong>çãodas a<strong>re</strong>stas torna o probl<strong>em</strong>a <strong>de</strong> classificação <strong>de</strong> <strong>papéis</strong> proposta neste artigo, trivial.Em [Narayanan and Shmatikov 2009] é proposto um algoritmo genérico para a<strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> vértices <strong>em</strong> Re<strong>de</strong>s Sociais <strong>re</strong>ais baseado apenas na estrutura da Re<strong>de</strong>.O algoritmo explora as informações contidas nas a<strong>re</strong>stas como grau e p<strong>re</strong>visão <strong>de</strong> a<strong>re</strong>stas(link p<strong>re</strong>diction) – e não apenas nos dados <strong>re</strong>passados <strong>de</strong> cada vértice – para mapearsob<strong>re</strong>posições ent<strong>re</strong> uma Re<strong>de</strong> Social anônima alvo e uma Re<strong>de</strong> Social auxiliar conhecida.O trabalho <strong>de</strong>senvolvido <strong>em</strong> [Pang et al. 2006] ap<strong>re</strong>senta técnicas para inferênciada topologia e <strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> servido<strong>re</strong>s <strong>em</strong> Re<strong>de</strong>s Anonimizadas. [Maha<strong>de</strong>van et al. ]mostra um conjunto <strong>de</strong> característica da topologia AS da Internet.Em [Meiss et al. 2005] é ap<strong>re</strong>sentando um estudo <strong>em</strong> larga escala do tráfego Webbaseado no fluxo <strong>de</strong> dados <strong>de</strong> <strong>re</strong><strong>de</strong>s. [Kitsak et al. 2010] busca a <strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> um nóque melhor promova a propagação <strong>de</strong> informação <strong>de</strong>ntro <strong>de</strong> uma Re<strong>de</strong> Social.4. <strong>Caracterização</strong> <strong>de</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong>Para caracterizar uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> utilizamos traces públicos <strong>de</strong> tráfego <strong>re</strong>aldo backbone da Internet da base “The CAIDA Anonymized 2009 Internet Traces”[Colby Walsworth 2009]. Esta base é composta por traces anonimizados <strong>de</strong> tráfego passivo– divididos <strong>em</strong> pedaços cor<strong>re</strong>spon<strong>de</strong>ntes a 1 minuto <strong>de</strong> observação - coletada pelosmonito<strong>re</strong>s da CAIDA <strong>em</strong> 2009. Desta base foram utilizados os arquivos “passive-2009/equinix-chicago/20090331” equivalentes a 1 hora <strong>de</strong> observação consecutiva.4.1. Proprieda<strong>de</strong>sMétricas topológicas são amplamente difundidas para a <strong>de</strong>scrição e comparação <strong>de</strong> Re<strong>de</strong>s[Albert and Barabási 2002]. Neste trabalho, apenas algumas das métricas mais utilizadasforam avaliadas.Grau Médio: é <strong>de</strong>finido pelas duas mais básicas proprieda<strong>de</strong>s <strong>de</strong> um grafo, onúmero <strong>de</strong> vértices e o número <strong>de</strong> a<strong>re</strong>stas, sendo calculado pela razão ent<strong>re</strong> duas vezeso número <strong>de</strong> a<strong>re</strong>stas e o número <strong>de</strong> vértices. O grau médio po<strong>de</strong> servir como indicativoda conectivida<strong>de</strong> do grafo – grafos com alto grau médio ten<strong>de</strong>m a ser mais conectadose robustos – porém, é tido como um indicativo limitado visto que grafos com dife<strong>re</strong>ntesproprieda<strong>de</strong>s topológicas po<strong>de</strong>m ter o mesmo grau médio [Albert and Barabási 2002]. ARe<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> <strong>em</strong> estudo possui 1520327 en<strong>de</strong><strong>re</strong>ços <strong>de</strong> IPs e 2674054 a<strong>re</strong>stas tendoconsequent<strong>em</strong>ente um grau médio <strong>de</strong> aproximadamente 3, 52.Distribuição Empírica <strong>de</strong> Grau: é fração <strong>de</strong> vértices <strong>de</strong> grau k dada por:P (k) = n(k)/n, on<strong>de</strong> n(k) é o número <strong>de</strong> vértices com grau k e n o total <strong>de</strong> vértices.Na Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> estudada fica evi<strong>de</strong>nte uma <strong>re</strong>lação <strong>de</strong>sigual quanto à distribuição<strong>de</strong> grau nos vértices. O grau médio do grafo é 3, 52 e o maior grau encontrado é 132900,ou seja, o maior grau é mais <strong>de</strong> 37 mil vezes maior que o grau médio. A função <strong>de</strong>1932


distribuição cumulativa compl<strong>em</strong>entar (Compl<strong>em</strong>entary Cumulative Distribution Function– CCDF) <strong>em</strong>pírica do grau dos vértices, Figura 4 curva < todos >, foi traçada eaproximada a uma distribuição <strong>de</strong> lei <strong>de</strong> potência através da utilização do método estatístico<strong>de</strong> máxima verossimilhança (MLE – Maximum Likelihood Estimation) – usadopara ajustar dados a um mo<strong>de</strong>lo estatístico. Uma lei <strong>de</strong> potência <strong>re</strong>p<strong>re</strong>senta uma <strong>re</strong>laçãomat<strong>em</strong>ática on<strong>de</strong> a f<strong>re</strong>quência ou quantida<strong>de</strong> <strong>de</strong> um objeto varia <strong>de</strong> acordo com umapotência <strong>de</strong> algum atributo. Distribuições <strong>de</strong> probabilida<strong>de</strong> que segu<strong>em</strong> lei <strong>de</strong> potência<strong>re</strong>p<strong>re</strong>sentam eventos que, <strong>em</strong> geral, possu<strong>em</strong> altas probabilida<strong>de</strong>s para amostras do inícioda distribuição, como também, amostras muito acima da média da distribuição com probabilida<strong>de</strong>não <strong>de</strong>sp<strong>re</strong>zível (variando <strong>de</strong> acordo com uma potência). Re<strong>de</strong>s cujas caudasda distribuição segu<strong>em</strong> uma lei <strong>de</strong> potência – ou seja – possu<strong>em</strong> a forma P (x) ∼ x −γsão conhecidas como liv<strong>re</strong>s <strong>de</strong> escala [Albert and Barabási 2002]. A CCDF <strong>em</strong>pírica foiaproximada <strong>de</strong> uma lei <strong>de</strong> potência com expoente <strong>de</strong> γ = 2, 19 e erro σ = 4, 6 ∗ 10 −3 e,<strong>de</strong>ste modo, comprovamos a gran<strong>de</strong> <strong>de</strong>sigualda<strong>de</strong> existente ent<strong>re</strong> os graus.Distribuição Conjunta Empírica <strong>de</strong> Grau: seja m(k 1 , k 2 ) o total <strong>de</strong> a<strong>re</strong>stas queconectam nós <strong>de</strong> grau k 1 e k 2 . A distribuição conjunta <strong>em</strong>pírica <strong>de</strong> grau é a fração <strong>de</strong>a<strong>re</strong>stas que sejam inci<strong>de</strong>ntes sob<strong>re</strong> vértices <strong>de</strong> grau k 1 e k 2 :P (k 1 , k 2 ) = µ(k 1 , k 2 ) ∗ m(k 1 , k 2 )/2m , on<strong>de</strong> m é o total <strong>de</strong> a<strong>re</strong>stas e{1 se k 1 = k 2µ(k 1 , k 2 ) =2 c.c.Com a distribuição conjunta <strong>de</strong> probabilida<strong>de</strong> é possível estimar informações quanto àvizinhança <strong>de</strong> um vértice [Albert and Barabási 2002]. Ao observar a Figura 2 v<strong>em</strong>osFigura 2. Histograma da Distribuição Conjunta Empírica <strong>de</strong> Grau (Intervalo logarítmo base2)que vértices <strong>de</strong> grau alto são, com gran<strong>de</strong> probabilida<strong>de</strong>, adjacentes a vértices <strong>de</strong> graubaixo. Por outro lado, vértices <strong>de</strong> grau baixo ap<strong>re</strong>sentam probabilida<strong>de</strong>s s<strong>em</strong>elhantes <strong>de</strong>adjacência com graus altos e baixos.Componente Conexa: é <strong>de</strong>finida na teoria do grafos como um sub-grafo conexomaximal. Diz-se que o grafo é conexo quando ele possui apenas um componente conexo1933


composto pelo grafo inteiro. A Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> <strong>em</strong> estudo não é conexa sendo, ent<strong>re</strong>tanto,dominada por uma Componente Conexa Gigante (GCC - Giant Connected Component)que possui 1499870 vértices, o equivalente a 98,65% do total <strong>de</strong> vértices <strong>re</strong>standoapenas 1,35% nas <strong>de</strong>mais componentes. A Re<strong>de</strong> possui um total <strong>de</strong> 7869 componentesconexos nos quais 78,88% t<strong>em</strong> tamanho 2 (menor tamanho possível), 13,09% tamanho 3,4,43% tamanho 4 e, consequent<strong>em</strong>ente, menos <strong>de</strong> 3,6% t<strong>em</strong> tamanho maior que 4. Esta<strong>re</strong>lação <strong>de</strong>sigual ent<strong>re</strong> o tamanho da componente conexa e a quantida<strong>de</strong> <strong>de</strong> componentesestá exp<strong>re</strong>ssa na Figura 3 on<strong>de</strong> a CCDF <strong>em</strong>pírica do tamanho da componente conexa evi<strong>de</strong>nciatal dife<strong>re</strong>nça, <strong>de</strong> on<strong>de</strong> foi calculado o expoente γ = 2, 22 com o qual t<strong>em</strong>os umerro σ = 1, 3 ∗ 10 −2 . Distância: a distância ent<strong>re</strong> dois vértices é <strong>de</strong>finida como o menorFigura 3. Distribuição do tamanho das componentescaminho ent<strong>re</strong> eles. A distribuição <strong>em</strong>pírica da distância d(x) <strong>re</strong>p<strong>re</strong>senta a fração <strong>de</strong> pa<strong>re</strong>s<strong>de</strong> vértice que estão a uma distância <strong>de</strong> x saltos do outro. A maior distância do grafo<strong>re</strong>p<strong>re</strong>senta o diâmetro <strong>de</strong>ste.Clusterização: o coeficiente <strong>de</strong> clusterização <strong>re</strong>p<strong>re</strong>senta a porcentag<strong>em</strong> <strong>de</strong>triângulos sob<strong>re</strong> o total <strong>de</strong> triplas conectadas <strong>em</strong> todo o grafo [Albert and Barabási 2002].Esta métrica t<strong>em</strong> implicações práticas pois exp<strong>re</strong>ssa a robustez do grafo. Muitas das <strong>re</strong><strong>de</strong>scomplexas <strong>re</strong>ais estudadas possu<strong>em</strong> alto coeficiente <strong>de</strong> clusterização, porém, paraa <strong>re</strong><strong>de</strong> <strong>em</strong> estudo – surp<strong>re</strong>en<strong>de</strong>nt<strong>em</strong>ente – a clusterização é nula. Vale <strong>re</strong>ssaltar que aclusterização nula significa que não há ciclo <strong>de</strong> tamanho três na Re<strong>de</strong> <strong>de</strong> Conexões avaliada.Ent<strong>re</strong>tanto, esta <strong>re</strong><strong>de</strong> possui ciclos <strong>de</strong> outros tamanhos.4.2. <strong>Caracterização</strong> por PapéisNesta seção fa<strong>re</strong>mos a caracterização da Re<strong>de</strong> <strong>de</strong> Conexões quanto aos <strong>papéis</strong> <strong>de</strong>s<strong>em</strong>penhadospelos vértices. A observação das proprieda<strong>de</strong>s topológicas do Grafo quanto a estes<strong>papéis</strong> é essencial para a caracterização e dife<strong>re</strong>nciação <strong>de</strong>stes. A partir <strong>de</strong>sta análise épossível, então, propor técnicas para a classificação <strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> anonimizadas.Grau Médio: é calculado pelas soma do grau dos vértices <strong>de</strong> um dado papel divididopelo total <strong>de</strong> vértices <strong>de</strong>ste tipo. A Re<strong>de</strong> <strong>em</strong> estudo possui 1399690 vértices clientes– 92,07% do total – que possu<strong>em</strong> o grau médio <strong>de</strong> aproximadamente 1, 89. Para o tipo servido<strong>re</strong>sforam classificados 116509 vértices (7,66%) e o grau médio é aproximadamente1934


21, 86. Já para o tipo cliente/servidor o grafo possui apenas 4128 nós (0,27%) e o graumédio <strong>de</strong> 37, 90.Distribuição Empírica <strong>de</strong> Grau: seja n 1 (k) o número <strong>de</strong> vértices com grau kdo tipo 1 . A distribuição <strong>em</strong>pírica <strong>de</strong> grau dos vértices por tipo cor<strong>re</strong>spon<strong>de</strong> à fração <strong>de</strong>vértices <strong>de</strong> um <strong>de</strong>terminado tipo com grau k: P (k|t 1 ) = n 1 (k)/n 1 . A Figura 4 mostraa CCDF <strong>em</strong>pírica <strong>de</strong> grau para os dife<strong>re</strong>ntes <strong>papéis</strong> na Re<strong>de</strong>. Para o tipo C foi estimadoum expoente γ c = 2, 48 com o qual t<strong>em</strong>os um erro σ c = 5, 5 ∗ 10 −3 , para o tipo Sγ s = 1, 73 e σ s = 7, 4 ∗ 10 −3 e para o tipo CS γ cs = 2, 05 com o qual t<strong>em</strong>os um erroσ cs = 3 ∗ 10 −2 . Deste modo v<strong>em</strong>os que não só a distribuição <strong>em</strong>pírica <strong>de</strong> grau da <strong>re</strong><strong>de</strong>segue uma lei <strong>de</strong> potência, como também, cada distribuição <strong>em</strong>pírica <strong>de</strong> grau por tipo<strong>de</strong> vértice estudada segue lei <strong>de</strong> potência. É inte<strong>re</strong>ssante observar que as distribuições<strong>de</strong> grau para S e CS t<strong>em</strong> um expoente menor que o expoente da distribuição C e, <strong>em</strong>consequência, possu<strong>em</strong> uma distribuição <strong>de</strong> grau ainda mais <strong>de</strong>sigual. Na figura 4 ficaFigura 4. Distribuição Empírica <strong>de</strong> Grauevi<strong>de</strong>nte a dife<strong>re</strong>nça ent<strong>re</strong> as caudas das distribuições. O maior grau <strong>de</strong> um vértice clienteé 11411. Para este valor t<strong>em</strong>os ainda que 0,19% dos vértices do tipo servidor, ou seja, mais<strong>de</strong> 220 vértices, possu<strong>em</strong> grau maior que este. Para os vértices do tipo cliente/servido<strong>re</strong>sse valor chega a 0,9%, porém <strong>re</strong>p<strong>re</strong>senta uma quantida<strong>de</strong> <strong>de</strong> apenas 37 vértices comgrau superior. O maior grau <strong>de</strong> um vértice cliente/servidor é <strong>de</strong> 42384, para o qual aindat<strong>em</strong>os aproximadamente 0,01% <strong>de</strong> vértices do tipo servidor com grau superior, cerca <strong>de</strong>10 vértices. O maior grau da <strong>re</strong><strong>de</strong> é do tipo servidor, com grau <strong>de</strong> 132900 que é 3 vezesmaior que o maior grau do tipo cliente/servidor e 11 vezes maior que o maior grau do tipocliente.A<strong>re</strong>stas: A Re<strong>de</strong> <strong>de</strong> Conexões <strong>em</strong> estudo, <strong>de</strong>vido ao modo como é composta,possibilita que existam apenas a<strong>re</strong>stas ent<strong>re</strong> <strong>de</strong>terminados tipos <strong>de</strong> vértices. As a<strong>re</strong>staspossíveis são: C-S, C-CS, S-CS e CS-CS. Destas observou-se as seguintes quantida<strong>de</strong>s<strong>de</strong>ntro na <strong>re</strong><strong>de</strong>:• C-S: 2520009 a<strong>re</strong>stas (94,24%)1935


(a) C-S(b) C-CS(c) S-CS(d) CS-CSFigura 5. Histograma da Distribuição Conjunta Empírica <strong>de</strong> Grau por Papéis (Intervalologarítmo base 2)• CS-C: 124717 a<strong>re</strong>stas (4,66%)• CS-S: 26932 a<strong>re</strong>stas (1,01%)• CS-CS: 2396 a<strong>re</strong>stas (0,09%)As proporções <strong>de</strong> a<strong>re</strong>stas nos <strong>re</strong>velam que a adjacência mais comum na <strong>re</strong><strong>de</strong> éa <strong>de</strong> Clientes com Servido<strong>re</strong>s. Outra maneira <strong>de</strong> interp<strong>re</strong>tar esses dados diz <strong>re</strong>speito àf<strong>re</strong>quência <strong>re</strong>lativa da classificação dos vértices adjacentes a um <strong>de</strong>terminado tipo. Nestesentido, os vértices do tipo S t<strong>em</strong> 98,94% <strong>de</strong> vizinhos do tipo C e apenas 1,06% do tipoCS. Já os vértices do tipo C t<strong>em</strong> 95,28% <strong>de</strong> vizinhos do tipo S e 4,72% do tipo CS.Vértices CS t<strong>em</strong> 80,96% <strong>de</strong> vizinhos C, 17,48% S e apenas 1,56% CS.Distribuição Conjunta Empírica <strong>de</strong> Grau por <strong>papéis</strong>: <strong>re</strong>p<strong>re</strong>senta a fração <strong>re</strong>lativa<strong>de</strong> a<strong>re</strong>stas que conectam um vértice <strong>de</strong> grau k 1 do tipo 1 e <strong>de</strong> grau k 2 do tipo 2 . Comoa<strong>re</strong>stas do tipo C-C e S-S não são possíveis, a distribuição conjunta para estas a<strong>re</strong>stas énula. As <strong>de</strong>mais distribuições <strong>em</strong>píricas conjuntas estão <strong>re</strong>p<strong>re</strong>sentadas na Figura 5. A Figura5 nos <strong>re</strong>vela algumas tendência <strong>de</strong> vizinhança da <strong>re</strong><strong>de</strong>. Em 5(a) v<strong>em</strong>os que S <strong>de</strong> graualto estão conectados na sua maioria com C <strong>de</strong> grau baixo e C <strong>de</strong> grau alto conectam-se,<strong>em</strong> geral, a S <strong>de</strong> grau baixo. Tal padrão – <strong>re</strong>lação ent<strong>re</strong> grau alto e baixo – é <strong>re</strong>petidotambém na Figura 5(b) e menos intensamente nas Figuras 5(c) e 5(d).5. Re-<strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> <strong>papéis</strong>A inferência <strong>de</strong> informações <strong>re</strong>levantes provenientes apenas da estrutura <strong>de</strong> Re<strong>de</strong>s anonimizadast<strong>em</strong> sido alvo <strong>de</strong> diversos trabalhos [Hay et al. 2008] e [Pang et al. 2006]. Nesta1936


seção ap<strong>re</strong>sentamos algumas técnicas, propostas neste trabalho, para a <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong><strong>de</strong> <strong>papéis</strong> (cliente, servidor, cliente/servidor) <strong>em</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong> anonimizadas. Astécnicas ap<strong>re</strong>sentadas exploram apenas as proprieda<strong>de</strong>s estruturais <strong>de</strong>stas <strong>re</strong><strong>de</strong>s <strong>de</strong>scritase avaliadas na seção 4 <strong>de</strong>ste trabalho. Todas as técnicas propostas p<strong>re</strong>ocupam-se <strong>em</strong> gerarclassificações consistentes, ou seja, classificações possíveis, observadas as <strong>re</strong>strições<strong>de</strong> <strong>re</strong>lação <strong>de</strong> adjacência. Uma classificação consistente para uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> nãopermite que existam a<strong>re</strong>stas do tipo C-C ou S-S.5.1. Classificador <strong>de</strong> Or<strong>de</strong>m Dec<strong>re</strong>scenteEsta técnica tenta explorar, <strong>de</strong> modo simples, a <strong>re</strong>lação ent<strong>re</strong> as caudas da distribuição<strong>em</strong>pírica <strong>de</strong> grau dos dife<strong>re</strong>ntes tipos <strong>de</strong> vértice. Po<strong>de</strong>mos inferir que os vértices <strong>de</strong> maiorgrau da <strong>re</strong><strong>de</strong> serão do tipo servidor, <strong>de</strong> acordo com a avaliação na seção 4.2. Além disso,esta técnica <strong>de</strong> classificação <strong>re</strong>speita as possíveis <strong>re</strong>lações <strong>de</strong> adjacências ent<strong>re</strong> os vértices,não permitindo que um vértice do tipo cliente ou servidor sejam adjacentes a vértices domesmo tipo. A idéia geral <strong>de</strong>ste classificador é percor<strong>re</strong>r os vértices da Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong><strong>em</strong> or<strong>de</strong>m <strong>de</strong>c<strong>re</strong>scente quanto ao grau, observar os vizinhos já classificados e atribuir umaclassificação consistente. O esqu<strong>em</strong>a <strong>de</strong>sta técnica está <strong>de</strong>scrito abaixo:Classificador Or<strong>de</strong>mDec<strong>re</strong>scente (Maio<strong>re</strong>s:FILA, Grafo: GRAFO)INTEIRO: Cli, ServVERTICE: e, vPara v <strong>em</strong> Vertices(Grafo): rotulo[v] := 0Para e <strong>em</strong> Maio<strong>re</strong>s:Cli, Serv := 0Para v <strong>em</strong> Vizinhos(Grafo, e):caso rotulo[v] = C: Cli ++caso rotulo[v] = S: Serv ++Fim Parase Serv=0 rotulo[e] := Sse nao, se Cli=0 rotulo[e] := Cse nao rotular[e] := CSFim ParaFim Classificador5.2. Classificador BFSA Busca <strong>em</strong> Largura (BFS – B<strong>re</strong>adth-First Search) é um dos algoritmos mais simples eutilizados para se percor<strong>re</strong>r um grafo. Este método explora sist<strong>em</strong>aticamente as a<strong>re</strong>stas<strong>de</strong> um Grafo a partir <strong>de</strong> um vértice, até <strong>de</strong>scobrir todos os vértices acessíveis por esteiniciador [Cormen et al. 2001].A idéia geral <strong>de</strong>ste classificador parte da combinação da propagação <strong>de</strong> uma BFScom algumas constatações provenientes da análise das Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong>, feita na seção4, como a inferência quanto à classificação do vértice <strong>de</strong> maior grau como servidor e a<strong>re</strong>lação <strong>de</strong> adjacências possíveis ent<strong>re</strong> os vértices. As proporções das adjacências existentesjustificam o fato da utilização da BFS. Dado que 98,94% dos vértices adjacentes a umvértice servidor são clientes e que 95,28% dos vértices adjacentes a um vértice cliente sãoservido<strong>re</strong>s, tenta-se classificar vértices como servido<strong>re</strong>s ou clientes alternadamente <strong>em</strong>cada onda <strong>de</strong> propagação. Adicionalmente, esta técnica utiliza-se também da constataçãoda existência <strong>de</strong> ao menos um vértice cliente/servidor <strong>em</strong> ciclos <strong>de</strong> tamanho ímpar.A existência <strong>de</strong> ao menos um vértice cliente/servidor <strong>em</strong> um ciclo ímpar é <strong>re</strong>sultadodas <strong>re</strong>lações <strong>de</strong> adjacência possíveis. De outra maneira, se pudéss<strong>em</strong>os classificar <strong>em</strong>1937


(a) 1 (b) 2 (c) 3 (d) 4Figura 6. Detecção <strong>de</strong> CS <strong>em</strong> ciclo ímpar.um ciclo ímpar vértices apenas com atribuições <strong>de</strong> cliente ou servidor, chegaríamos a umainconsistência. Ao começar a classificação com um iniciador <strong>de</strong>ntro do ciclo, <strong>de</strong>vido aalternâcia <strong>em</strong> cada passo ent<strong>re</strong> as classificações (cliente ou servidor), haverá um ponto noqual as classificações se interceptam e, neste ponto, havéra dois vértices classificados como mesmo tipo C-C ou S-S, chegando a inconsistente mencionada. A figura 6 ex<strong>em</strong>plificaesta constatação. Esta técnica proposta encontra-se ap<strong>re</strong>sentada no quadro a seguir:Classificador BFS (Maio<strong>re</strong>s:FILA, Grafo:GRAFO)FILA: Fila := pegarPrimeiros(1, Maio<strong>re</strong>s)BOLEANO: auxVERTICE: n, vPara v <strong>em</strong> Vertices(Grafo):rotulo[v] := 0visita[v] := 0Fim ParaPara n <strong>em</strong> Fila: camada[n] := 0Enquanto Fila não vazia:n := saiFila(Fila)aux := FALSOse camada[n] é Parrotulo[n] := Ssecamada[n] é ímparrotulo[n] := CPara v <strong>em</strong> Vizinhos(Grafo, n):se visita[v]= 0visita[v]:=1;entrarFila(Fila, v);camada[v] := camada[n]+1se visita[v] = 1se rotulo[v] = rotulo[n]aux := VERDADEIROFim Parase auxrotulo[n] := CSFim enquantoFim Classificador5.3. Classificador com múltiplas BFSO Classificador BFS, ao classificar um vértice errado, propaga o erro por toda a árvo<strong>re</strong> quepossui o vértice classificado erroneamente como pai. Apesar da gran<strong>de</strong> porcentag<strong>em</strong> <strong>de</strong>adjacências <strong>de</strong> C-S, um pequeno erro <strong>de</strong> classificação no início da árvo<strong>re</strong> BFS po<strong>de</strong> gerargran<strong>de</strong>s propagações <strong>de</strong> erro <strong>de</strong>ntro da <strong>re</strong><strong>de</strong>. A classificação com múltiplas BFS exploratodas as características já abordadas pela classificação BFS (simples). A técnica utilizaos n vértices <strong>de</strong> maior tamanho como iniciado<strong>re</strong>s tentando classificá-los como servido<strong>re</strong>s.Esta técnica possibilita a diminuição <strong>de</strong> erros no início da propagação da classificação, a<strong>de</strong>tecção <strong>de</strong> vértices CS fora <strong>de</strong> ciclos ímpa<strong>re</strong>s e a diminuição do número <strong>de</strong> rodadas.1938


O esqu<strong>em</strong>a da técnica <strong>de</strong> múltiplas BFS só dife<strong>re</strong> do esqu<strong>em</strong>a <strong>de</strong> uma única BFSpela inicialização da Fila como po<strong>de</strong> ser visto a seguir:FILA: Fila := pegarPrimeiros(n, Maio<strong>re</strong>s)6. Avaliação dos Classificado<strong>re</strong>sA avaliação <strong>de</strong> sist<strong>em</strong>as <strong>de</strong> classificação é feita <strong>de</strong> forma experimental observando aeficácia do classificador, ou seja, sua capacida<strong>de</strong> <strong>de</strong> classificar cor<strong>re</strong>tamente as instânciasavaliadas. Segundo [Baeza-Yates and Ribeiro-Neto 1999] uma das maneiras <strong>de</strong> se calcula<strong>re</strong>sta efetivida<strong>de</strong> é utilizando-se contado<strong>re</strong>s extraídos <strong>de</strong> uma matriz <strong>de</strong> contingência eutilizar, por ex<strong>em</strong>plo, as medidas clássicas <strong>de</strong> p<strong>re</strong>cisão e abrangência.A matriz <strong>de</strong> contingência ap<strong>re</strong>senta contado<strong>re</strong>s <strong>re</strong>lativos às quantida<strong>de</strong>s <strong>de</strong> objetosclassificados como pertencentes ou não a uma <strong>de</strong>terminada classe, pelo classificado<strong>re</strong>specialista. Observando-se uma classe particular x po<strong>de</strong>mos obter 4 contado<strong>re</strong>s da matriz<strong>de</strong> contingência, que são: TP quantida<strong>de</strong> <strong>de</strong> objetos classificados cor<strong>re</strong>tamente comox, FP quantida<strong>de</strong> <strong>de</strong> objetos classificados erroneamente como x, TN quantida<strong>de</strong> <strong>de</strong> objetoscor<strong>re</strong>tamente não classificados como x, FN quantida<strong>de</strong> <strong>de</strong> objeto erroneamente nãoclassificados como x. A partir <strong>de</strong>sses contado<strong>re</strong>s po<strong>de</strong>mos facilmente calcular a p<strong>re</strong>cisãoe a abrangência. A p<strong>re</strong>cisão consiste na probabilida<strong>de</strong> da classificação estar cor<strong>re</strong>ta(TP), dado que o objeto havia sido classificado como x (TP+FP), ou seja, a p<strong>re</strong>cisãoé TP/(TP+FP). A abrangência me<strong>de</strong> a probabilida<strong>de</strong> <strong>de</strong> um objeto, tirado ao acaso,ser classificado como x (TP+FN) e que esta classificação esteja cor<strong>re</strong>ta (TP), ou seja, aabrangência cor<strong>re</strong>spon<strong>de</strong> a: TP/(TP+FN).Para simplificar a avaliação, as medidas <strong>de</strong> p<strong>re</strong>cisão e abrangênciapo<strong>de</strong>m ser combinadas, por ex<strong>em</strong>plo, utilizando a medida F (F-measu<strong>re</strong>)[Baeza-Yates and Ribeiro-Neto 1999]. A medida F po<strong>de</strong> ser calculada da seguinteforma:1F α =α 1 + (1 − α) 1 P Ron<strong>de</strong> α é um fator da importância <strong>re</strong>lativa da p<strong>re</strong>cisão e da abrangência. Em nossasavaliações utiliza<strong>re</strong>mos α = 0, 5Outra medida <strong>de</strong> avaliação para os classificado<strong>re</strong>s é a complexida<strong>de</strong> computacional<strong>de</strong> pior caso [Cormen et al. 2001]. Esta medida po<strong>de</strong> ser obtida pela inspeção dopseudo-código <strong>de</strong> cada classificador. Inspecionando o Classificador <strong>de</strong> Or<strong>de</strong>m C<strong>re</strong>scentev<strong>em</strong>os que este <strong>re</strong>cebe os vértices or<strong>de</strong>nados, a or<strong>de</strong>nação t<strong>em</strong> complexida<strong>de</strong> O(n log n),on<strong>de</strong> n é o número <strong>de</strong> vértices do grafo. Além disso, este classificador percor<strong>re</strong> a lista<strong>de</strong> vértices uma única vez e, para cada vértice analisado, são inspecionados todos os seusn∑vizinhos. Esta quantida<strong>de</strong> <strong>de</strong> iterações é dada por: g(i), on<strong>de</strong> n é o número <strong>de</strong> vérticesdo grafo e g(i) é o grau do vértice i. O <strong>re</strong>sultado <strong>de</strong>ste somatório é igual a 2m, on<strong>de</strong> mé o número <strong>de</strong> a<strong>re</strong>stas do grafo [Cormen et al. 2001]. T<strong>em</strong>os assim que a complexida<strong>de</strong><strong>de</strong>ste primeiro classificador é O(n log n + m). O classificador BFS, por sua vez, <strong>re</strong>quer a<strong>i<strong>de</strong>ntificação</strong> do vértice <strong>de</strong> maior grau, o que é feito com uma busca simples <strong>de</strong> complexida<strong>de</strong>O(n). Adicionalmente, a partir <strong>de</strong>ste vértice inicial, percor<strong>re</strong>-se a lista <strong>de</strong> vérticesi=11939


apenas uma vez inspecionando os vizinhos <strong>de</strong> cada vértice. A complexida<strong>de</strong> do classificadorBFS é portanto O(n+m) [Cormen et al. 2001]. O classificador com múltiplas BFSpercor<strong>re</strong> a lista <strong>de</strong> vértices uma única vez, pois não há sob<strong>re</strong>posição nas propagações dasmúltiplas BFS. Para a <strong>i<strong>de</strong>ntificação</strong> dos iniciado<strong>re</strong>s <strong>de</strong>stas BFS, ent<strong>re</strong>tanto, é necessárioobter a lista dos k maio<strong>re</strong>s vértices. Como k é uma constante cor<strong>re</strong>spon<strong>de</strong>nte ao número<strong>de</strong> iniciado<strong>re</strong>s, po<strong>de</strong>ríamos <strong>re</strong>alizar, por ex<strong>em</strong>plo, k buscas simples. Deste modo a complexida<strong>de</strong><strong>de</strong>ste classificador é O(n + m). Comparativamente, po<strong>de</strong>mos concluir que acomplexida<strong>de</strong> dos classificado<strong>re</strong>s BFS será s<strong>em</strong>p<strong>re</strong> melhor ou igual a complexida<strong>de</strong> doClassificador <strong>de</strong> Or<strong>de</strong>m C<strong>re</strong>scente.6.1. ResultadosPara uma maior comp<strong>re</strong>ensão dos <strong>re</strong>sultados, todos os classificado<strong>re</strong>s tiveram seus <strong>re</strong>sultadosclassificados <strong>em</strong> métricas <strong>de</strong> p<strong>re</strong>cisão e abrangência, tanto <strong>em</strong> uma abordag<strong>em</strong> geral– observando-se todos os tipos <strong>de</strong> vértices, como também <strong>em</strong> uma abordag<strong>em</strong> específicapor tipo <strong>de</strong> vértice. Vale <strong>re</strong>ssaltar que na abordag<strong>em</strong> indife<strong>re</strong>nte quanto ao tipo (todos)as métricas <strong>de</strong> p<strong>re</strong>cisão, abrangência e Medida-F são equivalentes e <strong>re</strong>p<strong>re</strong>sentam a taxasimples <strong>de</strong> acertos.A Tabela 1 mostra os <strong>re</strong>sultados obtidos pelos classificado<strong>re</strong>s. Utiliza<strong>re</strong>mos os<strong>re</strong>sultados <strong>de</strong> n = 5, 10, 20, 30 para o classificador <strong>de</strong> múltiplas BFS.P<strong>re</strong>cisão – C P<strong>re</strong>cisão – S P<strong>re</strong>cisão CS Abrangência – C Abrangência – S Abrangência – CS Medida-F - todosOr<strong>de</strong>m Dec<strong>re</strong>scente 0,9671 0,3879 0,1365 0,9293 0,5556 0,4198 0,9016BFS 0,9194 0,0634 0,0026 0,4510 0,4860 0,0037 0,45235-BFS 0,9731 0,8787 0,0647 0,9826 0,6270 0,0647 0,955710-BFS 0,9731 0,9200 0,1669 0,9933 0,6248 0,3763 0,965620-BFS 0,9735 0,9262 0,1860 0,9941 0,6261 0,3812 0,967830-BFS 0,9731 0,9210 0,1735 0,9936 0,6243 0,3795 0,9668Tabela 1. Avaliação das TécnicasAs técnicas propostas ap<strong>re</strong>sentam, <strong>em</strong> geral, melhor eficiência para a classificação<strong>de</strong> clientes, seguido por servidor e, por último, <strong>de</strong> cliente/servido<strong>re</strong>s. A técnica <strong>de</strong>BFS, apesar <strong>de</strong> ap<strong>re</strong>sentar uma boa p<strong>re</strong>cisão para a classificação <strong>de</strong> clientes, possui umaeficiência muito baixa. As técnicas <strong>de</strong> Or<strong>de</strong>m Desc<strong>re</strong>cente ap<strong>re</strong>sentam bons <strong>re</strong>sultadospara a classificaçao <strong>de</strong> clientes e médios <strong>re</strong>sultados para a classificação nos <strong>de</strong>mais tipos,tendo uma avaliação geral boa. Os melho<strong>re</strong>s <strong>re</strong>sultados obtidos foram para o classificador<strong>de</strong> múltiplas BFS, ap<strong>re</strong>sentando excelentes <strong>re</strong>sultados para o tipo cliente, bons <strong>re</strong>sultadospara o tipo servidor e <strong>re</strong>sultados médios para o tipo cliente/servidor, tendo portantouma ótima avaliação final. Esta técnica <strong>de</strong> classificação só per<strong>de</strong> para na abragência daavaliação <strong>de</strong> cliente/servido<strong>re</strong>s para o classificador <strong>de</strong> Or<strong>de</strong>m Dec<strong>re</strong>scente.Ent<strong>re</strong> os classificado<strong>re</strong>s BFS – com única propagação ou múltiplas – é notávelo aumento na eficiência da classificação daqueles que utilizam múltiplos iniciado<strong>re</strong>s <strong>em</strong><strong>re</strong>lação ao com iniciador único. Os classificado<strong>re</strong>s com múltiplas BFS foram experimentadoscom diversas variações quanto ao número n <strong>de</strong> iniciado<strong>re</strong>s. A Figura 7, po<strong>re</strong>x<strong>em</strong>plo, <strong>re</strong>p<strong>re</strong>senta os <strong>re</strong>sultados obtidos com a variação <strong>de</strong> iniciado<strong>re</strong>s com n ent<strong>re</strong> 1 e30. Os <strong>re</strong>sultados obtidos observando-se apenas o acréscimo <strong>de</strong> um ou dois iniciado<strong>re</strong>spo<strong>de</strong>riam <strong>de</strong>sac<strong>re</strong>ditar a técnica <strong>de</strong> classificação com múltiplas BSF, pois a taxa <strong>de</strong> acertopassa <strong>de</strong> 45,23% para 44,93% para n = 2. Porém ao utilizar 4 iniciado<strong>re</strong>s observa-se um1940


(a) P<strong>re</strong>cisão(b) Abrangência(c) Medida-FFigura 7. Avaliação do Classificador com n múltiplas BFSaumento significativo na eficiência da classificação cuja taxa <strong>de</strong> acertos salta <strong>de</strong> 44,88%para 95,54% – um aumento <strong>de</strong> cerca 112,88%. Depois <strong>de</strong>ste salto o acréscimo <strong>de</strong> maisiniciado<strong>re</strong>s <strong>de</strong>senha-se como uma apa<strong>re</strong>nte função c<strong>re</strong>scente <strong>de</strong> leves oscilações.Para enten<strong>de</strong>r melhor os <strong>re</strong>sultados obtidos com a utilização <strong>de</strong> classificado<strong>re</strong>scom múltiplas BFS foram observadas as distâncias existentes ent<strong>re</strong> esses vértices iniciado<strong>re</strong>s.A Tabela 2 <strong>re</strong>p<strong>re</strong>senta as distâncias existentes ent<strong>re</strong> o grupo dos 10 vértices <strong>de</strong>maior grau or<strong>de</strong>nados <strong>de</strong> modo <strong>de</strong>c<strong>re</strong>scente. Adicionalmente ap<strong>re</strong>sentamos também a alturada árvo<strong>re</strong> gerada pela BFS <strong>de</strong> cada um <strong>de</strong>les. Desta tabela v<strong>em</strong>os que o quarto maiorvértice estava a uma distância ímpar do vértice iniciador no caso <strong>de</strong> n = 1. Tal fato ocasiona– pela atribuição <strong>de</strong> rótulos da rodada <strong>de</strong>ste algoritmo – a classificação errônea <strong>de</strong>stevértice, e da árvo<strong>re</strong> subsequente que possui ele como pai. O mesmo acontece também nosvértices <strong>de</strong> sétimo, oitavo e décimo maior grau. Observe que ao utilizar n = 4 garantimosque todos os 10 maio<strong>re</strong>s vértices serão atingidos <strong>em</strong> rodadas pa<strong>re</strong>s e serão classificadoscomo servido<strong>re</strong>s.7. Consi<strong>de</strong>rações finaisAs contribuições chaves <strong>de</strong>ste trabalho foram a avaliação e caracterização das proprieda<strong>de</strong>stopológicas <strong>de</strong> uma Re<strong>de</strong> <strong>de</strong> <strong>Conexão</strong> <strong>re</strong>tratando o tráfego TCP na porta 80, comotambém, o <strong>de</strong>senvolvimento <strong>de</strong> técnicas para a <strong>re</strong>-<strong>i<strong>de</strong>ntificação</strong> <strong>de</strong> <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong>Conexões Anonimizadas baseado apenas <strong>em</strong> sua estrutura.A melhor técnica proposta avaliada – 30 múltiplas BFS – possui uma taxa <strong>de</strong>acerto <strong>de</strong> 96,78% comprovando que é possível i<strong>de</strong>ntificar <strong>papéis</strong> <strong>em</strong> Re<strong>de</strong>s <strong>de</strong> <strong>Conexão</strong>1941


1 2 3 4 5 6 7 8 9 10 Max1 0 2 2 3 2 2 3 3 2 3 132 2 0 2 3 2 2 3 3 2 3 143 2 2 0 3 2 2 3 3 2 3 144 3 3 3 0 3 3 2 2 3 2 125 2 2 2 3 0 2 3 3 2 3 136 2 2 2 3 2 0 3 3 2 3 137 3 3 3 2 3 3 0 2 3 2 128 3 3 3 2 3 3 2 0 3 2 149 2 2 2 3 2 2 3 3 0 3 1310 3 3 3 2 3 3 2 2 3 0 12Tabela 2. Distância ent<strong>re</strong> os 10 vértices <strong>de</strong> maior grauAnônimas.ReferênciasAlbert, R. and Barabási, A.-L. (2002). Statistical mechanics of complex networks. Rev.Mod. Phys., 74(1):47–97.Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Mo<strong>de</strong>rn Information Retrieval. AddisonWesley.Colby Walsworth, Emile Aben, k. c. D. A. (2009). The caida anonymized 2009 internettraces - ¡dates used¿.Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2001). Introduction toAlgorithms, Second Edition. McGraw-Hill Science/Engineering/Math.Hay, M., Miklau, G., Jensen, D., Towsley, D. F., and Weis, P. (2008). Resisting structural<strong>re</strong>-i<strong>de</strong>ntification in anonymized social networks. VLDB, 1(1):102–114.Hay, M. and Srivastava, S. (2006). Privacy and anonymity in graph data.Iliofotou, M., Pappu, P., Faloutsos, M., Mitzenmacher, M., Singh, S., and Varghese, G.(2007). Network monitoring using traffic dispersion graphs (tdgs). In Proceedingsof the 7th ACM SIGCOMM Internet Measu<strong>re</strong>ment Confe<strong>re</strong>nce, pages 315–320, NewYork, NY, USA. ACM.Kitsak, M., Gallos, L. K., Havlin, S., Liljeros, F., Muchnik, L., Stanley, H. E., andMakse, H. A. (2010). I<strong>de</strong>ntifying influential sp<strong>re</strong>a<strong>de</strong>rs in complex networks. citearxiv:1001.5285 Comment: 31 pages, 12 figu<strong>re</strong>s.Maha<strong>de</strong>van, P., Krioukov, D., Dimitropoulos, X., Huffaker, B., Fomenkov, M., kc claffy,and Vahdat, A. The internet as-level topology: Th<strong>re</strong>e data sources and one <strong>de</strong>finitiv<strong>em</strong>etric.Meiss, M., Menczer, F., and Vespignani, A. (2005). On the lack of typical behavior inthe global web traffic network. In WWW ’05: Proceedings of the 14th internationalconfe<strong>re</strong>nce on World Wi<strong>de</strong> Web, pages 510–518, New York, NY, USA. ACM.Narayanan, A. and Shmatikov, V. (2009). De-anonymizing social networks. Security andPrivacy, IEEE Symposium on, 0:173–187.Pang, R., Allman, M., Paxson, V., and Lee, J. (2006). The <strong>de</strong>vil and packet trace anonymization.SIGCOMM Comput. Commun. Rev., 36(1):29–38.1942

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!