Teoría de Grafos

Algoritmos 

Métodos basados en grafos 

Carlos Aguirre Maeso 

Carlos.Aguirre@uam.es 

Escuela Politécnica Superior 

Universidad Autónoma de Madrid

Introducción. 

La teoría de grafos ha sido utilizada recientemente 

para: 

• Clasificación automática de secuencias de proteínas. 

• Detección de jerarquías de proteínas. 

• Análisis de redes genéticas. 

• Reconstrucción de redes genéticas grandes obtenidas 

mediante modificación de genes.

Teoría de grafos. 

Un grafo G es un par de conjuntos (V,E) 

• V={v1,v2,....vn} es el conjunto de vértices 

• E={(vi,vj),(vi’,vj’)......} es un conjunto de pares no 

ordenados de elementos de V. 

• E se denomina conjunto de ramas del grafo 

• El numero de nodos se denomina orden del grafo. 

• El número de ramas se denomina tamaño del grafo.

Ejemplo de grafo (Orden 8 y tamaño 11). 

v2 

v3 

V={v1,v2,v3,v4,v5,v6,v7,v8} 

v1 

v4 

v5 

E={(v1,v2),(v1,v3),(v2,v4),(v3,v5),(v4,v6), 

(v5,v7),(v6,v8),(v7,v8),(v2,v5),(v4,v5),(v6,v7)} 

v6 

v7 

v8

Bucles y ramas paralelas. 

Un bucle es una rama que empieza y termina en el 

mismo nodo (vi,vi). 

Cuando dos ramas conectan el mismo par de 

vértices se denominan paralelas. 

Un grafo con bucles se denomina pseudografo. 

Un grafo con ramas paralelas pero sin bucles se 

denomina multigrafo. 

Un grafo sin bucles ni ramas paralelas se denomina 

grafo simple.

Bucles y ramas paralelas. 

Ramas paralelas 

Bucle 

v1 

v2 

v3 

v4 

v5 

v6 

v8 

v7

Grafos dirigidos. 

Se puede considerar que los enlaces entre nodos son 

dirigidos (vi,vj) = (vj,vi). 

Los grafos dirigidos se denominan también digrafos. 

v1 

v2 

v3 

v4 

v5 

v6 

v8 

v7

Grafos ponderados. 

A cada rama del grafo se le puede asociar un 

número. 

El número asociado a cada rama puede indicar entre 

otras cosas una distancia, una capacidad, un valor 

temporal, etc… 

v1 

v2 

v6 v4 

v7 v8 2 1 5 7 

-1 6 10 4 12 9 2 

v5 v3

Grafos dirigidos y ponderados. 

Los grafos dirigidos y ponderados poseen ramas 

dirigidas a las que se asocia un número. 

v1 

v2 

v6 v4 

v7 v8 2 1 5 7 

-1 6 10 4 12 9 2 

v5 v3

Grado de un nodo. 

Dos nodos de un grafo son vecinos o adyacentes si 

existe una rama que los conecta. 

El grado de un nodo es el número vecinos que tiene 

dicho nodo. 

En los grafos dirigidos se calcula el grado de entrada 

y el grado de salida. 

En los grafos ponderados, el grado se puede 

promediar por el número asociado a las ramas. 

Un grafo se dice que es regular si todos los nodos 

tienen el mismo grado.

Grado del nodo V2. 

Grado 3 

Grado de salida 1 

Grado de entrada 2 

v1 

v1 

v2 

v2 

v3 

v3 

v4 

v4 v5 

v5 

v6 

v6 v7 v8 

v8 

v7

Subgrafos. 

Un grafo G’=(V’,E’) es un sugrafo de un grafo 

G=(V,E) si V’ es un subconjunto de V y E’ es un 

subconjunto de E.. 

v1 

v2 

v3 

G 

v4 

v5 

G’ 

v6 v8 v2 

v3 v5 

v7 

v6 v8 v7

v1 

Subgrafos. 

Un subgrafo G’=(V’,E’) de un grafo G=(V,E) se dice 

que es abarcador si V=V’. 

v2 

v3 

G 

v4 

v5 

v6 v8 v7 

G’ 

v2 v1 v4 

v5 v3 

v6 v8 v7

Paseos, caminos, circuitos y ciclos. 

Un paseo de un nodo u a un nodo v es una secuencia 

de vértices {v0,v1,....vk} con v1=u vk=v y (vi-1,vi) rama 

del grafo. 

El número de ramas del paseo es su longitud. 

Un paseo en el cual no se repiten ramas se 

denomina rastro. 

Un paseo en el cual todos los vertices {v0,v1,....vk} 

son distintos se denomina camino. 

Un camino mínimo entre dos nodos es aquel de 

menor longitud de entre todos los posibles caminos 

entre ambos nodos.

Paseo 

Rastro 

v1 

v1 

C={v1,v2,v5,v3,v1,v2,v4,v6,v7,v8} k=9 

v8 

v2 

v3 

v2 

v3 

v4 

v5 

v4 

v5 

v6 

v7 

C={v1,v3,v5,v2,v4,v5,v7,v8} k=7 

v8 

v6 

v7

Camino 

Camino mínimo 

v1 

v1 

C={v1,v2,v5,v4,v6,v7,v8} k=6 

v8 

v2 

v3 

v2 

v3 

v4 

v5 

v4 

v5 

v6 

v7 

C={v1,v2,v4,v6,v8} k=4 

v8 

v6 

v7


Un paseo cerrado es un paseo {v0,v1,....vk} tal que 

v0=vk. 

Un paseo cerrado en el que no se repiten ramas es 

un circuito. 

Un ciclo es un circuito en el que no se repiten 

vértices.


Ciclo 

v2 

v3 

v4 

v5 

v6 

v7 

v8 

C={v1,v2,v4,v6,v8,v7,v5,v3,v1} k=7 

v1

Conexidad. 

Un grafo es conexo si para cada par de nodos del 

grafo existe al menos un camino que los une. 

Grafo conexo Grafo no conexo 

v1 

v3 

v2 v5 

v4 

v1 

v3 

v2 v5 

v4

Conexidad. 

Una componente conexa de un grafo es cada uno 

de los subgrafos maximales conexos 

Componentes conexas 

v1 

v3 

v2 v5 

v4

Conexidad. 

Un punto de articulación es un nodo que 

desconecta un grafo conexo. 

Un corte es un conjunto de ramas que desconecta 

un grafo conexo, 

Si un corte esta compuesto por una única rama, se 

denomina puente. 

Un corte mínimo de un grafo es el mínimo número 

de ramas que al ser eliminadas desconectan el 

grafo.

Conexidad. 

v3 v4 v5 v7 

v1 v2 v6 

Corte 

Puente 

Punto de 

v8 

articulación

Bosques y árboles. 

Un grafo sin ciclos (acíclico) se denomina bosque. 

Un arbol es un grafo acíclico conexo. 

Cada componente conexa de un bosque, es un árbol.


G 

v2 v1 v4 

v5 v3 

v6 v8 v7 

G 

v5 

v3 

v4 

v1 v2 

v6 

v7 

v8


Un subgrafo abarcador acíclico de un grafo G se 

denomina un bosque abarcador. 

Un subgrafo abarcador conexo acíclico de un grafo G 

se denomina un arbol abarcador.

v1 


v2 

v3 

G 

v4 

v5 

v6 v1 

Árbol abarcador 

v2 

v3 

v8 v7 

G’ 

v4 

v5 

v6 v8 v7

Representación de grafos 

Hay dos formas estándar de representar un grafo en 

un ordenador. 

• Matriz de adyacencia. 

• Lista de adyacencia.

Matriz de adyacencia 

v2 

v3 

0 1 1 0 0 0 0 0 

1 0 0 1 1 0 0 0 

1 0 0 0 1 0 0 0 

0 1 0 0 1 1 0 0 

v1 

0 1 1 1 0 0 1 0 

0 0 0 1 0 0 1 1 

0 0 0 0 1 1 0 1 

0 0 0 0 0 1 1 0 

v4 

v5 

Lista de adyacencia 3 5 2 

v6 v8 v7 

1 

2 

3 

4 

5 

6 

7 

8 

45 2 5 6 1 

3 4 7 4 7 8 5 6 2 

7 8 

6

Matriz de Adyacencia 

Consume mucha memoria. 

Fácil de añadir o eliminar 

ramas 

Fácil saber si existe la rama 

(a,b). 

Lento enumerar los vecinos 

de un nodo. 

Lista de adyacencia 

Consumo limitado de 

memoria. 

Costoso añadir o eliminar 

ramas. 

Costoso saber si existe la 

rama (a,b). 

Rápido enumerar los vecinos 

de un nodo.

Clasificación de grafos 

Los grafos se clasifican en función de unas determinadas 

métricas topológicas. 

Las métricas mas empleadas son: 

• Tamaño |E| y orden |V| 

• Dispersión (|E|/|V|) 

• Distribución del grado de los nodos 

• Grado medio () 

• Coeficiente de agrupamiento (C) 

• Camino carácteristico (L)

Coeficiente de agrupamiento 

El coeficiente de agrupamiento (C) es un valor métrico local 

que mide el nivel de agrupamiento de los nodos. 

Cálculo de C 

• Para cada nodo v del grafo se obtiene su vencidario, es decir, el 

cojunto de nodos que son vecinos de v, el tamaño del vecindario 

coincide con el grado de v (kv) 

• Se calcula el coeficiente Nv/(kv(kv-1)) donde Nves el numero de ramas 

que hay entre los vecinos de v. 

• El valor anterior se promedia entre todos los nodos del grafo 

v 

Cv= 6/(4*3)=1/2

Camino característo 

El camino característico (L) es un valor métrico global que 

mide el nivel grado de separacion de los nodos. 

Cálculo de C 

• Para cada nodo v se calcula la distancia promedio a todos los demas 

nodos del grafo, Lv= Σk=1d(v,vk)/(|V|-1) 

• Se calcula el promedio del valor anterior entre todos los nodos del 

grafo L= Lv/|V| .|V| |V| 

Σv=1

Algunas topologias. 

Las topologías mas frecuentes son: 

• Grafos aleatorios 

• Grafos regulares 

• Mundo pequeño 

• Grafos libres de escala

Grafos aleatorios 

Fueron estudiados principalmente 

por Erdos y Renyi en los años 50. 

Cada rama del grafo existe con 

una determinada probabilidad p. 

Erdos y Renyi estudiaron los 

valores de las metricas 

topológicas para diferentes 

valores de $p$. 

Para la grafos dispersos (p 

pequeña) se puede comprobar 

que tanto C (aproximadamente 0) 

como L (aproximadamemte 

Ln(|V|) son pequeños

Grafos Regulares 

Son los mejor conocidos de forma 

analítica 

Existen expresiones cerradas para 

todas las métricas. 

Para la grafos dispersos se puede 

comprobar que tanto C 

(aprximadamente 0.75) como L 

(aproximadamente |V|/) son 

grandes

Mundo pequeño (Watts y Strogatz 1998) 

Son grafos que presentan altos 

valores de C (aprox .8) y bajos 

valores de L (aprox ln(|V|). 

Se obtienen introduciendo 

pequeño número de “atajos” en 

un grafo regular 

Representan bien un gran número 

de redes tales como redes 

sociales.

Libre de escala (Albert y Barabasi 1999) 

Son grafos que presentan bajos valores de C (aprox 0) y bajos valores de 

L (aprox ln(|V|). 

Se obtienen mediante crecimiento de la red y enlace preferencial 

Cuando la distribución de los nodos se dibuja en escala log-log aparece 

una línea recta. 

Representan bien un gran número de redes tales como internet o redes 

de reacciones químicas.

Metricas 

|V|=2000 k=8 

3.89 Aleatorio 0.0186 3.409 Librede escala 0.626 14.2 MundoPequeño 0.643 125.438 AnilloRegular 

0.004

Algorítmos sobre grafos 

El algoritmo de búsqueda en anchura permite calcular un 

camino mínimo entre dos nodos de un grafo. 

Dijkstra es una versión del algoritmo anterior para grafos 

ponderados. 

Ambos algoritmos funcionan tanto en grafos dirigidos como 

no dirigidos. 

Los algoritmos nos permiten calcular las métricas sobre el 

grafo.

BusquedaAnchura(V,E,s) 

Para cada vertice u en V-s 

visitado[u]=FALSE, d[u]=infinito,p[u]=NIL 

visitado[s]=TRUE,d[s]=0,p[s]=NIL 

Encueue(Q,s) 

While(NoVacia(Q)) 

u=Head(Q) 

para cada v en adj(u) 

if visitado[v]=FALSE 

d[v]=d[u]+1,p[v]=u 

Enqueue(Q,v) 

visitado[v]=TRUE 

Dequeue(Q)

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

ii TFFFF NNNNN d visitado p1 

0ii U=1 1 2 3 4 5 

Q

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

ii TTFFF N1NNN d visitado p12 

01i U=1 1 2 3 4 5 

Q

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

ii N11NN visitado p12 

011 U=1 1 d 2 3 4 5 

3 TTTFF Q

1 

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

2i TTTTF N112N d visitado p23 

011 U=2 1 2 3 4 5 

Q

1 

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

2i N112N visitado p23 

011 U=2 1 d 2 3 4 5 

4 TTTTF Q

1 

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

22 N1123 visitado p34 

011 U=2 1 d 2 3 4 5 

5 TTTTT Q

1 

1 

2 

3 

4 

5 

2 

3 

4 

5 

3 4 2 35 1 2 5 3 4 

21 

22 TTTTT N1123 d visitado p45 

011 U=3 1 2 3 4 5 

Q

1 

1 

2 

3 

4 

5 

2 

3 

3 4 2 35 1 2 5 3 4 

21 

4 

5 

visitado pQ 

d 

22 TTTTT N1123 1 U=3 1 2 3 4 5 01

1 n = rows[w] 2 ci= 0 3 fori = 1 ton CLUSTERING-COEFFICIENT(w) 

do neighbor[i]= 0 5 fori = 1 ton 6 do k = 0 7 forj = 1 ton 4 

do ifW[i][j] = 1 9 thenneighbor[k]= j 10 k = k + 1 8 

12 realedges= 0 13 forp = 0 tok − 2 14 do forq = p + 1 tok − 1 11 

do ifw[neighbor[p]][neighbor[q]] = 1 16 thenrealedges= realedges+ 1 17 18 15 

totaledges= k(k− 1)/2 20 ci= ci+ realedges/totaledges 21 ci= ci/n 19 

22 returnci

DEGREE-DISTRIBUTION(w) 

1 n = rows[w] 

2 for i = 1 to n 

3 do dist[i] = 0 

4 for i = 1 to n 

5 do numedges = 0 

6 for j = 1 to n 

7 do if w[i][j] = 1 and i != j 

8 then numedges numedges + 1 

9 

10 distnumedges = distnumedges + 1 

11 for i = 1 to n 

12 do disti = disti/n 

13 return dist

El algoritmo de Búsqueda en profundidad permite 

calcular puntos de articulación de un grafo. 

El algoritmo de Ford-Fulkerson permite calcular 

cortes mínimos.

Aplicaciones 

Las técnicas basadas en grafos se utilizan para el análisis o 

clasificación de cadenas de datos 

La técnica suele consistir en la construcción de un grafo 

donde los nodos son cada uno de los datos obtenidos y las 

ramas posibles relaciones entre los datos y la aplicación de 

algún algoritmo conocido sobre este grafo.

Click 

Click (Sharan & Shamir) es un algoritmo de clustering 

aplicado al análisis de expresiones genéticas (gene 

expressions). 

Click también ha sido utilizado para clustering de conjuntos 

de datos de proteínas (ProtoMap).

El problema de clustering consiste en partir un 

conjunto V en k conjuntos disjuntos V1,V2,....Vktal 

que la unión de todos ellos es V. 

Para comprobar la calidad del clustering se definen 

dos medidas 

• Separación entre clusters 

• Homogeneidad de cada cluster

Click(G) 

si V(G)={u} 

Añade {u} al conjunto de vertices aislados 

si G es un cluster 

Añadir G a la lista de clusters 

en otro caso 

H, H’ = CorteMínimo(G) 

Click(H) 

Click(H)’

Click se ha utilizado para clustering de expresiones 

genéticas donde cada nodo es una expresión. 

Dos nodos se conectan si un coeficiente de similitud 

entre ambas expresiones genéticas es mayor que un 

cierto umbral.

Resultados de click cuando se aplica al conjunto de datos 

de la respuesta de los fibroblastos humanos al suero

ProtoMap 

ProtoMap es un proyecto dedicado a la clasificación de 

secuencias de proteínas y jerarquización de familias de 

proteínas. 

Cada vértice es una secuencia y el peso de cada rama es un 

coeficiente de similitud entre las proteínas.

Los clusters se obtienen buscando grupos de nodos 

altamente conectados entre sí. 

Los autores aplicaron el método a la base de datos 

SWISS-PROT. 

Los resultados se pueden consultar en 

http://www.protomap.cs.huji.ac.il

Redes de interacción 

Tong et al. analizan redes de interacción de proteínas. 

Cada nodo del grafo es una proteína. 

Una rama significa una interacción entre ambas proteínas.

Un k-core de un grafo G es un subgrafo G’ tal que el 

grado de cada nodo de G’ es al menos k. 

Este algoritmo produce una jerarquía de subgrafos 

basandose en el k de los k-cores obtenidos para 

cada posible k.

Dominio SH3 (|V|=206 |E|=394)

6-Core del dominio SH3

Cliff 

Cliff (Xing & Karp) ha sido utilizado para clustering de datos 

con un número alto de dimensiones. 

De nuevo cada nodo es una expresión genética (muy larga) y 

las ramas un coeficiente de similitud entre nodos. 

Cliff usa cortes mínimos y técnicas bayesianas para definir 

los clusters.

Teoría de Grafos

Create successful ePaper yourself

Delete template?

Save as template?