30.04.2013 Views

Cutoff para $n$-muestras de procesos estocásticos ...

Cutoff para $n$-muestras de procesos estocásticos ...

Cutoff para $n$-muestras de procesos estocásticos ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

UNIVERSIDAD DE CHILE<br />

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS<br />

ESCUELA DE POSTGRADO<br />

TESIS PARA OPTAR AL GRADO DE<br />

DOCTOR EN CIENCIAS DE LA INGENIERÍA<br />

MENCIÓN MODELACIÓN MATEMÁTICA<br />

EN COTUTELA CON LA UNIVERSIDAD DE PARIS 5<br />

CUTOFF PARA N-MUESTRAS DE PROCESOS ESTOCÁSTICOS<br />

EXPONENCIALMENTE CONVERGENTES Y PARTICIONES<br />

ALEATORIAS DEL INTERVALO [0, 1]<br />

JAVIERA PAULINA BARRERA MARTÍNEZ<br />

2005


UNIVERSIDAD DE CHILE<br />

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS<br />

ESCUELA DE POSTGRADO<br />

<strong>Cutoff</strong> <strong>para</strong> n-<strong>muestras</strong> <strong>de</strong> <strong>procesos</strong> <strong>estocásticos</strong> exponencialmente<br />

convergentes y particiones aleatorias <strong>de</strong>l intervalo [0, 1]<br />

JAVIERA PAULINA BARRERA MARTÍNEZ<br />

MIEMBROS DE LA COMISIÓN EVALUADORA<br />

Sr. Servet Martínez Profesor Guía Universidad <strong>de</strong> Chile<br />

Sr. Bernard Ycart Profesor Co-Guía Université <strong>de</strong> Paris 5<br />

Sr. Thierry Huillet Profesor Integrante Université <strong>de</strong> Cergy-Pontoise<br />

Sr. Jean-René Chazottes Profesor Integrante Ecole Polytechnique<br />

Sr. Joaquín Fontbona Profesor Integrante Universidad <strong>de</strong> Chile<br />

Sr. Alejandro Maass Profesor Integrante Universidad <strong>de</strong> Chile<br />

Sr. Jaime San Martín Profesor Integrante Universidad <strong>de</strong> Chile<br />

Sr. Roberto Fernán<strong>de</strong>z Profesor Integrante Université <strong>de</strong> Rouen<br />

TESIS PARA OPTAR AL GRADO DE<br />

DOCTOR EN CIENCIAS DE LA INGENIERÍA<br />

MENCIÓN MODELACIÓN MATEMÁTICA<br />

EN COTUTELA CON LA UNIVERSIDAD DE PARIS 5<br />

SANTIAGO DE CHILE<br />

DICIEMBRE 2005<br />

ii


Cuando acabe este verso que canto<br />

yo no sé, yo no sé, madre mía<br />

si me espera la paz o el espanto;<br />

si el ahora o si el todavía.<br />

Pues las causas me andan cercando<br />

cotidianas, invisibles.<br />

Y el azar se me viene enredando<br />

po<strong>de</strong>roso, invencible.<br />

Causas y azares<br />

Silvio Rodriguez


Agra<strong>de</strong>cimientos<br />

Esta tesis resume el trabajo <strong>de</strong> cuatro años <strong>de</strong> doctorado en co-tutela<br />

entre la Universidad <strong>de</strong> Chile y la Universidad <strong>de</strong> París 5. De estos cuatro años, dos<br />

transcurrieron en Chile y dos en Francia. Este trabajo trata dos temas tanto en lo<br />

formal como en lo personal; <strong>para</strong> saber qué es lo que trata formalmente basta leer los<br />

próximos 5 capítulos. En lo personal, trata sobre <strong>de</strong>jar el país que uno quiere <strong>para</strong><br />

apren<strong>de</strong>r a querer otro.<br />

Primero quiero agra<strong>de</strong>cer a mis dos profesores guías Servet Martínez<br />

y Bernard Ycart. Servet fue quien me motivó en el estudio <strong>de</strong> las probabilida<strong>de</strong>s<br />

en su curso <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> Markov y más tar<strong>de</strong>, calibrando mis cualida<strong>de</strong>s como<br />

matemática, me <strong>de</strong>safió con problemas muy interesantes. Bernard, por su parte, fue<br />

un profesor guía cuidadoso, exigiendo tanto pulir los resultados como presentarlos<br />

con elegancia. A ambos les agra<strong>de</strong>zco mucho el haber guiado esta tesis.<br />

Les agra<strong>de</strong>zco también a Thierry Huillet, Christian Paroissin y Béatrice<br />

Lachaud que colaboraron conmigo en este trabajo <strong>de</strong> investigación y con quienes fue<br />

un placer discutir.<br />

Les agra<strong>de</strong>zco a los profesores Roberto Fernán<strong>de</strong>z y Danièle Gardy por<br />

darse el tiempo <strong>de</strong> leer y emitir su opinión sobre esta tesis.<br />

Le agra<strong>de</strong>zco al Departamento <strong>de</strong> Ingeniería Matemática <strong>de</strong> la Universidad<br />

<strong>de</strong> Chile don<strong>de</strong> transcurrieron mis primeros años <strong>de</strong>l doctorado y tuve excelentes<br />

cursos y gran<strong>de</strong>s profesores. También les doy las gracias a los funcionarios<br />

quienes siempre han sido muy cariñosos conmigo. En la facultad que alberga a este<br />

<strong>de</strong>partamento hice mis mejores amigos. Algunos estudiando física un verano: Eduardo,<br />

Vicho, Andrés, Jordi, Eduardo, Pedro y Rocío; otros durante la carrera: Isabel,<br />

Matías, Ángela, Álvaro, Nicolás, Mariel, Joaquín, Anneli y la Mariela; y aquellas<br />

amista<strong>de</strong>s que hice en la cancha, jugando a la pelota: Daren, Ma Alejandra, Ai-ling,<br />

Daniela, Andrea, Lorna y Natalia. A todos ellos les agra<strong>de</strong>zco <strong>de</strong> corazón.<br />

En septiembre <strong>de</strong>l 2003 me fui a Francia con sentimientos encontrados.<br />

Se hacía difícil <strong>de</strong>jar Chile, pero al mismo tiempo Francia <strong>de</strong>spertaba mi curiosidad.<br />

En la Universidad <strong>de</strong> París 5 me esperaba el profesor Bernard Ycart, quien junto a<br />

los funcionarios me ayudaron a solucionar todo tipo <strong>de</strong> problemas. También conocí a<br />

los tesistas <strong>de</strong> la U. <strong>de</strong> París 5: Béatrice, Olivier, Raphaël y David. Luego encontré a<br />

las tesistas <strong>de</strong>l 4 piso Gwendoline, Claire y Amandine. Todos ellos fueron excelentes<br />

amigos y compañeros con los que resolvimos puzzles, enigmas y cultivamos plantas a<br />

la hora <strong>de</strong>l café. Gracias a Pedro conocí a los chicos <strong>de</strong>l Laboratorio PSE: Facundo,<br />

ii


Dimitris, Hector, Michael y Gregory con quienes visitamos diferentes restaurantes<br />

<strong>de</strong> París. También estudiaban en esa época por allá Eduardo y Anneli con quienes<br />

compartí esta experiencia. Gracias a todos ellos por hacer <strong>de</strong> París un hogar.<br />

Los últimos 8 años <strong>de</strong> mi vida no se pue<strong>de</strong>n se<strong>para</strong>r <strong>de</strong> Pedro. Juntos<br />

partimos a vivir en París y <strong>de</strong>scubrir Europa. Le agra<strong>de</strong>zco <strong>de</strong> corazón el apoyo y<br />

aliento que me brindó <strong>para</strong> llevar a cabo esta tesis. También le agra<strong>de</strong>zco a la familia<br />

<strong>de</strong> Pedro y a Bárbara por el apoyo incondicional que nos dieron y visitas que nos<br />

hicieron.<br />

Des<strong>de</strong> el fondo <strong>de</strong> mi alma les agra<strong>de</strong>zco a mi padres, a mis hermanos<br />

y al resto mi familia por estar siempre orgullosos <strong>de</strong> mi trabajo, no sería tan fácil<br />

gozar <strong>de</strong> esta disciplina sin su compresión.<br />

Agra<strong>de</strong>zco al Estado <strong>de</strong> Chile y <strong>de</strong> Francia por financiar mi doctorado<br />

y al Núcleo Milenio P01-005 y proyecto Mecesup por el apoyo brindado.<br />

iii


Índice general<br />

1. Introducción 1<br />

2. Distancias entre distribuciones <strong>de</strong> probabilidad 4<br />

2.1. Distancia en Variación total . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2.2. Las distancias <strong>de</strong> Helliger, Chi-cuadrado y Kullback . . . . . . . . . . 7<br />

2.3. Distancia entre medidas productos . . . . . . . . . . . . . . . . . . . 10<br />

2.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.4.3. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

3. <strong>Cutoff</strong> <strong>para</strong> n-tuplas <strong>de</strong> <strong>procesos</strong> exponencialmente convergentes 36<br />

3.1. Definición y algunos ejemplos clásicos . . . . . . . . . . . . . . . . . . 37<br />

3.1.1. ¿Qué es el <strong>Cutoff</strong>? . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

3.1.2. Definición y un poco <strong>de</strong> historia . . . . . . . . . . . . . . . . . 39<br />

3.2. Procesos exponencialmente convergentes . . . . . . . . . . . . . . . . 41<br />

3.3. Tiempos <strong>de</strong> <strong>Cutoff</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

iv


3.4. Ejemplos <strong>de</strong> <strong>procesos</strong> i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

3.4.1. Proceso Binario . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

3.4.2. La cola M/M/∞ . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

3.4.3. El proceso Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . 62<br />

4. Particiones aleatorias <strong>de</strong>l intervalo [0, 1] 64<br />

4.1. Particiones <strong>de</strong>l intervalo [0, 1] . . . . . . . . . . . . . . . . . . . . . . 66<br />

4.2. Particiones Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

4.2.1. El mo<strong>de</strong>lo <strong>de</strong> partición por renormalización . . . . . . . . . . . 69<br />

4.2.2. El mo<strong>de</strong>lo <strong>de</strong> localización aleatoria . . . . . . . . . . . . . . . 70<br />

4.3. La familia <strong>de</strong> particiones <strong>de</strong> Dirichlet . . . . . . . . . . . . . . . . . . 71<br />

4.3.1. Introducción <strong>de</strong>l mo<strong>de</strong>lo . . . . . . . . . . . . . . . . . . . . . 72<br />

4.3.2. Muestreo y permutación sesgada por tamaño . . . . . . . . . . 74<br />

4.3.3. Una com<strong>para</strong>ción <strong>de</strong>l costo <strong>de</strong> búsqueda en la partición <strong>de</strong><br />

Dirichlet y su permutación sesgada por tamaño . . . . . . . . 79<br />

4.4. El mo<strong>de</strong>lo <strong>de</strong> fragmentación <strong>de</strong> la vara . . . . . . . . . . . . . . . . . 85<br />

4.4.1. El promedio geométrico <strong>de</strong> los intervalos ocupados . . . . . . . 87<br />

4.4.2. La función partición . . . . . . . . . . . . . . . . . . . . . . . 90<br />

4.4.3. La ley unidimensional <strong>de</strong> un segmento . . . . . . . . . . . . . 93<br />

4.4.4. Or<strong>de</strong>n <strong>de</strong>creciente en tamaño: la distribución <strong>de</strong>l más pequeño<br />

y <strong>de</strong>l más largo <strong>de</strong> los intervalos . . . . . . . . . . . . . . . . . 94<br />

4.4.5. Permutación sesgada por tamaño . . . . . . . . . . . . . . . . 101<br />

5. Reglas <strong>de</strong> autorganización con popularida<strong>de</strong>s aleatorias 104<br />

v


5.1. Reglas <strong>de</strong> auto-organización <strong>de</strong> datos . . . . . . . . . . . . . . . . . . 106<br />

5.1.1. Motivación: ¿Cómo y dón<strong>de</strong> almacenar libros? . . . . . . . . . 107<br />

5.1.2. El mo<strong>de</strong>lo <strong>de</strong> Move-to-Front . . . . . . . . . . . . . . . . . . . 108<br />

5.1.3. Relación con otras estructuras aleatorias . . . . . . . . . . . . 110<br />

5.1.4. El Mo<strong>de</strong>lo <strong>de</strong> Move-to-Root . . . . . . . . . . . . . . . . . . . 111<br />

5.2. Move-to-Front con popularida<strong>de</strong>s aleatorias . . . . . . . . . . . . . . . 114<br />

5.2.1. Expresión exacta <strong>para</strong> la transformada <strong>de</strong> Laplace . . . . . . . 115<br />

5.2.2. Fórmula asintótica <strong>para</strong> la transformada <strong>de</strong> Laplace . . . . . . 120<br />

5.2.3. Ejemplos y algunas propieda<strong>de</strong>s . . . . . . . . . . . . . . . . . 131<br />

5.3. Move-to-root con popularida<strong>de</strong>s aleatorias . . . . . . . . . . . . . . . 137<br />

5.3.1. Los dos primeros momentos <strong>de</strong> or<strong>de</strong>n <strong>de</strong>l costo <strong>de</strong> búsqueda<br />

estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />

5.3.2. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />

6. Conclusiones 146<br />

vi


RESUMEN DEL INFORME FINAL<br />

PARA OPTAR AL TÍTULO DE<br />

DOCTOR EN CIENCIAS DE LA INGENIERÍA<br />

POR: JAVIERA BARRERA MARTÍNEZ<br />

PROF. GUÍA: SR. SERVET MARTÍNEZ<br />

FECHA DE EXAMEN: 6 DICIEMBRE 2005<br />

<strong>Cutoff</strong> <strong>para</strong> n-<strong>muestras</strong> <strong>de</strong> <strong>procesos</strong> <strong>estocásticos</strong><br />

exponencialmente convergentes y particiones aleatorias <strong>de</strong>l<br />

intervalo [0, 1]<br />

En este trabajo abordamos dos temas <strong>de</strong> probabilida<strong>de</strong>s uno es el<br />

fenómeno <strong>de</strong> <strong>Cutoff</strong> en n-tuplas y el otro es sobre particiones aleatorias <strong>de</strong>l<br />

intervalo [0, 1]. Los resultados <strong>de</strong> <strong>Cutoff</strong> correspon<strong>de</strong>n al trabajo realizado<br />

en conjunto con B. Lachaud y B. Ycart. Los resultados en el tema <strong>de</strong><br />

particiones aleatorias en colaboración con T. Huillet y Ch. Paroissin.<br />

El <strong>Cutoff</strong> es una propiedad <strong>de</strong>finida <strong>para</strong> familias <strong>de</strong> <strong>procesos</strong> <strong>de</strong> Markov<br />

que refleja la convergencia abrupta a la distribución estacionaria. En<br />

esta tesis abordamos el tema <strong>de</strong> las distancias entre distribuciones <strong>de</strong> probabilidad,<br />

motivados por el fenómeno <strong>de</strong> <strong>Cutoff</strong>. Luego estudiamos este<br />

fenómeno <strong>para</strong> n-tuplas <strong>de</strong> <strong>procesos</strong> in<strong>de</strong>pendientes, tanto idénticamente<br />

distribuidos como no. El resultado principal <strong>de</strong> la primera parte da<br />

condiciones bajo las cuales una n-tupla <strong>de</strong> <strong>procesos</strong> que convergen exponencialmente<br />

tiene un <strong>Cutoff</strong> en el sentido <strong>de</strong> las distancias <strong>de</strong> Variación<br />

total, Hellinger, Chi-cuadrado y Kullback.<br />

La segunda parte <strong>de</strong> los resultados se centran en las particiones aleatorias.<br />

Estudiamos las características <strong>de</strong> la partición <strong>de</strong> Dirichlet (D) que<br />

<strong>de</strong>spués <strong>de</strong> una permutación sesgada por tamaño es una aproximación <strong>de</strong><br />

una partición GEM (Griffiths-Engen-McCloskey). También estudiamos<br />

la partición <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> fragmentación <strong>de</strong> la vara que aproxima una<br />

partición GEM <strong>de</strong> parámetro 1. Ambos análisis se centran en la función<br />

generadora <strong>de</strong> momentos conjunta <strong>de</strong> las particiones.<br />

En este trabajo consi<strong>de</strong>ramos dos estrategias <strong>para</strong> organizar ítemes:<br />

<strong>de</strong>splazar al frente (MtF) que organiza una lista y <strong>de</strong>splazar a la raíz<br />

(MtR) que organiza un árbol binario <strong>de</strong> búsqueda. Los resultados en<br />

torno a las dos estrategias se centran en el análisis <strong>de</strong>l costo <strong>de</strong> búsqueda<br />

en régimen estacionario en el contexto <strong>de</strong> particiones aleatorias generadas<br />

por renormalización. El resultado principal <strong>para</strong> la regla MtF es la distribución<br />

asintótica en el número <strong>de</strong> ítemes <strong>de</strong>l costo <strong>de</strong> búsqueda y <strong>para</strong><br />

la estrategia MtR se encontró el comportamiento asintótico <strong>de</strong>l costo <strong>de</strong><br />

búsqueda <strong>para</strong> dos particiones particulares.


Introducción<br />

Como lo expresa el título, en esta tesis abordamos dos temas <strong>de</strong> pro-<br />

babilida<strong>de</strong>s uno es el fenómeno <strong>de</strong> <strong>Cutoff</strong> en n-tuplas y el otro es sobre particiones<br />

aleatorias <strong>de</strong>l intervalo [0, 1]. Los Capítulos 2 y 3 correspon<strong>de</strong>n al trabajo realizado<br />

sobre <strong>Cutoff</strong> en conjunto con B. Lachaud y B. Ycart [6]. Los Capítulos 4 y 5 abordan<br />

los trabajos realizado en el tema <strong>de</strong> particiones aleatorias en colaboración con T.<br />

Huillet [3], con Ch. Paroissin [7] y [8] y con ambos autores [4] y [5].<br />

El <strong>Cutoff</strong> es una propiedad <strong>de</strong>finida <strong>para</strong> familias <strong>de</strong> <strong>procesos</strong> <strong>de</strong> Mar-<br />

kov que refleja la convergencia abrupta a la distribución estacionaria. En el Capítulo 2<br />

abordamos el tema <strong>de</strong> las distancias entre distribuciones <strong>de</strong> probabilidad, motivados<br />

por el fenómeno <strong>de</strong> <strong>Cutoff</strong>. Básicamente <strong>de</strong>finimos las distancias <strong>de</strong> Variación total,<br />

Hellinger, Chi-cuadrado y Kullback. Resumimos aquellas propieda<strong>de</strong>s relevantes pa-<br />

ra el <strong>de</strong>sarrollo <strong>de</strong> nuestros resultados, las que se pue<strong>de</strong>n encontrar en [51] o [29] y<br />

calculamos algunos ejemplos. El concepto <strong>de</strong> <strong>Cutoff</strong> busca <strong>de</strong>scribir la convergencia<br />

abrupta que se observa en ciertos <strong>procesos</strong> <strong>estocásticos</strong> y está ligado una distancia.<br />

Tradicionalmente ha sido la distancia en Variación total, pero no ha sido la única,<br />

como discutiremos en el Capítulo 3.<br />

El objetivo <strong>de</strong>l Capítulo 3 es estudiar el fenómeno <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> n-<br />

tuplas <strong>de</strong> <strong>procesos</strong> in<strong>de</strong>pendientes, tanto idénticamente distribuidos como no. Para<br />

esto exten<strong>de</strong>mos la <strong>de</strong>finición <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> otras distancias (Definición 3.1.1) y<br />

damos la <strong>de</strong>finición <strong>de</strong> convergencia exponencial a taza ρ (Definición 3.2.1) que utili-<br />

zaremos don<strong>de</strong> buscamos que el logaritmo <strong>de</strong> la distancia en el instante t se comporte<br />

1


como −ρt. Es en la Sección 3.3 don<strong>de</strong> exponemos nuestro resultado principal <strong>de</strong> Cu-<br />

toff, el Teorema 3.3.1, que da condiciones bajo las cuales una n-tupla <strong>de</strong> <strong>procesos</strong><br />

exponencialmente convergentes tiene un <strong>Cutoff</strong> en el sentido <strong>de</strong> las distancias <strong>de</strong><br />

Variación total, Hellinger, Chi-cuadrado y Kullback. En conjunto estos dos capítu-<br />

los constituyen el artículo “<strong>Cutoff</strong> for exponentially converging processes” que fue<br />

enviado a una revista <strong>para</strong> su eventual publicación (ver [6]).<br />

El segundo tema <strong>de</strong> esta tesis es abordado en los Capítulos 4 y 5. En el<br />

primero <strong>de</strong> estos en la Sección 4.2 introducimos dos mo<strong>de</strong>los generales <strong>para</strong> generar<br />

particiones aleatorias. El primero que llamaremos partición por renormalización es<br />

generado por n variables in<strong>de</strong>pendientes que son normalizadas por la suma total <strong>de</strong><br />

ellas. El segundo, que llamaremos <strong>de</strong> localización aleatoria, es generado por n varia-<br />

bles in<strong>de</strong>pendientes con soporte en (0, 1) don<strong>de</strong> los segmentos se originan como el<br />

producto <strong>de</strong> las variables. En la Sección 4.3 introducimos formalmente la partición<br />

aleatoria <strong>de</strong> Dirichlet, Poisson-Dirichlet y GEM. Recordamos varias <strong>de</strong> sus propie-<br />

da<strong>de</strong>s y recopilamos algunos resultados nuevos que fueron publicados en el artículo<br />

“Size-biased permutation of Dirichlet Partitions and search-cost distribution” [4]. Fi-<br />

nalmente en la Sección 4.4 <strong>de</strong>finimos y estudiamos las propieda<strong>de</strong>s <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong><br />

partición <strong>de</strong> fragmentación <strong>de</strong> la vara que aproxima la partición <strong>de</strong> GEM <strong>para</strong> cierto<br />

parámetro. Los resultados <strong>de</strong>scritos en esta sección fueron objeto <strong>de</strong> la publicación<br />

“On the random spliting of the interval” [3].<br />

En el Capítulo 5 presentamos dos estrategias <strong>para</strong> or<strong>de</strong>nar ítemes: las<br />

estrategias <strong>de</strong> Move-to-front <strong>para</strong> or<strong>de</strong>nar en una lista y Move-to-root <strong>para</strong> or<strong>de</strong>nar<br />

en un árbol. En la Sección 5.1 se <strong>de</strong>scriben ambas estrategias y sus propieda<strong>de</strong>s,<br />

entre ellas el costo <strong>de</strong> búsqueda (Definiciones 5.1.1 y 5.1.5) que mi<strong>de</strong> <strong>de</strong>sempeño <strong>de</strong><br />

2


ambas estrategias en el instante t. Ambas reglas han sido ampliamente estudiadas en<br />

el contexto <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> Markov don<strong>de</strong> las probabilida<strong>de</strong>s <strong>de</strong> transición <strong>de</strong>pen<strong>de</strong>n<br />

<strong>de</strong> la probabilidad (pi) <strong>de</strong> solicitar cada uno <strong>de</strong> los ítemes ver <strong>para</strong> el Move-to-front<br />

los trabajos [60] y [31] y más recientemente [28] y [26] <strong>para</strong> el Move-to-root ver [20] y<br />

[19]. El análisis <strong>de</strong>l tema es diferente al realizado en los trabajos anteriores, pues las<br />

probabilida<strong>de</strong>s <strong>de</strong> requerir un ítem están dadas por una partición aleatoria por renor-<br />

malización. En la Sección 5.2 estudiamos la regla Move-to-front, nuestro resultado<br />

principal <strong>para</strong> esta estrategia es el Teorema 5.2.7 don<strong>de</strong> encontramos la distribución<br />

<strong>de</strong>l costo <strong>de</strong> búsqueda estacionario normalizado cuando el número <strong>de</strong> ítemes tien<strong>de</strong><br />

a infinito. Para el caso <strong>de</strong> la regla <strong>de</strong> Move-to-root, estudiada en la Sección 5.3, tam-<br />

bién analizamos el comportamiento asintótico en el número <strong>de</strong> ítemes, pero nuestro<br />

resultado se restringe al primer y segundo momento <strong>de</strong>l costo <strong>de</strong> búsqueda estacio-<br />

nario. Los resultado sobre la estrategia Move-to-front trabajos se pue<strong>de</strong>n encontrar<br />

en el artículo “On the distribution of the search cost for the move-to-front rule with<br />

random weights” ([7]) y su continuación el artículo “Limiting search cost distribution<br />

for move-to-front rule with random request probabilities” ([5]). Así como los resul-<br />

tados <strong>de</strong> Move-to-root fueron expuestos en el poster “On the stationary search cost<br />

for the move-to-root rule with random weight” ([8]).<br />

3


Distancias entre distribuciones<br />

<strong>de</strong> probabilidad<br />

Una pregunta fundamental en el ámbito <strong>de</strong> las probabilida<strong>de</strong>s y la<br />

estadística ha sido la convergencia <strong>de</strong> familias <strong>de</strong> distribuciones <strong>de</strong> probabilidad. En<br />

las aplicaciones surge la necesidad <strong>de</strong> cuantificar esta convergencia en términos <strong>de</strong><br />

una distancia. En la literatura existen muchas métricas y otras funciones que nos<br />

permiten tener una noción <strong>de</strong> “distancia” entre distribuciones. Por simplicidad nos<br />

referiremos a ellas como distancias, aún cuando en el sentido matemático no lo sean.<br />

Estas funciones, o métricas, han probado ser <strong>de</strong> gran utilidad en diferentes contextos<br />

ya sea por su interpretación, sus propieda<strong>de</strong>s teóricas o las relaciones existentes<br />

entre ellas. Por ejemplo, a fines <strong>de</strong> los años 40 y durante los 50 las distancias entre<br />

distribuciones <strong>de</strong> probabilidad se utilizan en el diseño <strong>de</strong> test estadísticos (ver e.g.<br />

[32]). Des<strong>de</strong> los años 70 gran<strong>de</strong>s esfuerzos se han realizado en el ámbito <strong>de</strong> la teoría<br />

<strong>de</strong> los valores extremos <strong>para</strong> establecer el rango <strong>de</strong> vali<strong>de</strong>z <strong>de</strong> las aproximaciones<br />

con respecto a diferentes distancias (ver las notas bibliográficas <strong>de</strong> los Capítulos 4<br />

y 5 <strong>de</strong> [51]). En los años 90 se <strong>de</strong>sarrollan los métodos <strong>de</strong> Monte-Carlo (ver [27]),<br />

que consisten en aproximar una probabilidad ν a partir <strong>de</strong> una ca<strong>de</strong>na <strong>de</strong> Markov<br />

reversible con ley estacionaria ν. En la aplicación <strong>de</strong> esta técnica es natural que surja<br />

la necesidad <strong>de</strong> imponer una distancia <strong>para</strong> <strong>de</strong>terminar cuándo <strong>de</strong>tener el algoritmo.<br />

Nuestra motivación <strong>para</strong> abordar el tema <strong>de</strong> las distancias es el fenó-<br />

meno <strong>de</strong> <strong>Cutoff</strong>. El concepto <strong>de</strong> <strong>Cutoff</strong> busca <strong>de</strong>scribir la convergencia abrupta que<br />

se observa en ciertos <strong>procesos</strong> <strong>estocásticos</strong> y está ligado una distancia. Tradicional-<br />

4


mente esta ha sido la distancia en Variación total, pero no ha sido la única, como<br />

discutiremos en el capítulo correspondiente.<br />

Abordar el tema <strong>de</strong> las distancias entre leyes <strong>de</strong> probabilidad nos toma-<br />

rías más que un capítulo <strong>de</strong> esta tesis. Escogimos aquellas que nos permiten estimar<br />

la distancia entre dos medidas producto: la distancia <strong>de</strong> Variación total (VT), He-<br />

llinger (H), Chi-cuadrado (χ 2 ) y Kullback (K). En la primera <strong>de</strong> cuatro secciones<br />

tratamos la distancia en VT <strong>para</strong> <strong>de</strong>scribir sus diferentes caracterizaciones y propie-<br />

da<strong>de</strong>s. La segunda está <strong>de</strong>dicada a las otras tres distancias, a sus propieda<strong>de</strong>s y a<br />

estudiar como se relacionan entre ellas y la distancia en VT. En la tercera sección<br />

tratamos las distancias entre medias productos y, finalmente, en la última sección<br />

proporcionamos el cálculo explícito <strong>de</strong> las distancias entre dos medidas <strong>de</strong> probabi-<br />

lidad generadas como un producto tensorial <strong>de</strong> una misma distribución <strong>para</strong> el caso<br />

<strong>de</strong> dos productos <strong>de</strong> Bernoulli, <strong>de</strong> Poisson y <strong>de</strong> Gaussianas.<br />

Si bien algunas <strong>de</strong> las distancias están <strong>de</strong>finidas en un contexto más<br />

amplio que el <strong>de</strong> medidas <strong>de</strong> probabilidad, nos restringiremos a este último espacio<br />

<strong>para</strong> estudiarlas, por lo que toda afirmación <strong>de</strong>berá consi<strong>de</strong>rarse en este contexto.<br />

2.1. Distancia en Variación total<br />

Consi<strong>de</strong>remos el espacio medible (E, F). Sean µ y ν dos medidas <strong>de</strong><br />

probabilidad <strong>de</strong>finidas en este espacio. Sea λ una distribución que domina a ambas<br />

medidas y <strong>de</strong>notemos por g (resp. h) la <strong>de</strong>nsidad <strong>de</strong> µ (resp. ν) con respecto a λ.<br />

La distancia en VT entre las dos medidas <strong>de</strong> probabilidad µ y ν se<br />

5


<strong>de</strong>fine como:<br />

dV T (µ, ν) = sup |µ(A) − ν(A)| . (2.1)<br />

A∈F<br />

De la <strong>de</strong>finición se <strong>de</strong>spren<strong>de</strong> que dV T (µ, ν) toma valores entre 0 y 1. De la ecua-<br />

ción (2.1) vemos que la distancia en VT entre dos medidas µ y ν es el peor error<br />

que cometeríamos al aproximar la medida µ(A) <strong>de</strong> un conjunto cualquiera por ν(A).<br />

Esta interpretación pue<strong>de</strong> ser una <strong>de</strong> las razones que la ha llevado a ser la más utili-<br />

zada en la literatura. Otra razón pue<strong>de</strong> ser sus otras múltiples caracterizaciones que<br />

han permitido <strong>de</strong>sarrollar diferentes técnicas <strong>para</strong> acotarla. La siguiente propiedad<br />

enumera tres <strong>de</strong> las más conocidas.<br />

Proposición 2.1.1.<br />

1. Sea µ(ϕ) = ϕ dµ entonces la distancia en VT entre µ y ν vale<br />

dV T (µ, ν) = 1<br />

sup{|µ(ϕ) − ν(ϕ)| : |ϕ| ≤ 1 y ϕ medible } .<br />

2<br />

2. La distancia en VT entre µ y ν es la norma L 1 (λ) entre las <strong>de</strong>nsida<strong>de</strong>s con<br />

respecto a λ <strong>de</strong> µ y ν,<br />

dV T (µ, ν) = 1<br />

<br />

|g − h|dλ .<br />

2 E<br />

3. Sean X e Y dos variables aleatorias distribuidas según µ y ν respectivamente,<br />

la distancia en VT entre µ y ν vale el ínfimo <strong>de</strong> la probabilidad que X e Y sean<br />

distintas sobre todas las posibles leyes conjuntas entre X e Y . Esta propiedad<br />

es conocida como la caracterización <strong>de</strong> “acoplamiento” (en inglés coupling).<br />

dV T (µ, ν) = ínf{P (X = Y ) : X, Y t.q. L(X) = µ y L(Y ) = ν} .<br />

6


La caracterización (2) permite trabajar la distancia en VT usando las<br />

técnicas <strong>de</strong> las normas L p . Por otros lado, la construcción <strong>de</strong> acoplamientos entre<br />

medidas se ha convertido en una importante técnica <strong>para</strong> estimar la distancia en VT<br />

(ver [40]).<br />

Aun cuando la distancia en VT posee estas y otras propieda<strong>de</strong>s, otras<br />

distancias han hecho su aparición en la literatura. Algunas porque son más simples<br />

<strong>de</strong> calcular y permiten acotar la distancia en VT. Mientras otras simplemente <strong>para</strong><br />

reemplazarla, pues la distancia en VT no es capaz <strong>de</strong> captar ciertos fenómenos como<br />

por ejemplo la convergencia <strong>de</strong> una sucesión <strong>de</strong> variables aleatorias discretas a una<br />

variable continua. La discusión realizada por Gibbs y Su en [29] ilustra bien los<br />

motivos generales que llevan a consi<strong>de</strong>rar otras distancias y las relaciones entre ellas.<br />

En la siguiente sección introducimos las distancias <strong>de</strong> Hellinger, Chi-cuadrado y<br />

Kullback que permiten obtener las cotas <strong>de</strong>l or<strong>de</strong>n correcto <strong>para</strong> la distancias entre<br />

medidas productos <strong>de</strong> la Sección 2.3.<br />

2.2. Las distancias <strong>de</strong> Helliger, Chi-cuadrado y Ku-<br />

llback<br />

De las diferentes distancias entre distribuciones que hay en la literatura<br />

escogimos estas tres porque tienen la propiedad <strong>de</strong> permitir trabajar la distancia entre<br />

medidas productos en términos <strong>de</strong> la distancia entre sus marginales. La distancia <strong>de</strong><br />

χ 2 <strong>de</strong>be su nombre al test estadístico pues, como veremos, el cuadrado <strong>de</strong> la distancia<br />

normalizado por por la talla <strong>de</strong> la muestra tiene la misma forma que el estadístico<br />

7


χ 2 . La distancia <strong>de</strong> K es también conocida como la distancia <strong>de</strong> Entropía relativa<br />

y fue <strong>de</strong>finida por Kullback y Leibler en 1951 como la generalización <strong>de</strong> la noción<br />

<strong>de</strong> entropía <strong>de</strong> Shannon. La distancia <strong>de</strong> H habría sido <strong>de</strong>finida y popularizada por<br />

Kakutani en 1948. Hellinger, quien dio el nombre a la distancia, utilizó una cantidad<br />

relacionada a esta distancia en la teoría <strong>de</strong> operadores. Para más <strong>de</strong>talles sobre el<br />

uso <strong>de</strong> estas distancias ver el artículo <strong>de</strong> [29] y las referencias citadas en él.<br />

Al igual que en la sección prece<strong>de</strong>nte, consi<strong>de</strong>remos el espacio medible<br />

(E, F). Sean µ y ν dos medidas <strong>de</strong> probabilidad <strong>de</strong>finidas en este espacio. Sea λ una<br />

distribución que domina a ambas medidas y <strong>de</strong>notemos por g (resp. h) la <strong>de</strong>nsidad<br />

<strong>de</strong> µ (resp. ν) con respecto a λ. Sea Sµ (resp. Sν) el soporte <strong>de</strong> µ (resp. ν).<br />

Definición 2.2.1.<br />

1. La distancia <strong>de</strong> Hellinger entre µ y ν es<br />

dH(µ, ν) = 1<br />

<br />

√<br />

2<br />

<br />

(<br />

E<br />

f − √ g) 2 1/2 <br />

1/2 dλ = 1 − fg dλ .<br />

E<br />

2. La distancia <strong>de</strong> L 2 (λ) entre µ y ν es<br />

<br />

dL2 (λ)(µ, ν) =<br />

3. La distancia <strong>de</strong> Kullback entre µ y ν es<br />

dK(µ, ν) =<br />

<br />

Sµ<br />

(f − g) 2 1/2 dλ<br />

f log(f/g) dλ<br />

1/2<br />

Las distancias <strong>de</strong> H y K son in<strong>de</strong>pendientes <strong>de</strong> la medida dominante λ.<br />

La distancia <strong>de</strong> H es una métrica y toma valores entre 0 y 1. La distancia <strong>de</strong> K no<br />

8<br />

.<br />

.


es simétrica en sus argumentos (µ, ν) y toman valores entre 0 e ∞ (ver [48] pág. 61).<br />

Si µ es absolutamente continua con respecto a ν luego d2 L2 (ν) (µ, ν) es la distancia <strong>de</strong><br />

Chi-cuadrado usual entre µ y ν. Como trataremos principalmente este caso, y <strong>para</strong><br />

asegurar la homogeneidad <strong>de</strong> los resultados, notaremos por d χ 2(µ, ν) la distancia <strong>de</strong><br />

Chi-cuadrado (χ 2 ) entre µ y ν a la distancia L 2 (ν):<br />

d χ 2(µ, ν) = d L 2 (ν)(µ, ν) .<br />

La distancia <strong>de</strong> χ 2 tampoco es simétrica y toma valores entre 0 e ∞.<br />

La siguiente proposición resume las cotas clásicas que relacionan las<br />

cuatro distancias (ver figura 1 <strong>de</strong> [58]).<br />

Proposición 2.2.2.<br />

1. dH(µ, ν) 2 ≤ dT V (µ, ν)<br />

2. dT V (µ, ν) ≤ dH(µ, ν) 2 − dH(µ, ν) 2 ≤ √ 2dH(µ, ν)<br />

3. dT V (µ, ν) ≤ 2d χ 2(µ, ν)<br />

4. dT V (µ, ν) ≤ 2/ √ 2dK(µ, ν)<br />

5. dH(µ, ν) ≤ √ 2dK(µ, ν)<br />

6. dK(µ, ν) ≤ log(1 + d χ 2(µ, ν) 2 ) ≤ d χ 2(µ, ν)<br />

De las dos primeras <strong>de</strong>sigualda<strong>de</strong>s <strong>de</strong> esta proposición se <strong>de</strong>spren<strong>de</strong> que<br />

la distancia en VT y <strong>de</strong> H son equivalentes en el sentido <strong>de</strong> que inducen la misma<br />

topología.<br />

9


2.3. Distancia entre medidas productos<br />

Como mencionamos en la introducción <strong>de</strong>l capítulo estamos interesados<br />

en la distancia entre medidas producto. Sea (E (n) , F (n) ) el espacio que resulta <strong>de</strong>l<br />

producto <strong>de</strong> los espacios (Ei, Fi) con i = 1, . . . , n, es <strong>de</strong>cir, E (n) = E1 × . . . × En y<br />

F (n) = F1 ⊗. . .⊗Fn. Consi<strong>de</strong>remos las medidas <strong>de</strong> probabilidad µ (n) y ν (n) <strong>de</strong>finidas<br />

en (E (n) , F (n) ) como el producto <strong>de</strong> medidas µ (n) = µ1 ⊗ . . . ⊗ µn don<strong>de</strong> cada µi esta<br />

<strong>de</strong>finida en (Ei, Fi). La siguiente proposición nos permite relacionar las distancias<br />

entre cada par <strong>de</strong> medidas µi y νi con la distancia entre las medidas producto µ (n) y<br />

ν (n) .<br />

Proposición 2.3.1.<br />

1. Variación total:<br />

1 − exp<br />

2. Hellinger:<br />

<br />

1 − exp<br />

3. Chi-cuadrado:<br />

− 1<br />

2<br />

<br />

−<br />

n<br />

i=1<br />

d 2 T V (µi, νi)<br />

<br />

d 2 H(µ (n) , ν (n) ) = 1 −<br />

n<br />

d 2 <br />

H(µi, νi)<br />

i=1<br />

d 2<br />

χ 2(µ(n) , ν (n) ) =<br />

≤ dT V (µ (n) , ν (n) ) ≤<br />

n<br />

i=1<br />

n<br />

dT V (µi, νi) . (2.2)<br />

i=1<br />

<br />

1 − d 2 <br />

H(µi, νi) .<br />

≤ d 2 H(µ (n) , ν (n) ) ≤<br />

n<br />

i=1<br />

n<br />

d 2 H(µi, νi) . (2.3)<br />

i=1<br />

<br />

1 + d 2<br />

χ2(µi, <br />

νi) − 1 .<br />

10


n<br />

d 2<br />

χ2(µi, νi) ≤ d 2<br />

χ2(µ(n) , ν (n) <br />

n<br />

) ≤ exp d 2<br />

χ2(µi, <br />

νi)<br />

i=1<br />

4. Kullback:<br />

d 2 K(µ (n) , ν (n) ) =<br />

i=1<br />

− 1 . (2.4)<br />

n<br />

d 2 K(µi, νi) . (2.5)<br />

i=1<br />

Esta proposición muestra que todas las distancias, salvo la distancia<br />

en variación total, se comportan como ( d(µi, νi) 2 ) 1/2 cuando la distancia en ca-<br />

da coor<strong>de</strong>nada d(µi, νi) es pequeña. Basta recordar que si x1, . . . , xn se comportan<br />

aproximadamente como Ki n con Ki constante, entonces se pue<strong>de</strong> hacer la siguiente<br />

aproximación:<br />

n<br />

(1 + xi) ∼ 1 +<br />

i=1<br />

Las relaciones expuestas en la Proposición 2.3.1 <strong>para</strong> la cota superior <strong>de</strong> VT y las<br />

expresiones <strong>para</strong> la distancias <strong>de</strong> H, χ 2 y K son conocidas y se pue<strong>de</strong>n encontrar en<br />

el Lema 3.3.10 p. 100 en [51]. La <strong>de</strong>mostración <strong>de</strong> la cota inferior <strong>de</strong> la distancia en<br />

n<br />

i=1<br />

xi .<br />

VT es una simple combinación <strong>de</strong> las Proposiciones 2.3.1 y 2.2.2.<br />

Demostración:<br />

dV T (µ (n) , ν (n) ) ≥ d 2 H(µ (n) , ν (n) )<br />

= 1 −<br />

n 2<br />

1 − dH(µi, νi) <br />

i=1<br />

≥ 1 − exp<br />

≥ 1 − exp<br />

<br />

<br />

−<br />

− 1<br />

2<br />

n<br />

d 2 <br />

H(µi, νi)<br />

i=1<br />

n<br />

i=1<br />

d 2 V T (µi, νi)<br />

<br />

.<br />

<br />

11


2.4. Ejemplos<br />

El objetivo <strong>de</strong> esta sección es dar algunos ejemplos <strong>de</strong> estimaciones pre-<br />

cisas <strong>de</strong> la distancia entre medidas producto. En general si consi<strong>de</strong>ramos dos medidas<br />

<strong>de</strong> la misma familia <strong>para</strong>métrica es razonable pensar que la distancia entre ellas será<br />

una función suave <strong>de</strong> la diferencia entre parámetros. En este caso consi<strong>de</strong>raremos<br />

las distribuciones <strong>de</strong> Bernoulli, Poisson y Normal. En estos resultados, ε y δ <strong>de</strong>ben<br />

ser interpretados como funciones <strong>de</strong> n. Observemos que en las Proposiciones 2.4.1 y<br />

2.4.3 tanto las cotas en el caso <strong>de</strong> VT como las expresiones <strong>para</strong> las otras distancias<br />

convergen a constantes positivas <strong>para</strong> ε = n −1/2 . De manera similar en la Proposi-<br />

ción 2.4.6, <strong>para</strong> máx{ε, δ} = n −1/2 . Los cálculos <strong>para</strong> las distancias <strong>de</strong> H, χ 2 y K<br />

son simples y la mayor dificultad que presentan es realizar algunos <strong>de</strong>sarrollos <strong>de</strong><br />

or<strong>de</strong>n. En el caso <strong>de</strong> la distancia en VT <strong>para</strong> las distribuciones <strong>de</strong> Poisson y Normal<br />

los cálculos son más complejos y <strong>para</strong> <strong>de</strong>mostrarlas utilizamos el mismo argumento<br />

que da Pollard en [48] (pág. 63) <strong>para</strong> la distancia entre dos Gaussianas <strong>de</strong> misma<br />

varianza.<br />

2.4.1. Bernoulli<br />

En esta subsección µ y ν son dos distribuciones <strong>de</strong> Bernoulli.<br />

Proposición 2.4.1. [6] Sea p y ε dos reales entre 0 y 1. Sea µ (respectivamente<br />

ν) una distribución <strong>de</strong> Bernoulli <strong>de</strong> parámetro p(1 − ε) (respectivamente p). Sea µ n<br />

12


(y respectivamente ν n ) el producto tensorial <strong>de</strong> n copias <strong>de</strong> µ (respectivamente ν).<br />

Luego,<br />

1. Variación total<br />

<br />

1−exp − n<br />

2 p2ε 2<br />

<br />

≤ dV T (µ n , ν n <br />

) ≤ 1 − exp −n<br />

2. Hellinger<br />

3. Chi-cuadrado<br />

4. Kullback<br />

dH(µ n , ν n ) =<br />

<br />

1 − exp −n<br />

d χ 2(µ n , ν n ) =<br />

dK(µ n , ν n ) = √ <br />

n<br />

p<br />

8(1 − p) ε2 + o(ε 2 )<br />

<br />

1 + p<br />

1 − p ε2<br />

n 1/2 − 1<br />

p<br />

2(1 − p) ε2 + o(ε 2 )<br />

p<br />

4(1 − p) ε2 + o(ε 2 )<br />

1/2<br />

1/2<br />

Demostración: Para la distancia <strong>de</strong> Hellinger <strong>de</strong> su <strong>de</strong>finición tenemos<br />

dH(µ, ν) 2 = 1 −<br />

<br />

p √ <br />

1 − ε + (1 − p) 1 + p<br />

1 − p ε<br />

<br />

.<br />

.<br />

.<br />

.<br />

1/2<br />

.<br />

13


Utilizando una aproximación <strong>de</strong> la función √ 1 + x encontramos que<br />

dH(µ, ν) 2 <br />

= 1 − p 1 − ε<br />

=<br />

−(1 − p)<br />

2<br />

ε2<br />

−<br />

8 + o(ε2 <br />

)<br />

<br />

1 +<br />

p<br />

8(1 − p) ε2 + o(ε 2 ) .<br />

p<br />

ε −<br />

2(1 − p)<br />

p2 8(1 − p) 2 ε2 + o(ε 2 <br />

)<br />

Luego la distancia <strong>de</strong> H entre las dos distribuciones <strong>de</strong> Bernoulli vale<br />

dH(µ, ν) = 1<br />

<br />

p<br />

|ε| + o(ε) .<br />

2 2(1 − p)<br />

Utilizando la proposición 2.2.2 po<strong>de</strong>mos calcular el producto.<br />

dH(µ n , ν n ) =<br />

=<br />

<br />

1 − 1 −<br />

<br />

1 − exp −n<br />

p<br />

8(1 − p) ε2 + o(ε 2 )<br />

Realizamos el mismo calculo <strong>para</strong> la distancia <strong>de</strong> χ 2 :<br />

d χ 2(µ, ν) =<br />

=<br />

=<br />

<br />

n 1/2<br />

p<br />

8(1 − p) ε2 + o(ε 2 1/2 )<br />

<br />

(1 − ε) 2 p + (1 − p) + 2εp + p2 ε 2<br />

<br />

ε 2 p + p2ε2 1/2 1 − p<br />

<br />

p<br />

|ε| .<br />

1 − p<br />

1 − p<br />

1/2 − 1<br />

Utilizando la proposición 2.3.1 po<strong>de</strong>mos calcular la distancia entre las medidas pro-<br />

14<br />

.


ducto µ n y ν n<br />

d χ 2(µ n , ν n ) =<br />

=<br />

Para la distancia <strong>de</strong> K tenemos<br />

<br />

1 + p<br />

<br />

exp<br />

<br />

n<br />

1 − p ε2<br />

n<br />

1/2 − 1<br />

p<br />

1 − p ε2 + o(ε 2 )<br />

<br />

1/2 − 1<br />

dK(µ, ν) 2 <br />

= (1 − ε)p log (1 − ε) + (1 − p + εp) log 1 + p<br />

1 − p ε<br />

<br />

.<br />

Para obtener una expresión similar a la obtenida <strong>para</strong> las otras distancias utilizamos<br />

la aproximación <strong>de</strong> Taylor <strong>de</strong> log(1 + x) en torno a 0,<br />

dK(µ, ν) 2 <br />

= (1 − ε)p −ε − ε2<br />

=<br />

+(1 − p + εp)<br />

2 + o(ε2 <br />

)<br />

<br />

p<br />

2(1 − p) ε2 + o(ε 2 ) .<br />

p 1<br />

ε −<br />

1 − p 2<br />

2 p<br />

ε<br />

1 − p<br />

2 + o(ε 2 <br />

)<br />

Entonces la distancia <strong>de</strong> K entre las dos leyes <strong>de</strong> Bernoulli esta dada por:<br />

dK(µ, ν) =<br />

<br />

p<br />

|ε| + o(ε) .<br />

2(1 − p)<br />

Utilizando la proposición 2.3.1 obtenemos que <strong>para</strong> el producto <strong>de</strong> n copias <strong>de</strong> Ber-<br />

noulli la distancia <strong>de</strong> K es:<br />

dK(µ, ν) = √ <br />

p<br />

n<br />

|ε| + o(ε)<br />

2(1 − p)<br />

.<br />

.<br />

15


Un sencillo cálculo nos permite obtener la distancia en VT:<br />

dV T (µ, ν) = 1<br />

2 |p − p′ + (1 − p ′ ) − (1 − p)|<br />

= p|ε| .<br />

Utilizando la proposición 2.3.1 po<strong>de</strong>mos acotar inferiormente la distancia en VT<br />

entre µ n y ν n y como cota superior utilizaremos la relación entre VT y H <strong>de</strong> la<br />

Proposición 2.2.2.<br />

<br />

1 − exp − n<br />

2 p2ε 2<br />

<br />

≤ dV T (µ n , ν n <br />

) ≤ 1 − exp −n<br />

p<br />

4(1 − p) ε2 + o(ε 2 )<br />

1/2<br />

Observación 2.4.2. Es importante notar que <strong>para</strong> los cuatro casos la distancia entre<br />

µ y ν se comporta <strong>de</strong> manera lineal con respecto a ε cuando este valor es pequeño:<br />

2.4.2. Poisson<br />

dV T (µ, ν) = p|ε| ,<br />

dH(µ, ν) = 1<br />

<br />

p<br />

|ε| + o(ε) ,<br />

2 2(1 − p)<br />

<br />

p<br />

dχ2(µ, ν) = |ε| ,<br />

1 − p<br />

<br />

p<br />

dK(µ, ν) =<br />

|ε| + o(ε) .<br />

2(1 − p)<br />

En esta subsección µ y ν son dos distribuciones <strong>de</strong> Poisson.<br />

Proposición 2.4.3. [6] Sea α un real positivo y ε un real en el intervalo (−∞, 1).<br />

16<br />

.


Sea µ (respectivamente ν) una distribución <strong>de</strong> Poisson <strong>de</strong> parámetro α(1 − ε) (res-<br />

pectivamente α). Sea µ n (y respectivamente ν n ) el producto tensorial <strong>de</strong> n copias <strong>de</strong><br />

µ (respectivamente ν). Luego,<br />

1. Variación total<br />

y<br />

con Rα = α⌊α⌋+1e−α . ⌊α⌋!<br />

2. Hellinger<br />

3. Chi-cuadrado<br />

4. Kullback<br />

<br />

1 − exp − n 2<br />

R<br />

2<br />

αε 2 + o(ε 2 ) <br />

≤ dT V (µ n , ν n ) ,<br />

dT V (µ n , ν n ) ≤<br />

dH(µ n , ν n ) =<br />

<br />

α<br />

1 − exp −n<br />

4 ε2 + o(ε 2 1/2 )<br />

<br />

1 − exp −nα 1 − ε<br />

2 − √ 1/2 1 − ε<br />

d χ 2(µ n , ν n ) = exp nαε 2 − 1 1/2 .<br />

dK(µ n , ν n ) = √ n [α(1 − ε) log(1 − ε) + αε] 1/2 .<br />

Demostración: Los cálculos realizados <strong>para</strong> las distancias <strong>de</strong> H, χ 2 y K son similares<br />

,<br />

.<br />

17


a los <strong>de</strong>sarrollados en el caso <strong>de</strong> Bernoulli. Sea β = α(1 − ε), <strong>para</strong> la distancia <strong>de</strong> H:<br />

dH(µ, ν) 2 = 1 −<br />

∞<br />

i=0<br />

= 1 − exp<br />

α i/2 exp (− α<br />

<br />

−<br />

(i!) 1/2<br />

α + β<br />

2<br />

Reemplazando β obtenemos la siguiente expresión:<br />

dH(µ, ν) =<br />

2 )<br />

β i/2 exp (− β<br />

2 )<br />

(i!) 1/2<br />

<br />

exp αβ .<br />

<br />

1 − exp −α + α<br />

2 ε + α√ 1/2 1 − ε<br />

Para simplificar esta expresión utilizamos la aproximación <strong>de</strong> Taylor <strong>de</strong> √ 1 + x y<br />

encontramos:<br />

dH(µ, ν) =<br />

=<br />

<br />

1 − exp<br />

−α + α<br />

ε + α<br />

2<br />

<br />

1 − exp − α<br />

8 ε2 + o(ε 2 )<br />

<br />

1 − ε<br />

1/2<br />

Por último aproximamos exp(x) con lo que obtenemos:<br />

dH(µ, ν) =<br />

.<br />

2<br />

√<br />

α<br />

2 √ |ε| + o(ε) .<br />

2<br />

ε2<br />

−<br />

8 + o(ε2 1/2 )<br />

La Proposición 2.3.1 nos permite obtener directamente la distancia entre µ n y ν n<br />

dH(µ n , ν n ) =<br />

<br />

1 − exp n − α<br />

8 ε2 + o(ε 2 1/2 )<br />

Realizamos el mismo cálculo <strong>para</strong> la distancia <strong>de</strong> χ 2 , nuevamente sea β = (1 − ε)α.<br />

.<br />

.<br />

18


Luego:<br />

Reemplazando β<br />

d χ 2(µ, ν) =<br />

=<br />

la distancia entre µ n y ν n será<br />

<br />

∞<br />

β<br />

i=0<br />

2i exp (−2β)<br />

(i!) 2<br />

i!<br />

αi − 1<br />

exp (−α)<br />

2 1/2<br />

(α − β)<br />

exp<br />

− 1 .<br />

α<br />

d χ 2(µ, ν) = exp(αε 2 ) − 1 1/2 ,<br />

d χ 2(µ n , ν n ) = exp(nαε 2 ) − 1 1/2 .<br />

Por último <strong>para</strong> la distancia <strong>de</strong> K <strong>para</strong> β = (1 − ε)α un cálculo análogo produce:<br />

dK(µ, ν) =<br />

=<br />

1/2<br />

<br />

∞<br />

β<br />

i=0<br />

i i exp (−β) β exp (−β)<br />

log<br />

i! αi <br />

exp (−α)<br />

1/2 1/2 β<br />

β log + α − β .<br />

α<br />

Reemplazando β y aproximando en torno a 0 la función log(1+x) y √ 1 + x tenemos<br />

dK(µ, ν) = ((1 − ε)α log(1 − ε) + αε) 1/2<br />

<br />

= (1 − ε)α(−ε − ε2<br />

2 + o(ε2 )) + αε<br />

<br />

= − α<br />

2 ε2 + αε 2 + o(ε 2 1/2 )<br />

<br />

α<br />

= |ε| + o(ε) .<br />

2<br />

1/2<br />

19


Obtenemos la distancia entre µ n y ν n :<br />

dK(µ n , ν n ) = (n [(1 − ε)α log(1 − ε) + αε]) 1/2<br />

= √ n<br />

<br />

α<br />

|ε| + o(ε)<br />

2<br />

Usando la segunda caracterización <strong>de</strong> la distancia en VT <strong>de</strong> la Proposición 2.1.1<br />

tenemos<br />

dV T (µ, ν) = 1<br />

2<br />

∞<br />

i=0<br />

αi exp (−α)<br />

|(1 − ε)<br />

i!<br />

i exp (αε) − 1|<br />

= 1<br />

2 IEν (| exp (αε + X log(1 − ε)) − 1|) .<br />

Sea f(ε, x) = exp (αε + x log(1 − ε)), luego dV T (µ, ν) = IEν(|f(ε, X) − 1|). Para<br />

estimar esta cantidad realizaremos un <strong>de</strong>sarrollo <strong>de</strong> Taylor <strong>de</strong> f(ε, x) como función<br />

<strong>de</strong> ε.<br />

∂f<br />

∂ε<br />

<br />

(ε, x) = f(ε, x)<br />

∂2f (ε, x) = f(ε, x)<br />

∂ε2 α − x<br />

<br />

,<br />

1 − ε<br />

α − x<br />

1 − ε<br />

luego obtenemos la siguiente aproximación <strong>de</strong> Taylor <strong>para</strong> f:<br />

f(ε, x) = 1 + (α − x)ε +<br />

1<br />

0<br />

2<br />

+<br />

.<br />

x<br />

(1 − ε) 2<br />

<br />

<br />

αθε+x log(1−θε)<br />

e (α − x<br />

1 − θε )2 x<br />

+<br />

(1 − θε) 2<br />

2 ε<br />

(1 − θ)dθ .<br />

2<br />

Llamemos ɛ(x, ε) al termino integral. Po<strong>de</strong>mos acotar la dV T (µ, ν) por<br />

IEν |α − X| |ε| − IEν |ɛ(X, ε)| ≤ 2dV T (µ, ν) ≤ IEν |α − X| |ε| + IEν |ɛ(X, ε)| .<br />

.<br />

20


Vamos a probar que la esperanza IEν |ɛ(X, ε)| se comporta como o(ε) y que por lo<br />

tanto dV T (µ, ν) ∼ 1<br />

2 IEν (|α − X|) |ε|. El teorema <strong>de</strong> Fubini nos permite intercambiar<br />

la esperanza con respecto X y la integral con respecto a θ.<br />

IEν |ɛ(X, ε)| = IEν<br />

=<br />

1<br />

0<br />

1<br />

<br />

αθε+X log(1−θε)<br />

e (α −<br />

0<br />

X<br />

1 − θε )2 X<br />

+<br />

(1 − θε) 2<br />

<br />

2 ε<br />

(1 − θ)dθ<br />

2<br />

e αθε <br />

X log(1−θε)<br />

IEν e (α − X<br />

1 − θε )2 X<br />

+<br />

(1 − θε) 2<br />

2 ε<br />

(1 − θ)dθ .<br />

2<br />

El siguiente lema nos permitirá calcular la esperanza al interior <strong>de</strong> la integral<br />

Lema 2.4.4. Sea K un real, α y m dos reales positivos. Sea Y una variable <strong>de</strong><br />

Poisson <strong>de</strong> parámetro α. Entonces<br />

IE(e Y K Y m ) = IE( ˜ Y m ) exp −α 1 − e K ,<br />

don<strong>de</strong> Y es una variable <strong>de</strong> Poisson <strong>de</strong> parámetro αe K .<br />

IEν<br />

<br />

Este lema nos permite obtener:<br />

X log(1−θε)<br />

e<br />

α − X<br />

2 +<br />

1 − θε<br />

X<br />

(1 − θε) 2<br />

<br />

= 2 α<br />

1 − θε e−αθε .<br />

Reemplazando este valor en la expresión integral <strong>de</strong> IEν(ɛ(ε, X)) obtenemos<br />

1 <br />

α<br />

IEν |ɛ(X, ε)| =<br />

ε<br />

0 1 − θε<br />

2 (1 − θ)dθ<br />

<br />

− log(1 − ε)ε − ε − log(1 − ε)<br />

= α<br />

ε2 <br />

ε 2<br />

= 3<br />

2 αε2 + o(ε 2 ) .<br />

Deducimos entonces que dV T (µ, ν) se comporta como 1<br />

2 IE |α − X|| ε| <strong>para</strong> ε pequeño.<br />

21


Aún <strong>de</strong>bemos calcular IEν|X − α|. Como IEν(X) = α, tendremos que IEν|X − α| =<br />

2IEν|X − α|+ luego<br />

IEν|X − α| =<br />

⌊α⌋ <br />

2 (α − i)<br />

i=0<br />

αi<br />

i! e−α<br />

⎛<br />

=<br />

⌊α⌋ <br />

2 ⎝α<br />

i=0<br />

αi i! e−α ⌊α⌋ <br />

− α<br />

i=1<br />

= 2αPν(X = ⌊α⌋) .<br />

αi−1 (i − 1)! e−α<br />

⎞<br />

⎠<br />

Con esto concluimos que la distancia en variación total entre µ y ν vale<br />

dV T (µ, ν) = α1+⌊α⌋<br />

⌊α⌋! e−α |ε| + o(ε) .<br />

Utilizando las cotas <strong>de</strong> la Proposición 2.3.1 po<strong>de</strong>mos acotar dV T (µ n , ν n ) por<br />

<br />

1 − exp − n 2<br />

R<br />

2<br />

αε 2 + o(ε 2 ) <br />

≤ dV T (µ n , ν n <br />

α<br />

) ≤ 1 − exp −n<br />

4 ε2 + o(ε 2 1/2 )<br />

con Rα = α⌊α⌋+1 e −α<br />

⌊α⌋! . <br />

Observación 2.4.5. Al igual que en la subsección anterior <strong>para</strong> los cuatro casos la<br />

distancia entre µ y ν se comporta <strong>de</strong> manera lineal con respecto a ε cuando este valor<br />

es pequeño:<br />

dV T (µ, ν) = α1+⌊α⌋<br />

dH(µ, ν) =<br />

⌊α⌋! e−α |ε| + o(ε) ,<br />

√<br />

α<br />

2 √ |ε| + o(ε) ,<br />

2<br />

dχ2(µ, ν) = √ α ε + o(ε) ,<br />

<br />

α<br />

dK(µ, ν) = |ε| + o(ε) .<br />

2<br />

,<br />

22


2.4.3. Normal<br />

En esta subsección µ y ν son dos distribuciones Normales.<br />

Proposición 2.4.6. [6] Sea m, ε dos reales, v un real positivo y δ un real mayor que<br />

−1. Sea µ (respectivamente ν) una distribución Normal <strong>de</strong> esperanza m+vε (respec-<br />

tivamente m) y varianza v 2 (1 + δ) (respectivamente v 2 ). Sea µ n (y respectivamente<br />

ν n ) el producto tensorial <strong>de</strong> n copias <strong>de</strong> µ (respectivamente ν). Luego,<br />

1. Variación total:<br />

<br />

1 − exp − n<br />

16π (C1(z)|δ| + C2(z)|ε| + o(||ε, δ||)) 2<br />

≤ dT V (µ n , ν n ) ,<br />

dT V (µ n , ν n ) ≤<br />

<br />

1 −<br />

√ n <br />

1 + δ<br />

exp −<br />

1 + δ/2<br />

nε2<br />

<br />

2(2 + δ)<br />

1/2 Don<strong>de</strong> z = |ε|/|δ|, y C1, C2 son tales que C1(∞) = 1, C2(∞) = 2, C1(0) =<br />

2e −1/2 , y C2(0) = e −1/2 ; más precisamente, C1(z) y C2(z) toman valores en los<br />

intervalos [e −1/2 , 1 + e −1/2 ] y [e −1/2 , 2] respectivamente.<br />

2. Hellinger:<br />

3. Chi-cuadrado:<br />

dH(µ n , ν n ) =<br />

<br />

d χ 2(µ n , ν n ) =<br />

1 −<br />

√ n/2 <br />

1 + δ<br />

exp −<br />

1 + δ/2<br />

nε2<br />

<br />

4(2 + δ)<br />

1/2 <br />

1 2<br />

− δ 2<br />

1/2<br />

−n/2 nε<br />

exp − 1<br />

1 − δ<br />

.<br />

.<br />

.<br />

23


4. Kullback:<br />

dK(µ n , ν n ) = √ <br />

2 1/2<br />

ε − 1<br />

n log(1 + δ) +<br />

2(1 + δ)<br />

Demostración: En primer lugar calcularemos la distancia entre dos distribuciones<br />

Normales <strong>para</strong> el caso particular <strong>de</strong> µ0 ∼ N(m0, v 2 0) y ν0 ∼ N(0, 1) y luego genera-<br />

lizaremos el resultado. Repetiremos el mismo argumento <strong>para</strong> cada distancia. En el<br />

caso <strong>de</strong> la distancia <strong>de</strong> H <strong>de</strong> su <strong>de</strong>finición tenemos<br />

<br />

dH(µ, ν) = 1 −<br />

Utilizando la siguiente igualdad<br />

1<br />

4<br />

x − m0<br />

v0<br />

po<strong>de</strong>mos concluir que<br />

dH(µ, ν) =<br />

2<br />

<br />

<br />

1<br />

√ √ exp −<br />

2π v0<br />

1<br />

4<br />

+ x 2<br />

<br />

1 − √ 2<br />

x − m0<br />

v0<br />

2<br />

= 1<br />

<br />

x −<br />

2<br />

m<br />

v2 2 2 1 + v0 1<br />

+<br />

0 + 1 2v2 4<br />

<br />

v0<br />

v2 1/2 <br />

exp −<br />

0 + 1<br />

1<br />

4<br />

− 1<br />

4 x2<br />

1/2 dx<br />

m2 0<br />

v2 0 + 1<br />

.<br />

m2 0<br />

v2 0 + 1 ,<br />

1/2<br />

Ahora consi<strong>de</strong>remos dos variables normales cualesquiera µ ∼ N(m1, v 2 1) y ν ∼<br />

N(m2, v 2 2). Sean m0 = m1−m2<br />

v2<br />

y v0 = v1 , tendremos que la distancia <strong>de</strong> H entre<br />

v2<br />

dos normales se pue<strong>de</strong> obtener como dH(µ, ν) = dH(N(m0, v 2 0), N(0, 1)). En nuestro<br />

caso m1 = m + vε, v1 = v √ 1 + δ m2 = m y v2 = v luego m0 = ε y v0 = δ, por lo<br />

tanto<br />

√ 1/2 <br />

1 + δ<br />

dH(µ, ν) = 1 −<br />

exp −<br />

1 + δ/2<br />

1 ε<br />

4<br />

2 <br />

(2 + δ)<br />

1/2 .<br />

.<br />

.<br />

24


Reemplazando esta expresión en la Propiedad 2.3.1 obtenemos<br />

dH(µ n , ν n ) =<br />

√ n/2 <br />

1 + δ<br />

1 −<br />

exp −<br />

1 + δ/2<br />

n ε<br />

4<br />

2 <br />

(2 + δ)<br />

1/2 .<br />

Utilizando las aproximaciones <strong>de</strong> Taylor <strong>de</strong> (1 + x) 1/k <strong>para</strong> simplificar la expresión<br />

<strong>de</strong> dH(µ, ν) obtenemos el siguiente <strong>de</strong>sarrollo <strong>de</strong> or<strong>de</strong>n<br />

√ 1/2<br />

1 + δ<br />

1 + δ/2<br />

=<br />

<br />

1 + δ 3<br />

−<br />

4 32 δ2 + o(δ 2 <br />

) 1 − δ 3<br />

+<br />

4 32 δ2 + o(δ 2 <br />

)<br />

= 1 − 1<br />

16 δ2 + o(δ 2 ) .<br />

Aproximando la segunda expresión<br />

1 ε<br />

4<br />

2<br />

(2 + δ)<br />

<br />

exp − 1 ε<br />

4<br />

2 <br />

2 + δ<br />

= ε2<br />

8 + o(||(ε, δ)||2 )<br />

= 1 − ε2<br />

8 + o(||(ε, δ)||2 ) .<br />

Reemplazando ambas aproximaciones en la última expresión <strong>de</strong> la distancia <strong>de</strong> H<br />

obtenemos,<br />

dH(µ, ν) = 1<br />

2 √ 2 δ<br />

2 2 + ε2 + o(||(ε, δ)|| 2 1/2 )<br />

Para el caso <strong>de</strong> la distancia <strong>de</strong> χ 2 , al igual que antes, primero consi<strong>de</strong>remos la dis-<br />

tancia entre µ0 ∼ N(m0, v 2 0) y ν0 ∼ N(0, 1)<br />

d χ 2(µ0, ν0) =<br />

=<br />

<br />

<br />

1<br />

2πv 2 0<br />

<br />

exp −<br />

1<br />

√ exp<br />

2 2πv0 (x − m0) 2<br />

v 2<br />

<br />

√2π 1<br />

exp<br />

<br />

2 (x − m0)<br />

−<br />

v2 +<br />

0<br />

x2<br />

2<br />

.<br />

2 x2<br />

<br />

dx − 1<br />

<br />

dx − 1<br />

1/2<br />

1/2<br />

25


consi<strong>de</strong>rando la siguiente igualdad,<br />

la expresión se reduce a<br />

2 (x − m0)<br />

2<br />

v2 0<br />

− x 2 <br />

= x −<br />

d χ 2(µ0, ν0) =<br />

<br />

v0<br />

1<br />

<br />

2 2 − v0 m0<br />

2 − v 2 0<br />

2<br />

2 − v2 0<br />

v2 − 2m20 2 − v2 ,<br />

0<br />

2 m0 exp<br />

2 − v2 1/2 − 1<br />

0<br />

Sean µ ∼ N(m1, v 2 1) y ν ∼ N(m2, v 2 2) con m2 = m, v2 = v, m1 = m + vε, v1 =<br />

v √ 1 + δ. Al igual que <strong>para</strong> H po<strong>de</strong>mos escribir la distancia <strong>de</strong> χ 2 entre µ y ν como<br />

d χ 2(µ, ν) = d χ 2(N(m, v 2 ), N(0, 1)). Luego tendremos<br />

d χ 2(µ, ν) =<br />

<br />

1<br />

√<br />

1 − δ2 exp<br />

2 ε<br />

1 − δ<br />

Pasando al producto con la Proposición 2.2.2<br />

d χ 2(µ n , ν n ) =<br />

1/2 − 1<br />

1<br />

1 − δ2 n/2 <br />

exp n ε2<br />

1/2 − 1<br />

1 − δ<br />

Utilizando una aproximación (1 + x) −1 y <strong>de</strong> exp(x)<br />

2 δ<br />

dχ2(µ, ν) =<br />

2 + ε2 + o(||(ε, δ)|| 2 1/2 )<br />

Finalmente consi<strong>de</strong>remos una vez más µ0 una distribución Normal N(m0, v 2 0) y ν0<br />

.<br />

.<br />

.<br />

.<br />

26


una N(0, 1). De la <strong>de</strong>finición <strong>de</strong> la distancia <strong>de</strong> K obtenemos:<br />

dK(µ0, ν0) =<br />

=<br />

⎡<br />

<br />

⎣<br />

⎛<br />

log ⎝ v exp − 1<br />

2x2 ⎞<br />

<br />

2<br />

exp<br />

− 1<br />

2<br />

x−m<br />

v<br />

<br />

log(v) − 1 1 + m2<br />

+<br />

2 2v2 ⎠ 1 1<br />

− √ e 2<br />

2π x2<br />

⎤<br />

dx⎦<br />

Nuevamente consi<strong>de</strong>ramos m1 = m + vε, v1 = v √ 1 + δ, m2 = m y v2 = v. Al<br />

igual que <strong>para</strong> la distancia <strong>de</strong> H po<strong>de</strong>mos escribir la distancia entre µ y ν como<br />

dK(µ, ν) = dK(N(m, v 2 ), N(0, 1)). Luego,<br />

dK(µ, ν) =<br />

<br />

1<br />

log(1 + δ) +<br />

2<br />

1/2<br />

.<br />

ε 2<br />

2(1 + δ) −<br />

Combinando la aproximación <strong>de</strong> x(1 + x) −1 y log(1 + x):<br />

log(1 + δ) − δ<br />

1 + δ<br />

y por otro lado <strong>de</strong> la aproximación <strong>de</strong> (1 + x) −1 :<br />

= δ2<br />

2 + o(δ2 ) ,<br />

ε 2<br />

1 + δ = ε2 + o(||(ε, δ)|| 2 ) .<br />

De estos dos <strong>de</strong>sarrollos <strong>de</strong> or<strong>de</strong>n <strong>de</strong>ducimos:<br />

dK(µ, ν) =<br />

δ 2<br />

4<br />

1/2 δ<br />

2(1 + δ)<br />

ε2<br />

+<br />

2 + o(||(ε, δ)||2 1/2 )<br />

De la Proposición 2.3.1 se <strong>de</strong>spren<strong>de</strong> que la distancia <strong>de</strong> K entre dos µ n y ν n vale:<br />

dK(µ n , ν n ) =<br />

1/2 1<br />

1 + ε2 1<br />

n log(1 + δ) + −<br />

2 2(1 + δ) 2<br />

.<br />

.<br />

.<br />

1/2<br />

27


Utilizando la aproximación<br />

dK(µ n , ν n ) =<br />

2 δ ε2<br />

n +<br />

4 2 + o(||(ε, δ)||2 1/2 )<br />

Usando la segunda caracterización <strong>para</strong> la distancia en VT <strong>de</strong> la Proposición 2.1.1<br />

obtenemos la siguiente expresión:<br />

dV T (µ, ν) = 1<br />

2<br />

<br />

1<br />

(x − ε)2<br />

√ √ exp − −<br />

2π 1 + δ 2(1 + δ)<br />

1<br />

<br />

√ exp −<br />

2π x2<br />

<br />

<br />

dx<br />

2<br />

= 1<br />

2 IE<br />

<br />

1<br />

1<br />

√ exp −<br />

1 + δ 2(1 + δ) (X − ε)2 − X2<br />

<br />

<br />

− 1<br />

2 .<br />

Don<strong>de</strong> X esta distribuida como una N(0, 1). Definimos la función f como:<br />

f(ε, δ, x) =<br />

<br />

1<br />

√ exp −<br />

1 + δ 1<br />

<br />

1<br />

2 1 + δ (x − ε)2 − x 2<br />

<br />

Vamos a utilizar un <strong>de</strong>sarrollo <strong>de</strong> Taylor en ε y δ <strong>para</strong> obtener una cota. Para esto<br />

calculamos sus <strong>de</strong>rivadas <strong>de</strong> primer y segundo or<strong>de</strong>n:<br />

∂<br />

x − ε<br />

f(ε, δ, x) = f(ε, δ, x)<br />

∂ε 1 + δ ,<br />

x 2 ∂<br />

− ε<br />

f(ε, δ, x) = f(ε, δ, x)1<br />

−<br />

∂δ 2 1 + δ<br />

1<br />

<br />

,<br />

1 + δ<br />

∂2 x 2 − ε<br />

f(ε, δ, x) = f(ε, δ, x)<br />

−<br />

∂ε2 1 + δ<br />

1<br />

<br />

,<br />

1 + δ<br />

∂2 2<br />

2<br />

1 (x − ε) 1 (x − ε)2 1<br />

f(ε, δ, x) = f(ε, δ, x)<br />

− − +<br />

∂δ2 4 (1 + δ) 2 1 + δ (1 + δ) 3 2(1 + δ) 2<br />

<br />

,<br />

∂2 <br />

2 1 (x − ε) 1 x − ε x − ε<br />

f(ε, δ, x) = f(ε, δ, x)<br />

− −<br />

∂ε∂δ 2 (1 + δ) 2 1 + δ 1 + δ (1 + δ) 2<br />

<br />

.<br />

.<br />

.<br />

28


Luego obtenemos la siguiente aproximación <strong>de</strong> Taylor en torno a (0, 0):<br />

f(ε, δ, x) = 1 + xε + x2 δ<br />

2<br />

don<strong>de</strong> ɛ(ε, δ, x) es el error y se <strong>de</strong>fine como<br />

ɛ(ε, δ, x) =<br />

1<br />

0<br />

∂ 2<br />

Como dV T (µ, ν) = 1<br />

2<br />

δ<br />

− + ɛ(ε, δ, x) ,<br />

2<br />

∂ε2 f(θε, θδ)ε2 + ∂2<br />

∂δ2 f(θε, θδ)δ2 + 2 ∂2<br />

f(θε, θδ)εδ<br />

∂ε∂δ<br />

<br />

(1 − θ)dθ .<br />

IE|1 − f(ε, δ, X)| po<strong>de</strong>mos aproximar la distancia en VT entre<br />

µ y ν por 1<br />

2IE <br />

<br />

Xε + X2 <br />

δ δ <br />

− 2 2,<br />

el error que cometemos esta acotado por:<br />

<br />

<br />

<br />

1<br />

2<br />

IE<br />

<br />

<br />

<br />

Xε + X2 <br />

δ δ <br />

− <br />

2 2<br />

− dV T (µ, ν)<br />

<br />

<br />

<br />

<br />

1<br />

≤ IE |ɛ(ε, δ, X)| , (2.6)<br />

2<br />

don<strong>de</strong> X se distribuye como una normal N(0, 1). Al igual que en el caso <strong>de</strong> la<br />

distribución <strong>de</strong> Poisson, <strong>de</strong>mostraremos que IE |ɛ(ε, δ, X)| es <strong>de</strong>spreciable frente a<br />

1<br />

2IE <br />

<br />

Xε + X2 <br />

δ <br />

2 ; luego, la aproximación será valida. Demostraremos que IE |ɛ(ε, δ, X)|<br />

se comporta como o(||(ε, δ)||), la última expresión será una buena aproximación <strong>de</strong><br />

la distancia que estamos estimando. Sean<br />

<br />

η1(ε, δ) = IE | ∂2<br />

<br />

f(ε, δ, X)| ,<br />

∂ε2 <br />

η2(ε, δ) = IE | ∂2<br />

<br />

f(ε, δ, X)| ,<br />

∂δ2 <br />

η3(ε, δ) = IE | ∂2<br />

<br />

f(ε, δ, X)| .<br />

∂ε∂δ<br />

Luego <strong>de</strong> intercambiar la esperanza con respecto a X con la integral con respecto a<br />

29


θ tenemos<br />

IE [|ɛ(ε, δ, X)|] ≤<br />

1<br />

0<br />

η1(θε, θδ)ε 2 + +η2(θε, θδ)δ 2 + 2η3(θε, θδ)εδ (1 − θ)dθ .<br />

Un simple cambio <strong>de</strong> variables nos permite afirmar que <strong>para</strong> cualquier función g<br />

IEX<br />

<br />

X − ε<br />

f(ε, δ, X)g √ = IEY (g(T )) .<br />

1 + δ<br />

Con X e Y dos variables Normales N(0, 1). Utilizando esta propiedad y recordando<br />

que X se distribuye como una normal N(0, 1), calculamos η1, η2 y η3:<br />

η1(ε, δ) =<br />

<br />

<br />

X − ε<br />

IE f(ε, δ, X) <br />

1 + δ<br />

=<br />

1<br />

1 + δ IE =<br />

2<br />

X − 1 <br />

1 4<br />

√2π e<br />

1 + δ<br />

−1/2<br />

<br />

=<br />

1<br />

K1<br />

1 + δ .<br />

2<br />

− 1<br />

<br />

<br />

<br />

<br />

1 + δ <br />

Para η2 consi<strong>de</strong>remos x1 = 3 − √ 6 y x2 = 3 + √ 6 <strong>de</strong> modo que {−x2, −x1, x1, x2}<br />

30


son las raíces <strong>de</strong>l polinomio x 4 + 6x 2 + 3. Sea A = [−x2, −x1] [x1, x2] obtenemos<br />

η2(ε, δ) =<br />

<br />

2<br />

2<br />

1<br />

(x − ε) 1 (x − ε)2 1<br />

IE f(ε, δ) <br />

− − +<br />

4<br />

(1 + δ) 2 1 + δ (1 + δ) 3 2(1 + δ) 2<br />

<br />

<br />

<br />

<br />

<br />

=<br />

=<br />

1<br />

<br />

<br />

2 2 2 <br />

IE X − 1 − 4X + 2<br />

4(1 + δ) 2<br />

1<br />

2(1 + δ) 2<br />

<br />

(x<br />

A<br />

4 − 6x 2 + 3) 1<br />

√ e<br />

2π −x2 =<br />

<br />

/2<br />

dx<br />

1<br />

(1 + δ) 2<br />

<br />

3<br />

π e−3/2<br />

3 + √ √ <br />

6<br />

6 exp − 3 −<br />

2<br />

√ <br />

−<br />

6 exp<br />

√ <br />

6<br />

2<br />

= K2<br />

1 4<br />

><br />

(1 + δ) 2<br />

3 1 √ e<br />

4 π<br />

− 3<br />

2 .<br />

Finalmente acotamos el último término η3. Sea x0 = √ 3 luego {−x0, 0, x0} son las<br />

raíces <strong>de</strong>l polinomio x 3 + 3x. Definimos el conjunto B = [|∞, −x0] [0, x0]<br />

η3(ε, δ) =<br />

<br />

<br />

2<br />

IE f(ε, δ, X) <br />

1 (x − ε) 1 X − ε X − ε<br />

<br />

− −<br />

2 (1 + δ) 2 1 + δ 1 + δ (1 + δ) 2<br />

<br />

<br />

<br />

<br />

=<br />

1<br />

2(1 + δ) 3/2 IE X 3 − 3X <br />

=<br />

1<br />

(1 + δ) 3/2<br />

<br />

− (x<br />

B<br />

3 − 3x) 1<br />

√ e<br />

2π −x2 =<br />

<br />

/2<br />

dx<br />

1<br />

(1 + δ) 3/2<br />

1 −3/2 √ 1 + 4e<br />

2π<br />

<br />

=<br />

1<br />

K3 .<br />

(1 + δ) 3/2<br />

Entonces el error queda acotado por<br />

IE (|ɛ(ε, δ, X)|) ≤<br />

1<br />

0<br />

<br />

K1<br />

1<br />

1 + θδ ε2 + K2<br />

1<br />

(1 + θδ) 2 δ2 + K3<br />

<br />

1<br />

εδ (1 − θ)dθ<br />

(1 + θδ) 3/2<br />

31


Estimamos el comportamiento asintótico <strong>de</strong> cada uno <strong>de</strong> los tres términos<br />

K1ε 2<br />

1<br />

0<br />

2 δ log(1 + δ) + log(1 + δ) − δ<br />

η1(θε, θδ)(1 − θ)dθ = K1ε<br />

δ2 = K1ε 2 δ (δ + o(δ)) + δ − δ2 /2 + o(δ 2 ) − δ<br />

2 1<br />

= K1ε<br />

2 (1 + oδ(1)) .<br />

Un calculo similar <strong>para</strong> los otros dos términos nos da<br />

K2δ 2<br />

2K3εδ<br />

1<br />

0<br />

1<br />

0<br />

2 1<br />

η2(θε, θδ)(1 − θ)dθ = K2δ<br />

2 (1 + oδ(1)) ,<br />

η3(θε, θδ)(1 − θ)dθ = K3εδ(1 + oδ(1)) .<br />

La combinación <strong>de</strong> los tres últimos términos nos permite afirmar que IE |ɛ(ε, δ, X)|<br />

es o(||(ε, δ)|| 2 ):<br />

IE |ɛ(ε, δ, X)| ≤ K1ε 2 + K2δ 2 + 2K3εδ 1<br />

2 (1 + oδ(1)) = o(||(ε, δ)|| 2 ) .<br />

Luego, <strong>de</strong> la <strong>de</strong>sigualdad (2.6) po<strong>de</strong>mos concluir que dV T (µ, ν) se pue<strong>de</strong> aproximar<br />

<strong>para</strong> δ y ε pequeños por<br />

dV T (µ, ν) = 1<br />

δ 2<br />

2 IE<br />

<br />

<br />

<br />

Xε + X2 <br />

δ δ <br />

− <br />

2 2<br />

+ o(||(ε, δ)||)<br />

<br />

<br />

Para finalizar <strong>de</strong>bemos estimar IE Xε + X2 <br />

δ δ <br />

− . Recor<strong>de</strong>mos que X se distribuye<br />

2<br />

2<br />

32


como una N(0, 1). Sean x1 y x2 las raíces <strong>de</strong> x 2 + 2ε<br />

δ x − 1 con x1 < x2.<br />

<br />

<br />

IE Xε + X2δ 2<br />

<br />

δ <br />

− <br />

2<br />

= |δ| IE |X 2 + 2ε<br />

<br />

X − 1|−<br />

δ<br />

= |δ|<br />

<br />

√ (x2 +<br />

2π<br />

2ε<br />

δ )e−x2 2 /2 − (x1 + 2ε<br />

δ )e−x2 1 /2<br />

Sea ˜z = ε/δ entonces las raíces <strong>de</strong>l polinomio valen x1 = −˜z − √ ˜z 2 + 1 y x2 =<br />

−˜z + √ ˜z 2 + 1. Reemplazando en la expresión se tiene<br />

<br />

<br />

IE Xε + X2δ 2<br />

<br />

δ <br />

− <br />

2<br />

= |δ|<br />

<br />

√ ˜z +<br />

2π<br />

√ ˜z 2 <br />

+ 1 exp − 1<br />

2 (√˜z 2 + 1 − ˜z) 2<br />

<br />

√ <br />

+ ˜z 2 + 1 − ˜z exp − 1<br />

2 (√˜z 2 + 1 + ˜z) 2<br />

<br />

= |δ|<br />

<br />

<br />

1<br />

√ √ exp −<br />

2π ˜z 2 + 1 + |˜z| 1<br />

2 (√˜z 2 + 1 + |˜z|) 2<br />

<br />

√ <br />

+ ˜z 2 + 1 + |˜z| exp − 1<br />

<br />

1<br />

<br />

2<br />

<br />

( √ ˜z 2 + 1 + |˜z|) 2<br />

Sea z = |ε/δ| y y(z) = √ z 2 + 1 + z. Luego dV T (µ, ν) se pue<strong>de</strong> aproximar <strong>para</strong> δ y ε<br />

pequeños por<br />

dV T (µ, ν) = |δ|<br />

2 √ <br />

1<br />

2π y(z) exp<br />

<br />

− 1<br />

2 (y(z))2<br />

<br />

+ y(z) exp − 1<br />

2 (y(z))−2<br />

<br />

+o(||(ε, δ)||) ,<br />

Nos gustaría obtener una aproximación más sencilla <strong>para</strong> po<strong>de</strong>r obtener una cota in-<br />

ferior <strong>de</strong> dV T (µ n , ν n ) utilizaremos la <strong>de</strong>sigualdad <strong>de</strong> la Proposición 2.2.2 y la relación<br />

.<br />

.<br />

33


y(z) − 1 = z(y(−z −1 ) + 1):<br />

dV T (µ, ν) = |δ|<br />

<br />

1<br />

√<br />

8π y(z) exp<br />

<br />

− 1<br />

2 (y(z))2<br />

+ |ε|<br />

√ 8π (y(−z −1 ) + 1) exp<br />

<br />

<br />

+ exp − 1<br />

<br />

2 (y(z))−2<br />

<br />

− 1<br />

2 (y(z))−2<br />

<br />

+ o(||(ε, δ)||) .<br />

Definimos C1(z) (respectivamente C2(z)) como el coeficiente <strong>de</strong> |δ| (respectivamente<br />

|ε|).<br />

1<br />

C1(z) =<br />

y(z) exp<br />

<br />

− 1<br />

2 (y(z))2<br />

<br />

+ exp − 1<br />

2 (y(z))−2<br />

<br />

C2(z) = (y(−z −1 <br />

) + 1) exp − 1<br />

2 (y(z))−2<br />

<br />

.<br />

En consecuencia la distancia en VT entre µ y ν vale<br />

dV T (µ, ν) = |δ|<br />

√ 8π C1(z) + |ε|<br />

√ 8π C2(z) + o(||(ε, δ)||) ,<br />

don<strong>de</strong> el comportamiento <strong>de</strong> C1 y C2 esta dado por<br />

C1(0) = 2e −1/2<br />

C2(0) = e −1/2<br />

Finalmente po<strong>de</strong>mos acotar dV T (µ n , ν n ) por<br />

; C1(∞) = 1 ; e −1/2 ≤ C1(z) ≤ 1 + e −1/2 ,<br />

; C2(∞) = 2 ; e −1/2 ≤ C2(z) ≤ 2 .<br />

<br />

n<br />

1 − 2 exp<br />

16π (C1(z)|δ| + C2(z)|ε| + o(||(ε, δ)||)) 2<br />

≤ dV T (µ n , ν n )<br />

dV T (µ n , ν n ) ≤<br />

√ n <br />

1 + δ<br />

1 −<br />

exp −<br />

1 + δ/2<br />

n ε<br />

2<br />

2 <br />

(2 + δ)<br />

1/2 .<br />

34


Observación 2.4.7. En el caso <strong>de</strong> la distribución Normal vemos el mismo compor-<br />

tamiento lineal que en los casos <strong>de</strong> Bernoulli y <strong>de</strong> Poisson <strong>para</strong> las distancias <strong>de</strong> H,<br />

χ 2 y K y <strong>para</strong> la distancia en VT vemos que esta acotada entre dos funciones linea-<br />

les. La distancia entre µ y ν se comporta <strong>de</strong> manera lineal cuando ambos parámetros<br />

ε y δ son pequeños:<br />

dV T (µ, ν) = |δ|<br />

√ 8π C1(z) + |ε|<br />

√ 8π C2(z) + o(||(ε, δ)||) ,<br />

dH(µ, ν) =<br />

d χ 2(µ, ν) =<br />

dK(µ, ν) =<br />

2 1 δ<br />

2 + ε2 + o(||(ε, δ)|| 2 1/2 )<br />

2 + ε2 + o(||(ε, δ)|| 2 1/2 ) ,<br />

1/2 2 √ 2<br />

2 δ<br />

δ 2<br />

4<br />

+ ε2<br />

2 + o(||(ε, δ)||2 )<br />

Don<strong>de</strong> z = |ε/δ| y C1 y C2 son dos funciones positivas acotadas.<br />

.<br />

,<br />

<br />

35


<strong>Cutoff</strong> <strong>para</strong> n-tuplas <strong>de</strong> <strong>procesos</strong><br />

exponencialmente convergentes<br />

El objetivo <strong>de</strong> este capítulo es estudiar el fenómeno <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> n-<br />

tuplas <strong>de</strong> <strong>procesos</strong> in<strong>de</strong>pendientes, tanto idénticamente distribuidos como no. Nues-<br />

tro resultado principal, el Teorema 3.3.1, da condiciones bajo las cuales una n-tupla<br />

tiene un <strong>Cutoff</strong> en el sentido <strong>de</strong> las distancias <strong>de</strong> VT, H, χ 2 y K. Para cada i = 1, ..., n<br />

asumimos que la i-ésima coor<strong>de</strong>nada converge a una velocidad exponencial <strong>de</strong> tasa<br />

ρi a su medida <strong>de</strong> equilibrio o, <strong>de</strong> un modo más preciso, el logaritmo <strong>de</strong> la distancia<br />

al tiempo t es equivalente a −ρit (Definición 3.2.1). Se prueba que bajo condiciones<br />

a<strong>de</strong>cuadas sobre las tasas <strong>de</strong> convergencias (ρi) la n-tupla tiene un <strong>Cutoff</strong> al tiempo:<br />

<br />

log i<br />

tn = máx ; i = 1, . . . , n<br />

2ρ(i,n)<br />

don<strong>de</strong> ρ(1,n), . . . , ρ(n,n) son los valores <strong>de</strong> ρ1, . . . , ρn or<strong>de</strong>nados <strong>de</strong> manera creciente.<br />

Resultados más precisos se pue<strong>de</strong>n probar <strong>para</strong> coor<strong>de</strong>nadas i.i.d. (Teoremas 3.3.4 y<br />

3.3.5): si ρ es la tasa <strong>de</strong> convergencia exponencial común, no solo hay <strong>Cutoff</strong> <strong>para</strong> la n-<br />

tupla al tiempo log n/(2ρ), si no que a<strong>de</strong>más <strong>para</strong> u fijo estimaciones precisas <strong>para</strong> la<br />

distancia al equilibrio al tiempo log n/(2ρ) + u se pue<strong>de</strong>n hacer. Más precisamente,<br />

se pue<strong>de</strong> mostrar que el <strong>Cutoff</strong> ocurre en un intervalo <strong>de</strong> tiempo <strong>de</strong> largo O(1)<br />

en torno a log n/(2ρ). Las <strong>de</strong>mostraciones se basan en <strong>de</strong>sigualda<strong>de</strong>s que acotan la<br />

distancia entre dos medidas producto en función <strong>de</strong> la distancias entre las marginales<br />

(Proposición 2.3.1). La mayoría son consecuencia directa <strong>de</strong> <strong>de</strong>sigualda<strong>de</strong>s clásicas<br />

que se encuentran en libros <strong>de</strong> estadística (e.g. [51], [38]) y que hemos recopilado en<br />

,<br />

36


el Capítulo 2.<br />

En este capítulo se abordan los resultados <strong>de</strong>l artículo “<strong>Cutoff</strong> for n-<br />

tuples of exponentially converging process” ([6]). En la primera sección daremos un<br />

ejemplo sencillo don<strong>de</strong> se observa el fenómeno, luego daremos la <strong>de</strong>finición formal<br />

que utilizaremos y discutiremos los resultados particulares previos que se encuentran<br />

en la literatura <strong>para</strong> <strong>Cutoff</strong> <strong>de</strong> n-tuplas. En la Sección 3.2 discutimos la noción <strong>de</strong><br />

convergencia exponencial que usaremos y el comportamiento <strong>de</strong> la sumatoria <strong>de</strong> dis-<br />

tancias exponencialmente convergentes (Lema 3.2.4). En la Sección 3.3 se encuentra<br />

nuestro resultado principal <strong>de</strong> <strong>Cutoff</strong>: el Teorema 3.3.1 <strong>para</strong> n-tuplas <strong>de</strong> <strong>procesos</strong><br />

exponencialmente convergentes in<strong>de</strong>pendientes pero no idénticamente distribuidos<br />

así como otros resultados <strong>para</strong> el caso i.i.d.. En la Sección 3.4 se estudian n-tuplas<br />

<strong>de</strong> <strong>procesos</strong> i.i.d. <strong>para</strong> los casos en que las coor<strong>de</strong>nadas correspon<strong>de</strong> a Procesos <strong>de</strong><br />

Markov Binarios, <strong>procesos</strong> <strong>de</strong> Nacimiento y muerte M/M/∞ y <strong>procesos</strong> <strong>de</strong> difusión<br />

<strong>de</strong> Ornstein-Uhlenbeck.<br />

3.1. Definición y algunos ejemplos clásicos<br />

Primero explicaremos el <strong>Cutoff</strong> con el clásico ejemplo <strong>de</strong> revolver cartas<br />

<strong>de</strong> un maso. Luego propondremos una <strong>de</strong>finición formal <strong>de</strong>l fenómeno y citaremos<br />

algunos trabajos <strong>de</strong> <strong>Cutoff</strong> <strong>de</strong> la literatura y veremos como se relacionan con nuestro<br />

trabajo.<br />

37


3.1.1. ¿Qué es el <strong>Cutoff</strong>?<br />

El fenómeno <strong>de</strong> <strong>Cutoff</strong> es la formalización <strong>de</strong> la convergencia abrupta<br />

al equilibrio que se observa en algunas ca<strong>de</strong>nas <strong>de</strong> Markov. El <strong>Cutoff</strong> fue i<strong>de</strong>ntificado<br />

por primera vez por Aldous y Diaconis en [1] <strong>para</strong> algunos paseos aleatorios en grupos<br />

<strong>de</strong> permutaciones. Después el fenómeno ha sido observado en muchas otras ca<strong>de</strong>nas<br />

<strong>de</strong> Markov.<br />

Intuitivamente el fenómeno se pue<strong>de</strong> enten<strong>de</strong>r con un ejemplo cotidiano<br />

don<strong>de</strong> se observa el <strong>Cutoff</strong>: barajando un mazo <strong>de</strong> 52 cartas. Una <strong>de</strong> las maneras <strong>de</strong><br />

barajar un mazo es realizando el siguiente proceso, se divi<strong>de</strong> el mazo en dos grupos y<br />

se mezclan en uno <strong>de</strong>jando caer aleatoriamente una carta <strong>de</strong>l primer o segundo mazo<br />

con una probabilidad proporcional al numero <strong>de</strong> cartas que quedan sin mezclar en<br />

cada grupo. Si el proceso se realiza 7 veces todas las posibles permutaciones <strong>de</strong> las 52<br />

cartas serán aproximadamente igualmente probables. Si el proceso se realiza 5 veces<br />

el mazo no estará suficientemente barajado y se podrá reconocer ciertos patrones<br />

<strong>de</strong>l or<strong>de</strong>n original. Este proceso es una ca<strong>de</strong>na <strong>de</strong> Markov cuyos estados son las<br />

permutaciones <strong>de</strong> {1, . . . , 52} y cuya ley estacionaria es una distribución uniforme.<br />

El hecho que barajar 5 veces el mazo no es suficiente y que hacerlo 7 veces si lo<br />

es, es la característica <strong>de</strong>l fenómeno <strong>de</strong> convergencia abrupta: <strong>Cutoff</strong>. En general<br />

tendremos que <strong>para</strong> un mazo <strong>de</strong> n cartas se necesita barajar al menos 3 log 2 n/2 veces<br />

<strong>para</strong> obtener un mazo bien mezclado. Este comportamiento se ha observado no solo<br />

en esta ca<strong>de</strong>na, sino que en varios otros <strong>procesos</strong> <strong>de</strong> Markov ver, por ejemplo, los<br />

trabajos [16, 54, 42, 63, 55, 49]. Una completa revisión <strong>de</strong> <strong>Cutoff</strong> en paseos aleatorios<br />

en grupos es realizada por Saloff-Coste en [56]. En particular se pue<strong>de</strong> encontrar la<br />

<strong>de</strong>scripción formal <strong>de</strong> diferentes mo<strong>de</strong>los <strong>para</strong> barajar cartas.<br />

38


3.1.2. Definición y un poco <strong>de</strong> historia<br />

La <strong>de</strong>finición clásica <strong>de</strong> <strong>Cutoff</strong> esta ligada a la distancia en VT ( ecua-<br />

ción 2.1). Diremos que un fenómeno <strong>de</strong> <strong>Cutoff</strong> ocurre cuando antes <strong>de</strong> cierto “tiempo<br />

<strong>de</strong> <strong>Cutoff</strong>” la ca<strong>de</strong>na esta lejos <strong>de</strong>l equilibrio, es <strong>de</strong>cir que la distancia en VT entre<br />

la ley <strong>de</strong>l proceso al tiempo t y la medida <strong>de</strong> equilibrio es cercana a 1 y <strong>de</strong>spués <strong>de</strong><br />

este instante la distancia <strong>de</strong>cae exponencialmente a 0. Aparte <strong>de</strong> la distancia en VT<br />

existen otras distancias <strong>para</strong> caracterizar la convergencia, en el Capítulo 2 revisamos<br />

aquellas que son relevantes <strong>para</strong> este trabajo. Utilizaremos la siguiente <strong>de</strong>finición<br />

<strong>de</strong> <strong>Cutoff</strong> la cual es in<strong>de</strong>pendiente <strong>de</strong> la distancia utilizada entre distribuciones <strong>de</strong><br />

probabilidad.<br />

Definición 3.1.1. Para cada n ≥ 0, sea E (n) un espacio medible, sea X (n) =<br />

{X (n) (t) ; t ≥ 0} un proceso estocástico en E (n) , convergente en distribución a una<br />

distribución ley <strong>de</strong> probabilidad ν (n) . Sea d una distancia entre distribuciones <strong>de</strong> pro-<br />

babilidad. Para t ≥ 0, sea d (n) (t) la distancia entre la distribución <strong>de</strong> X (n) (t) y ν (n) :<br />

d (n) (t) = d(LX (n) (t), ν (n) ) .<br />

Sea (tn) una sucesión <strong>de</strong> reales positivos. Se dirá que la sucesión <strong>de</strong> <strong>procesos</strong> (X (n) )<br />

tiene un <strong>Cutoff</strong> al tiempo (tn) en el sentido <strong>de</strong> la distancia d si <strong>para</strong> c > 0:<br />

c < 1 =⇒ lím<br />

n→∞ d (n) (ctn) = M ,<br />

c > 1 =⇒ lím<br />

n→∞ d (n) (ctn) = 0 ,<br />

don<strong>de</strong> M es el máximo valor que pue<strong>de</strong> tomar la distancia escogida.<br />

39


La <strong>de</strong>finición clásica se diferencia <strong>de</strong> esta en que utiliza la distancia en<br />

VT y el por en<strong>de</strong> <strong>de</strong>be ser igual a 1. Nuestra <strong>de</strong>finición no es el primer intento por<br />

exten<strong>de</strong>r la <strong>de</strong>finición <strong>de</strong> <strong>Cutoff</strong> a otras distancias, Saloff-Coste en [56] introduce la<br />

noción <strong>de</strong> L p -cutoff. En el mismo artículo, el autor introduce la noción <strong>de</strong> Precutoff<br />

como un medio <strong>para</strong> capturar el or<strong>de</strong>n <strong>de</strong> magnitud <strong>de</strong> un posible <strong>Cutoff</strong>.<br />

Casos particulares <strong>de</strong> los Teoremas 3.3.1 y 3.3.4 se pue<strong>de</strong>n encontrar<br />

en la literatura. Uno <strong>de</strong> los primeros ejemplos <strong>de</strong> <strong>Cutoff</strong> fue estudiado por Diaconis<br />

y Shahshahani en [18] y por Diaconis et al. en [17] <strong>para</strong> los paseos aleatorios en el<br />

hipercubo. Como lo hizo notar Ycart en [63] p. 91, ese paseo aleatorio pue<strong>de</strong> inter-<br />

pretarse como una versión a tiempo discreto <strong>de</strong> una n-tupla <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> Markov<br />

Binarias i.i.d. a tiempo continuo. El caso más general <strong>de</strong> n-tuplas <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> Mar-<br />

kov reversibles i.i.d. en espacios <strong>de</strong> estados finitos fue estudiado por Ycart en [63] y<br />

sus aplicaciones a tiempos <strong>de</strong> <strong>para</strong>da <strong>para</strong> métodos MCMC fueron <strong>de</strong>scritas por el<br />

mismo autor en [64]. Bon y Păltănea consi<strong>de</strong>ran en [12] el caso <strong>de</strong> <strong>procesos</strong> <strong>de</strong> Markov<br />

Binarios a tiempo continuo e in<strong>de</strong>pendientes, pero no necesariamente idénticamente<br />

distribuidos, en el contexto <strong>de</strong> teoría <strong>de</strong> la fiabilidad. Las <strong>de</strong>mostraciones originales<br />

<strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> el paseo aleatorio en [18] y [17], así como <strong>para</strong> n-tuplas <strong>de</strong> <strong>procesos</strong><br />

<strong>de</strong> Markov reversibles en [63], se basan en el análisis espectral <strong>de</strong> la matriz <strong>de</strong> tran-<br />

sición. En este trabajo <strong>de</strong>cidimos abordar el problema relacionando el fenómeno <strong>de</strong><br />

<strong>Cutoff</strong> al modo en que las distancias dan cuenta <strong>de</strong> la concentración <strong>de</strong> las medidas<br />

producto. Una com<strong>para</strong>ción en el uso <strong>de</strong> las diferentes distancias <strong>para</strong> medir <strong>Cutoff</strong>s<br />

<strong>de</strong> paseos aleatorios pue<strong>de</strong> encontrarse en [58].<br />

40


3.2. Procesos exponencialmente convergentes<br />

Primero precisaremos la noción <strong>de</strong> convergencia exponencial que usa-<br />

remos y veremos como se relaciona con otras <strong>de</strong>finiciones.<br />

Si d es una distancia entre distribuciones <strong>de</strong> probabilidad, llamaremos<br />

d(t) a la distancia entre un proceso X al tiempo t y su limite ν.<br />

d(t) = d(LX(t), ν) .<br />

Para asegurarnos que la distancia <strong>de</strong> χ 2 está bien <strong>de</strong>finida asumiremos <strong>de</strong> ahora en<br />

a<strong>de</strong>lante que LX(t) es absolutamente continua con respecto a ν <strong>para</strong> todo t > 0.<br />

Definición 3.2.1. Sea X = {X(t) ; t ≥ 0} un proceso estocástico, ν una distribución<br />

<strong>de</strong> probabilidad y ρ un real positivo. Diremos que el proceso X converge a ν a tasa<br />

exponencial ρ según la distancia d si<br />

log d(t)<br />

lím<br />

t→+∞ t<br />

= −ρ . (3.1)<br />

Esta <strong>de</strong>finición es coherente con la usualmente utilizada <strong>para</strong> la tasa<br />

<strong>de</strong> convergencia exponencial, por ejemplo <strong>para</strong> los <strong>procesos</strong> <strong>de</strong> nacimiento y muerte<br />

(ver e.g. [61]). A veces se entien<strong>de</strong> por comportamiento exponencial a convergencias<br />

<strong>de</strong>l tipo d(t) ∼ Re −ρt . Po<strong>de</strong>mos <strong>de</strong>cir que nuestra <strong>de</strong>finición es más general en el<br />

sentido en que toma en cuenta aquellos <strong>procesos</strong> <strong>para</strong> los cuales la distancia <strong>de</strong>cae<br />

como d(t) ∼ R(t)e −ρt , don<strong>de</strong> R(t) tiene un crecimiento subexponencial.<br />

Las diferentes <strong>de</strong>sigualda<strong>de</strong>s <strong>de</strong> la Proposición 2.2.2 llevan a implica-<br />

41


ciones obvias entre la convergencia exponencial en una u otra distancia. En general,<br />

estas implicaciones no son equivalencias. Los casos <strong>de</strong> las distancias en VT y <strong>de</strong> χ 2<br />

han sido ampliamente estudiados en el contexto <strong>de</strong> <strong>procesos</strong> <strong>de</strong> Markov. Sin embargo,<br />

las <strong>de</strong>finiciones clásicas difieren <strong>de</strong> la Definición 3.2.1. Las <strong>de</strong>finiciones <strong>de</strong> Ergodicidad<br />

exponencial y <strong>de</strong> L 2 -ergodicidad exponencial que siguen fueron tomadas <strong>de</strong> [14] (ver<br />

Cap. 4 pág. 144 <strong>para</strong> Ergodicidad exponencial y Cap. 9 p. 311 <strong>para</strong> L 2 -Ergodicidad<br />

exponencial).<br />

Definición 3.2.2. Con la notación anterior, X es exponencialmente ergódico si<br />

existe dos constantes positivas R y ρ tales que <strong>para</strong> t > 0,<br />

dT V (t) ≤ Re −ρt .<br />

Definición 3.2.3. Sea X un proceso <strong>de</strong> Markov y {P (t) , t ≥ 0} su semigrupo. El<br />

proceso X tiene una L 2 -convergencia exponencial si existe un real positivo ρ, tal que<br />

<strong>para</strong> todo f en L 2 (ν)<br />

<strong>para</strong> una constante positiva Rf.<br />

P (t)f − ν(f) L 2 (ν) ≤ Rfe −ρt ,<br />

Precisemos como se relaciona la <strong>de</strong>finición <strong>de</strong> L 2 -convergencia expo-<br />

nencial a nuestra <strong>de</strong>finición <strong>de</strong> convergencia exponencial en el sentido <strong>de</strong> la distancia<br />

<strong>de</strong> χ 2 . Asumamos que ν es reversible con respecto a la acción <strong>de</strong>l semigrupo. Luego<br />

la acción <strong>de</strong> P (t) en una medida con signo µ en L 2 (ν) es equivalente a la acción <strong>de</strong><br />

P (t) en f en L 2 (ν). Más aún, sea µ la distribución <strong>de</strong> X(0) y f = dµ<br />

dν<br />

t > 0,<br />

d χ 2(t) = P (t)f − ν(f) L 2 (ν) .<br />

luego <strong>para</strong> todo<br />

42


La com<strong>para</strong>ción entre convergencia exponencial y L 2 (ν)-convergencia exponencial<br />

ha sido investigada por varios autores entre ellos Rosenthal, Roberts y Tweedie en<br />

[52] y [53]. En el Teorema 2.1 <strong>de</strong> [52] y Teorema 2 <strong>de</strong> [53] los autores <strong>de</strong>muestran<br />

que las dos nociones son equivalentes <strong>para</strong> una ca<strong>de</strong>na <strong>de</strong> Markov ergódica a tiempo<br />

discreto, si la medida invariante ν es reversible y si el espacio <strong>de</strong> estados ha sido<br />

proveído <strong>de</strong> una σ-álgebra generada <strong>de</strong> manera numerable. En [13] Chen extien<strong>de</strong> los<br />

resultados <strong>para</strong> ca<strong>de</strong>nas <strong>de</strong> Markov en tiempo continuo. Si el espacio <strong>de</strong> estados es<br />

numerable, el autor reemplaza la reversibilidad por una condición más débil. Como<br />

es sugerido por todos estos autores, el rol <strong>de</strong> la reversibilidad en esos resultados sería<br />

esencialmente técnico.<br />

Al menos en el caso markoviano, cuando el proceso converge a tasa<br />

exponencial <strong>para</strong> una <strong>de</strong> las cuatro distancias consi<strong>de</strong>radas aquí, pensamos que es<br />

razonable esperar que convergerá a la misma tasa exponencial <strong>para</strong> las otras tres<br />

distancias. Este es evi<strong>de</strong>ntemente el caso <strong>para</strong> una ca<strong>de</strong>na <strong>de</strong> Markov irreducible<br />

(a tiempo continuo) en un espacio <strong>de</strong> estados finito, don<strong>de</strong> la tasa <strong>de</strong> convergencia<br />

común ρ será el gap, i.e. el más pequeño en valor absoluto <strong>de</strong> los valores propios no<br />

nulos <strong>de</strong>l generador infinitesimal (ver e.g. Sección 2.1 en [41]). También es el caso <strong>para</strong><br />

el proceso <strong>de</strong> nacimiento y muerte M/M/∞ y <strong>para</strong> el proceso <strong>de</strong> Ornstein-Uhlenbeck<br />

(ver Sección 3.4).<br />

Sea (Xi) una sucesión <strong>de</strong> <strong>procesos</strong> in<strong>de</strong>pendientes exponencialmente<br />

convergentes. Notemos por di(t) la distancia al equilibrio <strong>de</strong> la i-ésima coor<strong>de</strong>nada al<br />

tiempo t. Asumiremos que todos los <strong>procesos</strong> son in<strong>de</strong>pendientes entre si. Consi<strong>de</strong>re-<br />

mos la n-tupla X (n) = (X1, . . . , Xn), y notemos por d (n) (t) su distancia al equilibrio<br />

al tiempo t. Como ya se comentó en la Proposición 2.3.1, cualquiera sea la distancia<br />

43


que se está consi<strong>de</strong>rando, d (n) (t) se comporta esencialmente como n<br />

i=1 d2 i (t). El si-<br />

guiente lema técnico relaciona esta sumatoria a la tasa <strong>de</strong> convergencia exponencial,<br />

y será la clave <strong>para</strong> obtener el Teorema 3.3.1.<br />

Lema 3.2.4. [6] Para i = 1, 2, . . ., sea di una función positiva <strong>de</strong>finida en R + , y ρi<br />

un real positivo. Para n ≥ 1, notemos por ρ(1,n), . . . , ρ(n,n) los valores <strong>de</strong> ρ1, . . . , ρn<br />

or<strong>de</strong>nados <strong>de</strong> manera creciente, y llamemos τn al siguiente real:<br />

<br />

log i<br />

τn = máx , i = 1, . . . , n<br />

ρ(i,n)<br />

Asumamos que se satisfacen la siguientes hipótesis.<br />

. (3.2)<br />

1. Existe una función <strong>de</strong>creciente positiva g, convergente a 0 cuando t tien<strong>de</strong> a<br />

2.<br />

infinito, y un real positivo t0 tal que <strong>para</strong> todo t ≥ t0 y <strong>para</strong> todo i ≥ 1,<br />

3. Para cualquier real positivo c,<br />

<br />

<br />

<br />

log di(t)<br />

t<br />

+ ρi<br />

<br />

<br />

<br />

≤ g(t) . (3.3)<br />

lím<br />

n→∞ ρ(1,n) τn = +∞ . (3.4)<br />

g(cτn)<br />

lím<br />

n→∞ ρ(1,n)<br />

= 0 . (3.5)<br />

Luego <strong>para</strong> cualquier entero positivo k, cualquier real positivo c y cualquier secuencia<br />

44


(τ ′ n) tal que lím τ ′ n/τn = 1,<br />

c < 1 =⇒ lím<br />

n→∞<br />

c > 1 =⇒ lím<br />

n→∞<br />

n<br />

i=1<br />

n<br />

i=1<br />

di<br />

di<br />

<br />

c τ ′ n<br />

k<br />

<br />

c τ ′ n<br />

k<br />

k<br />

k<br />

= +∞ ,<br />

= 0 .<br />

De las tres hipótesis, la primera es obviamente la más importante. Nos<br />

dice que no basta con que los di(t) converjan a cero a tasa exponencial ρi, sino que<br />

a<strong>de</strong>más lo <strong>de</strong>ben hacer con cierta uniformidad en i. Las otras hipótesis no son difíciles<br />

<strong>de</strong> satisfacer.<br />

Observación 3.2.5. La segunda y tercera hipótesis involucran ρ(1,n), el cual se <strong>de</strong>fine<br />

como el mínimo entre ρ1, . . . , ρn. Si la sucesión (ρi) no diverge a +∞, ρ(1,n) estará<br />

acotado y por en<strong>de</strong> τn ten<strong>de</strong>rá a infinito luego la primera hipótesis será satisfecha.<br />

Si (ρi) esta acotado inferiormente por un valor mayor estricto que 0 y no diverge<br />

a infinito, luego ambas hipótesis (3.4) y (3.5) son satisfechas. Sin embargo, pue<strong>de</strong><br />

ocurrir que una subsucesión <strong>de</strong> (ρi) tienda a 0 en ese caso es posible que (τn) tienda<br />

a +∞, y g(cτn) tien<strong>de</strong> a 0 suficientemente rápido <strong>de</strong> modo que todavía se pue<strong>de</strong>n<br />

satisfacer las hipótesis <strong>para</strong> tener <strong>Cutoff</strong>.<br />

Demostración: Demostraremos primero el resultado <strong>para</strong> τn. Llamemos<br />

gi(t) =<br />

log di(t)<br />

t<br />

+ ρi .<br />

45


Luego:<br />

n<br />

i=1<br />

di<br />

<br />

c τn<br />

k<br />

k<br />

=<br />

n <br />

<br />

exp −ρicτn + cτngi c τn<br />

<br />

.<br />

k<br />

Utilizando (3.3), los valores gi están uniformemente acotados:<br />

i=1<br />

Entonces <strong>para</strong> n suficientemente gran<strong>de</strong>:<br />

con<br />

<br />

Sn exp −cτng c τn<br />

<br />

≤<br />

k<br />

Sn =<br />

∀t ≥ t0, ∀i , |gi(t)| ≤ g(t) .<br />

n<br />

i=1<br />

di<br />

<br />

n<br />

exp(−ρicτn) =<br />

i=1<br />

c τn<br />

k<br />

k<br />

<br />

≤ Sn exp cτng c τn<br />

<br />

,<br />

k<br />

n<br />

exp(−ρ(i,n)cτn) .<br />

i=1<br />

Primero <strong>de</strong>mostraremos la cota superior, <strong>para</strong> c > 1. Observemos<br />

que <strong>para</strong> todo i = 1, . . . , n, exp(−ρ(i,n)cτn) ≤ i −c , pues τn ≥<br />

l = 1, . . . , n − 1, se pue<strong>de</strong> escribir:<br />

Sn ≤ le −ρ (1,n)cτn +<br />

≤ le −ρ (1,n)cτn +<br />

n<br />

i=l+1<br />

n<br />

= le −ρ (1,n)cτn + 1<br />

c − 1<br />

l<br />

i −c<br />

x −c dx<br />

l −(c−1) − n −(c−1) .<br />

log i<br />

ρ (i,n) . Para todo<br />

Esta <strong>de</strong>sigualdad también es válida <strong>para</strong> l = n. Definamos ln = ⌊e ρ (1,n)τn ⌋, don<strong>de</strong> ⌊·⌋<br />

<strong>de</strong>nota la parte integral; tenemos que ln es menor o igual a n, como consecuencia <strong>de</strong><br />

46


la <strong>de</strong>finición <strong>de</strong> τn. Tenemos:<br />

Entonces:<br />

n<br />

i=1<br />

di<br />

<br />

c τn<br />

k<br />

Sn ≤ lne −ρ l<br />

(1,n)cτn + −(c−1)<br />

n<br />

c − 1<br />

k<br />

≤ e −ρ (1,n)(c−1)τn<br />

=<br />

≤ e −ρ (e<br />

(1,n)(c−1)τn + ρ (1,n)τn −(c−1) − 1)<br />

c − 1<br />

= e −ρ (1,n)(c−1)τn<br />

<br />

1 + (1 − e−ρ (1,n)τn ) −(c−1)<br />

<br />

1 + (1 − e−ρ (1,n)τn ) −(c−1)<br />

c − 1<br />

<br />

1 + (1 − e−ρ (1,n)τn ) −(c−1)<br />

c − 1<br />

c − 1<br />

<br />

exp<br />

<br />

−ρ(1,n)τn<br />

<br />

exp cτng<br />

<br />

c τn<br />

k<br />

<br />

(c − 1) − c<br />

.<br />

<br />

g( cτn<br />

k )<br />

ρ(1,n)<br />

el cual tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito, usando las hipótesis (3.4) y (3.5).<br />

Demostremos ahora la cota inferior <strong>para</strong> 0 < c < 1. Para cada n,<br />

escogemos i ∗ n tal que τn = log i ∗ n/ρ(i ∗ n,n), i.e. i ∗ n = exp(τnρ(i ∗ n,n)) ≥ exp(τnρ(1,n)). Se<br />

obtiene:<br />

Sn ≥<br />

i ∗ n<br />

exp(−cρ(i,n)τn)<br />

i=1<br />

≥ exp((1 − c)ρ(i∗ n ,n)τn)<br />

≥ exp((1 − c)ρ(1,n)τn) .<br />

<br />

,<br />

47


Luego:<br />

n<br />

i=1<br />

di<br />

<br />

c τn<br />

k<br />

k<br />

<br />

≥ exp ρ(1,n)τn (1 − c) − c<br />

g( cτn<br />

k )<br />

ρ(1,n)<br />

<br />

el cual tien<strong>de</strong> a +∞ cuando n tien<strong>de</strong> a infinito, usando (3.4) y (3.5).<br />

Consi<strong>de</strong>remos ahora otra sucesión (τ ′ n), equivalente a (τn). La nueva<br />

suma pue<strong>de</strong> ser acotada como antes por:<br />

con<br />

S ′ <br />

n exp −cτ ′ <br />

ng c τ ′ <br />

n<br />

≤<br />

k<br />

S ′ n =<br />

n<br />

i=1<br />

di<br />

<br />

c τ ′ k n<br />

≤ S<br />

k<br />

′ <br />

n exp cτ ′ <br />

ng c τ ′ <br />

n<br />

k<br />

n<br />

exp(−ρicτ ′ n) .<br />

i=1<br />

Veamos el caso <strong>de</strong> la cota superior. Fijemos c ′ < 1 tal que cc ′ > 1. Para n suficien-<br />

temente gran<strong>de</strong>, c ′ ≤ τ ′ n/τn ≤ 1/c ′ . Entonces tenemos que:<br />

y<br />

S ′ n ≤<br />

n<br />

exp(−ρicc ′ τn) ,<br />

i=1<br />

<br />

exp cτ ′ <br />

ng c τ ′ <br />

n<br />

≤ exp (c/c<br />

k<br />

′ <br />

)τng cc<br />

pues g es <strong>de</strong>creciente. La cota superior <strong>de</strong> Sn se pue<strong>de</strong> aplicar a S ′ n, reemplazando c<br />

por cc ′ . Se obtiene:<br />

n<br />

i=1<br />

di<br />

<br />

c τ ′ k n<br />

k<br />

≤ e −ρ (1,n)(cc ′ −1)τn<br />

=<br />

<br />

1 + (1 − e−ρ (1,n)τn ) −(cc ′ −1)<br />

cc ′ − 1<br />

<br />

1 + (1 − e−ρ (1,n)τn ) −(cc ′ −1)<br />

cc ′ − 1<br />

<br />

exp<br />

<br />

−ρ(1,n)τn<br />

′ τn<br />

k<br />

<br />

<br />

exp (c/c ′ <br />

)τng cc<br />

<br />

,<br />

,<br />

′ τn<br />

k<br />

<br />

(cc ′ − 1) − (c/c ′ ) g( cc′ τn<br />

k )<br />

ρ(1,n)<br />

,<br />

<br />

,<br />

48


el cual tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito. Para la cota inferior, la <strong>de</strong>mostración<br />

es análoga y será omitida. <br />

3.3. Tiempos <strong>de</strong> <strong>Cutoff</strong><br />

Sea (Xi)i∈N una secuencia <strong>de</strong> <strong>procesos</strong> in<strong>de</strong>pendientes, cada uno conver-<br />

giendo a tasa exponencial a su distribución estacionaria <strong>de</strong> acuerdo a una distancia<br />

d (Definición 3.2.1). Notemos por di(t) la distancia al equilibrio <strong>de</strong> Xi al tiempo t<br />

y por ρi la tasa exponencial <strong>de</strong> convergencia. Para n ≥ 1, consi<strong>de</strong>remos la n-tupla<br />

X (n) = (X1, . . . , Xn). En vista <strong>de</strong> la Proposición 2.3.1 y <strong>de</strong>l Lema 3.2.4, es natural<br />

<strong>para</strong> la secuencia (X (n) ) tener una tiempo <strong>de</strong> <strong>Cutoff</strong> en τn/2, cuando τn está <strong>de</strong>finida<br />

por (3.2). Primero lo probaremos, y luego lo ilustraremos en el caso particular <strong>de</strong><br />

<strong>procesos</strong> binarios. A<strong>de</strong>más presentaremos otros tiempos <strong>de</strong> <strong>Cutoff</strong>. Finalmente, <strong>para</strong><br />

el caso i.i.d. se darán resultados más precisos.<br />

Teorema 3.3.1. [6]<br />

1. Sea d la distancia <strong>de</strong> H, <strong>de</strong> χ 2 o <strong>de</strong> K. Suponemos que di(t) y ρi satisfacen las<br />

hipótesis (3.3), (3.4) y (3.5) <strong>de</strong>l Lema 3.2.4. Entonces la sucesión <strong>de</strong> <strong>procesos</strong><br />

(X (n) ) tiene un <strong>Cutoff</strong> <strong>de</strong> acuerdo a la distancia d al tiempo<br />

<br />

log i<br />

tn = máx , i = 1, . . . , n<br />

2ρ(i,n)<br />

, (3.6)<br />

don<strong>de</strong> ρ(1,n), . . . , ρ(n,n) son los valores ρ1, . . . , ρn or<strong>de</strong>nados <strong>de</strong> manera creciente.<br />

49


2. Si hay un <strong>Cutoff</strong> al tiempo tn <strong>para</strong> la distancia <strong>de</strong> H entonces hay <strong>Cutoff</strong> al<br />

mismo instante <strong>para</strong> la distancia en VT.<br />

3. Suponiendo que cada proceso Xi tiene la misma tasa <strong>de</strong> convergencia exponen-<br />

cial <strong>para</strong> la distancia en VT y la distancia <strong>de</strong> χ 2 o bien la <strong>de</strong> K. Entonces hay<br />

<strong>Cutoff</strong> al tiempo tn <strong>de</strong> acuerdo a la distancia en VT si (3.3), (3.4) y (3.5) se<br />

satisfacen <strong>para</strong> ambas distancias.<br />

Demostración: Usando el Lema 3.2.4, la suma n<br />

i=1 d2 i (ctn) tien<strong>de</strong> a +∞ <strong>para</strong> 0 <<br />

c < 1, a 0 <strong>para</strong> c > 1. El resultado se obtiene <strong>para</strong> la distancia H, χ 2 y K usando<br />

(2.3), (2.4) y (2.5) <strong>de</strong> la Proposición 2.3.1. Si d es la distancia VT, y las hipótesis <strong>de</strong>l<br />

Lema 3.2.4 se satisfacen, entonces <strong>de</strong> (2.2), sólo po<strong>de</strong>mos <strong>de</strong>ducir que la distancia al<br />

equilibrio al tiempo ctn tien<strong>de</strong> a 1 <strong>para</strong> 0 < c < 1, a 0 <strong>para</strong> c > 2. Pero <strong>de</strong> las dos<br />

primeras <strong>de</strong>sigualda<strong>de</strong>s <strong>de</strong> la Proposición 2.2.2, si un <strong>Cutoff</strong> ocurre <strong>para</strong> la distancia<br />

<strong>de</strong> Hellinger, entonces también ocurre <strong>para</strong> la distancia en VT. Asumiendo que el<br />

Lema 3.2.4 se pue<strong>de</strong> aplicar a las distancias <strong>de</strong> VT y χ 2 , con las mismas tasas <strong>de</strong><br />

convergencia {ρi}, entonces <strong>para</strong> 0 < c < 1 la distancia en VT al equilibrio tien<strong>de</strong> a<br />

1 al tiempo ctn, usando la cota inferior <strong>de</strong> (2.2). Tien<strong>de</strong> a 0 <strong>para</strong> c > 1, usando la<br />

tercera <strong>de</strong>sigualdad <strong>de</strong> la Proposición 2.2.2. El mismo argumento se pue<strong>de</strong> aplicar si<br />

uno utiliza la distancia <strong>de</strong> K en vez <strong>de</strong> la distancia χ 2 , usando la cuarta <strong>de</strong>sigualdad<br />

<strong>de</strong> la Proposición 2.2.2. <br />

Observemos que las conclusiones <strong>de</strong>l teorema 3.3.1 se satisfacen si tn es reemplazada<br />

por t ′ n cuando lím t ′ n/tn = 1: esta conclusión se obtiene directamente <strong>de</strong>l Lema 3.2.4.<br />

Para ilustrar el Teorema 3.3.1, consi<strong>de</strong>remos la sucesión <strong>de</strong> <strong>procesos</strong> <strong>de</strong><br />

Markov <strong>de</strong> salto binarios in<strong>de</strong>pendientes. Para i ≥ 1, sean αi y ρi dos reales positivos<br />

50


tales que 0 < αi < ρi. El proceso Xi toma sus valores en {0, 1}. Salta <strong>de</strong> 0 a 1 con<br />

tasa αi y <strong>de</strong> 1 a 0 con tasa ρi − αi. Sabemos que la distribución <strong>de</strong> Xi(t) partiendo<br />

<strong>de</strong> 0 al tiempo 0 es una Bernoulli (ver e.g. Sección 7.5 en [10]) <strong>de</strong> parámetro:<br />

pi(t) = αi −ρit<br />

1 − e .<br />

ρi<br />

La distancia entre la ley <strong>de</strong> Xi(t) y la medida estacionaria esta dada por (ver Ob-<br />

servación 2.4.2):<br />

Variación total: di(t) = αi<br />

ρi e−ρit<br />

Hellinger: di(t) = αi<br />

Chi-cuadrada: di(t) =<br />

Kullback: di(t) =<br />

8(ρi−αi) e−ρit (1 + o(1))<br />

<br />

αi<br />

ρi−αi e−ρit<br />

<br />

αi<br />

2ρi−αi e−ρit (1 + o(1)) .<br />

Por ejemplo tomemos αi = ρi/2. Luego la hipótesis (3.3) <strong>de</strong> convergencia uniforme es<br />

trivialmente satisfecha, puesto que log (di(t)/t)+ρi pue<strong>de</strong> ser acotada por g(t) = K/t,<br />

escogiendo una constante K apropiada. Luego g(cτn)/ρ(1,n) = K/(cτnρ(1,n)) y las<br />

hipótesis (3.4) y (3.5) son equivalentes. El hecho que las hipótesis sean o no satisfechas<br />

solo <strong>de</strong>pen<strong>de</strong> en la sucesión (ρi). Como ya hicimos notar, si 0 < lím inf ρi < +∞,<br />

entonces τn tien<strong>de</strong> a infinito y ρ(1,n) estará acotado lejos 0, entonces po<strong>de</strong>mos aplicar<br />

el Teorema 3.3.1. Si ambos ρi y log i/ρi son crecientes y tien<strong>de</strong>n a infinito (e.g.<br />

ρi = log(log(i + 2))) luego tn = log n/(2ρn) es un tiempo <strong>de</strong> <strong>Cutoff</strong>. La sucesión (ρi)<br />

también pue<strong>de</strong> ten<strong>de</strong>r a 0. Por ejemplo, tomemos ρi = 1/ log(i + 1): nuevamente<br />

po<strong>de</strong>mos aplicar el Teorema 3.3.1; en este caso el tiempo <strong>de</strong> <strong>Cutoff</strong> tn es equivalente<br />

a (log(n)) 2 /2.<br />

Si se tiene (3.3) y si las tasas <strong>de</strong> convergencia ρi convergen a ρ > 0, luego se pue<strong>de</strong><br />

51


aplicar el Teorema 3.3.1. Como veremos más a<strong>de</strong>lante, el tiempo <strong>de</strong> <strong>Cutoff</strong> tn es<br />

equivalente a log n/(2ρ), como si todas las tasas fueran iguales a ρ. Es natural buscar<br />

una condición más general bajo la cual log n/(2ρ) es un tiempo <strong>de</strong> <strong>Cutoff</strong>. En el caso<br />

<strong>de</strong> <strong>procesos</strong> binarios, Bon y Păltănea [12] proponen condiciones suficientes <strong>para</strong> que<br />

el <strong>Cutoff</strong> ocurra al tiempo log n/(2 lím inf ρi). Su resultado pue<strong>de</strong> verse como caso<br />

particular <strong>de</strong>l Teorema 3.3.1 y <strong>de</strong> la Proposición 3.3.2 que sigue.<br />

Proposición 3.3.2. [6] Para cualquier ρ positivo, notemos por N(ρ, n) el número<br />

<strong>de</strong> tasas menores o iguales que ρ entre ρ1, . . . , ρn:<br />

N(ρ, n) =<br />

n<br />

I[0,ρ](ρi) ,<br />

i=1<br />

don<strong>de</strong> IA es la función indicatriz sobre el conjunto A. Para n ≥ 1, <strong>de</strong>finimos ρ ∗ n<br />

como:<br />

ρ ∗ <br />

ρi log n<br />

n = mín<br />

; i = 1, . . . , n<br />

log N(ρi, n)<br />

con 1/ log(1) = +∞. El tiempo <strong>de</strong> <strong>Cutoff</strong> tn <strong>de</strong>finido en (3.6) es asintóticamente<br />

equivalente a t ′ n = log n/(2ρ) si y sólo si la sucesión (ρ ∗ n) converge a ρ > 0.<br />

Demostración: Observemos que tn pue<strong>de</strong> expresarse en función <strong>de</strong> N(ρi, n) <strong>de</strong>l si-<br />

guiente modo:<br />

<br />

log i<br />

log N(ρi, n)<br />

tn = máx ; i = 1, . . . , n = máx<br />

; i = 1, . . . , n<br />

2ρ(i,n)<br />

2ρi<br />

,<br />

.<br />

52


El cuociente t ′ n/tn tien<strong>de</strong> a 1 cuando n tien<strong>de</strong> a infinito si y sólo si<br />

log n<br />

ρ = lím<br />

n→∞ 2tn<br />

= lím<br />

n→∞<br />

= lím<br />

n→∞ mín<br />

log n<br />

<br />

log N(ρi,n)<br />

máx ρi<br />

<br />

; i = 1, . . . , n<br />

<br />

ρi log n<br />

; i = 1, . . . , n .<br />

log N(ρi, n)<br />

La Proposición 3.3.2 se pue<strong>de</strong> enten<strong>de</strong>r <strong>de</strong>l siguiente modo. Para ρ > 0, N(ρ, n) es el<br />

número <strong>de</strong> coor<strong>de</strong>nadas <strong>de</strong> la n-tupla que convergen más lentamente que e −ρt . Si este<br />

número es <strong>de</strong> un tamaño importante (en el sentido que log n/ log N(ρ, n) esté acotado,<br />

entonces la subtupla <strong>de</strong> coor<strong>de</strong>nadas correspondientes convergerán solo <strong>de</strong>spués <strong>de</strong>l<br />

instante log N(ρ, n)/(2ρ). Este será el tiempo <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> la n-tupla completa<br />

si es el mayor <strong>de</strong> los tiempos <strong>de</strong> convergencia <strong>de</strong> todas las subtuplas <strong>de</strong> tamaño<br />

importante. Pensamos que es interesante ilustrar la i<strong>de</strong>a <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> subtuplas<br />

<strong>para</strong> un caso más general. En la proposición que sigue a continuación tratamos el<br />

caso don<strong>de</strong> la sucesión (ρi) tiene un número finito <strong>de</strong> puntos <strong>de</strong> acumulación.<br />

Proposición 3.3.3. [6] Sea A un entero fijo. Para a = 1, . . . , A, sea k ↦→ ϕa(k)<br />

una función a valores enteros creciente. Notemos por ma(n) el número <strong>de</strong> valores <strong>de</strong><br />

ϕa(k) entre 1 y n:<br />

ma(n) = <br />

I[1,n](ϕa(k)) .<br />

k<br />

Asumamos que m1(n) + · · · + mA(n) = n y que los ϕa(k) son diferentes dos a dos.<br />

Aún más asumamos que <strong>para</strong> a = 1, . . . , A, la subsucesión (ρϕa(k)) converge a ϱa > 0.<br />

<br />

53


notemos por sn el siguiente real:<br />

<br />

log ma(n)<br />

sn = máx<br />

; a = 1, . . . , A<br />

2ϱa<br />

con log 0 = −∞. Luego (sn) y (tn) (<strong>de</strong>finida en (3.6)) son asintóticamente equiva-<br />

lentes.<br />

Demostración: La hipótesis implica que cualquier valor ρi pertenece a solo una <strong>de</strong><br />

las subsucesiones (ρϕ1(n)), . . . , (ρϕA(n)). Sin perdida <strong>de</strong> generalidad, asumiremos que<br />

ϱ1, . . . , ϱA son todos distintos y que están or<strong>de</strong>nados <strong>de</strong> manera creciente. Para a =<br />

1, . . . , A, sea m ∗ a(n) = m1(n) + · · · + ma(n). Sea<br />

s ∗ <br />

∗ log m<br />

n = máx<br />

a(n)<br />

; a = 1, . . . , A<br />

2ϱa<br />

Primero probaremos que (tn) y (s ∗ n) son equivalentes. Usaremos la misma expresión<br />

<strong>de</strong> tn que usamos en la <strong>de</strong>mostración <strong>de</strong> la Proposición 3.3.2.<br />

tn =<br />

<br />

log N(ρi, n)<br />

máx<br />

; i = 1, . . . , n<br />

2ρi<br />

= máx<br />

a=1,...,A máx<br />

<br />

log N(ρϕa(k), n)<br />

; k = 1, . . . , ma(n) .<br />

2ρϕa(k)<br />

Fijemos ɛ > 0, suficientemente pequeño <strong>de</strong> modo que todos los intervalos (ϱa−ɛ , ϱa+<br />

ɛ) son disjuntos. Para i suficientemente gran<strong>de</strong> ρi ∈ (ϱa − ɛ , ϱa + ɛ) si i = ϕa(k).<br />

Entonces existe un entero K tal que <strong>para</strong> n suficientemente gran<strong>de</strong>,<br />

<br />

log N(ρϕa(k), n)<br />

máx<br />

; k = 1, . . . , ma(n) ≤<br />

2ρϕa(k)<br />

log(m∗ a(n) + K)<br />

2(ϱa − ɛ)<br />

,<br />

.<br />

. (3.7)<br />

54


Tomemos ahora n tal que ρϕa(ma(n)/2), . . . , ρϕa(ma(n)) son más pequeños que ϱa + ɛ, y<br />

consi<strong>de</strong>remos el mayor <strong>de</strong> entre estos ma(n)/2 valores. Entonces po<strong>de</strong>mos establecer<br />

que:<br />

<br />

log N(ρϕa(k), n)<br />

máx<br />

; k = 1, . . . , ma(n) ≥<br />

2ρϕa(k)<br />

log(m∗a−1(n) + ma(n)/2 − K ′ )<br />

,<br />

2(ϱa + ɛ)<br />

(3.8)<br />

<strong>para</strong> algún entero fijo K ′ . De las ecuaciones (3.7) y (3.8) se concluye que tn ∼ s ∗ n.<br />

Solo falta <strong>de</strong>mostrar que s ∗ n ∼ sn. Obviamente, sn ≤ s ∗ n. En la <strong>de</strong>finición<br />

<strong>de</strong> s ∗ n, el máximo es alcanzado <strong>para</strong> a = 1, o <strong>para</strong> algún a > 1 tal que:<br />

log m ∗ a(n)<br />

2ϱa<br />

≥ log m∗ a−1(n)<br />

2ϱa−1<br />

Si n es suficientemente gran<strong>de</strong>, esto implica:<br />

Por lo tanto:<br />

⇐⇒ log m∗ a(n)<br />

log m ∗ a−1(n)<br />

≥ ϱa<br />

ϱa−1<br />

log m ∗ a(n) > log m ∗ a−1(n) + log 2<br />

⇐⇒ m ∗ a(n) > 2m ∗ a−1(n)<br />

⇐⇒ ma(n) > m ∗ a−1(n)<br />

⇐⇒ 2ma(n) > m ∗ a(n) .<br />

s ∗ <br />

log(2ma(n))<br />

n ≤ máx<br />

; a = 1, . . . , A<br />

2ϱa<br />

,<br />

> 1 .<br />

<strong>de</strong> don<strong>de</strong> se concluye el resultado. <br />

La Proposición 3.3.3 se enten<strong>de</strong>r como sigue. Para A = 1, la sucesión <strong>de</strong> tasas<br />

converge a ϱ1, y el <strong>Cutoff</strong> ocurrirá como si todas las tasas fueran iguales a ϱ1. Para<br />

55


A > 1, la n-tupla que consi<strong>de</strong>ramos se compone <strong>de</strong> A subtuplas in<strong>de</strong>pendientes,<br />

con cardinalida<strong>de</strong>s m1(n), . . . , mA(n) respectivamente. La a-ésima subtupla tiene un<br />

<strong>Cutoff</strong> al tiempo log ma(n)/(2ϱa). El tiempo <strong>de</strong> <strong>Cutoff</strong> sn <strong>para</strong> la n-tupla completa<br />

es el último <strong>de</strong> estos tiempos. Esto pue<strong>de</strong> tener algunas consecuencias inesperadas.<br />

Por ejemplo tomemos A = 2 y ϕ1(k) = k 2 . Uno tiene m1(n) = ⌊ √ n⌋ y m2(n) =<br />

n − m1(n) ∼ n. Tomemos ϱ1 = 1 y ϱ2 = 3. El <strong>Cutoff</strong> <strong>para</strong> la n-tupla ocurre en<br />

el instante sn = log n/4, y no log n/2 o log n/6 como uno podría haber pensado<br />

originalmente.<br />

El caso particular don<strong>de</strong> todas las coor<strong>de</strong>nadas convergen a la misma<br />

tasa exponencial ρ, las condiciones <strong>para</strong> el <strong>Cutoff</strong> (3.4) y (3.5) son automáticamente<br />

satisfechas y la condición (3.3) sólo requiere que (log di(t)/t) converja uniformemente<br />

en i a −ρi. Esto se satisface automáticamente si di(t) es el mismo <strong>para</strong> todo i (en<br />

particular si las coor<strong>de</strong>nadas son <strong>procesos</strong> i.i.d.). Aun más asumiremos que di(t)<br />

converge exponencialmente en un sentido más estricto que el <strong>de</strong> la Definición 3.2.1:<br />

existen dos reales positivos R y ρ tales que <strong>para</strong> todo i,<br />

lím<br />

t→+∞ di(t)e ρt = R . (3.9)<br />

Bajo esta hipótesis, la Proposición 2.3.1 produce estimaciones más precisas <strong>de</strong> la<br />

distancia d (n) (t) <strong>para</strong> t alre<strong>de</strong>dor <strong>de</strong>l instante <strong>de</strong> <strong>Cutoff</strong>. El siguiente Teorema mues-<br />

tra estos resultados <strong>para</strong> las distancias <strong>de</strong> Hellinger, Chi-cuadrada y Kullback (las<br />

<strong>de</strong>mostraciones son sencillas y serán omitidas).<br />

Teorema 3.3.4. [6]<br />

56


1. Asumamos que d es la distancia Hellinger y que (3.9) se satisface.<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

<br />

+ u = 1 − exp<br />

2ρ −R 2 e −2ρu 1/2 2. Asumamos que d es la distancia Chi-cuadrado y que (3.9) se satisface.<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

<br />

+ u = exp<br />

2ρ R 2 e −2ρu 1/2 − 1<br />

3. Asumamos que d es la distancia Kullback y que (3.9) se satisface.<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

+ u = Re<br />

2ρ −ρu .<br />

Como ya observamos la distancia en VT es particular. Aun si asumimos<br />

que se tiene (3.9) <strong>para</strong> ambas distancias, VT y otra distancia, la Proposición 2.3.1<br />

no po<strong>de</strong>mos concluir que d (n) (log n/(2ρ) + u) converge. Sólo po<strong>de</strong>mos obtener cotas<br />

que se obtiene fácilmente <strong>de</strong> combinar Proposición 2.3.1 con la segunda relación <strong>de</strong><br />

la Proposición 2.2.2.<br />

Teorema 3.3.5. [6] Notemos por dT V,i(t) y dH,i(t) la distancias al equilibrio <strong>de</strong> la<br />

i-ésima componente, medidas en las distancias en Variación total y <strong>de</strong> Hellinger<br />

respectivamente. Asumamos que existen reales positivos RT V , RH y ρ tales que <strong>para</strong><br />

todo i,<br />

lím<br />

t→+∞ dT V,i(t)e ρt = RT V and lím<br />

t→+∞ dH,i(t)e ρt = RH .<br />

Notemos por d (n)<br />

T V (t) la distancia en VT al equilibrio <strong>de</strong> la n-tupla X(n) (t). Entonces<br />

.<br />

.<br />

57


se satisfacen las siguientes <strong>de</strong>sigualda<strong>de</strong>s:<br />

y<br />

<br />

1 − exp − 1<br />

2 R2 T V e −2ρu<br />

<br />

≤ lím inf<br />

lím sup<br />

n→∞<br />

n→∞ d(n)<br />

T V<br />

(log n/(2ρ) + u)<br />

d (n)<br />

<br />

T V (log n/(2ρ) + u) ≤ 1 − exp(−2R 2 He −2ρu 1/2 ) .<br />

El Teorema 3.3.5 sugiere que la distancia en VT al equilibrio <strong>de</strong> la<br />

n-tupla se comporta como una exponencial doble cuando u tien<strong>de</strong> a −∞,<br />

lím sup 1 − d<br />

n→∞<br />

(n)<br />

T V (tn<br />

<br />

+ u) ≤ exp − 1<br />

2 R2 T V e −2ρu<br />

<br />

+ o(u) ,<br />

y una exponencial simple cuando u tien<strong>de</strong> a +∞,<br />

lím sup d<br />

n→∞<br />

(n)<br />

T V (tn + u) ≤ √ 2 RHe −ρu + o(u) .<br />

Esto comportamiento es coherente con las cotas obtenidas <strong>para</strong> el paseo aleatorio en<br />

el hipercubo n-dimensional por Diaconis y Shahshahani en [18] y Diaconis et al. en<br />

[17], y <strong>para</strong> ca<strong>de</strong>nas <strong>de</strong> Markov reversibles <strong>de</strong>finidas sobre espacios <strong>de</strong> estados finitos<br />

por Ycart en [63]. En la siguiente sección los Teoremas 3.3.4 y 3.3.5 serán ilustrados<br />

por otros casos particulares.<br />

3.4. Ejemplos <strong>de</strong> <strong>procesos</strong> i.i.d.<br />

En esta sección presentamos tres ejemplos. En cada uno <strong>de</strong> los tres<br />

casos, consi<strong>de</strong>ramos una n-tupla <strong>de</strong> <strong>procesos</strong> (X1, . . . , Xn). Las coor<strong>de</strong>nadas Xi son<br />

58


copias in<strong>de</strong>pendientes <strong>de</strong> X, don<strong>de</strong> X es un proceso Binario, el proceso <strong>de</strong> nacimiento<br />

y muerte M/M/∞ o el proceso <strong>de</strong> difusión <strong>de</strong> Ornstein-Uhlenbeck. En cada caso los<br />

Teoremas 3.3.4 y 3.3.5 se pue<strong>de</strong>n aplicar.<br />

3.4.1. Proceso Binario<br />

El proceso X comienza en 0 al tiempo 0, saltará <strong>de</strong> 0 a 1 con tasa α,<br />

y <strong>de</strong> 1 a 0 con tasa ρ − α, como en el ejemplo <strong>de</strong> la sección anterior. Luego X(t) es<br />

una variable <strong>de</strong> Bernoulli <strong>de</strong> parámetro<br />

p(t) = α −ρt<br />

1 − e<br />

ρ<br />

,<br />

y su distribución asintótica ν es también una variable Bernoulli, <strong>de</strong> parámetro α/ρ.<br />

La distancia al equilibrio pue<strong>de</strong> ser calculada usando la Proposición 2.4.1 o aplicando<br />

los Teoremas 3.3.4 y 3.3.5, con (ver Observación 2.4.2):<br />

Obtenemos:<br />

RT V = α<br />

ρ , RH<br />

<br />

α<br />

=<br />

8(ρ − α) , R <br />

α<br />

χ2 =<br />

ρ − α , RK<br />

<br />

α<br />

=<br />

2(ρ − α) .<br />

1. Variación total:<br />

<br />

1 − exp<br />

− α2<br />

e−2ρu<br />

2ρ2 <br />

≤ lím inf<br />

n→∞ d(n)<br />

<br />

log n<br />

T V + u<br />

2ρ<br />

lím sup d<br />

n→∞<br />

(n)<br />

<br />

log n<br />

α<br />

T V + u ≤ 1 − exp −<br />

2ρ 4(ρ − α) e−2ρu<br />

,<br />

1/2<br />

.<br />

59


2. Hellinger:<br />

3. Chi-cuadrado:<br />

4. Kullback:<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

α<br />

H + u = 1 − exp −<br />

2ρ 8(ρ − α) e−2ρu<br />

1/2<br />

lím<br />

n→∞ d(n)<br />

χ2 <br />

log n<br />

α<br />

+ u = exp<br />

2ρ ρ − α e−2ρu<br />

1/2 − 1<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

α<br />

K + u =<br />

2ρ 2(ρ − α) e−ρu .<br />

Estos resultados se relacionan con cotas similares obtenidas por Ycart en [63] en el<br />

contexto <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> Markov en espacios discretos, y por Diaconis y Shahshahani<br />

en [18] y Diaconis et al. en [17] <strong>para</strong> el paseo aleatorio en el hipercubo n-dimensional,<br />

y Bon y Păltănea en [12] <strong>para</strong> <strong>procesos</strong> Binarios in<strong>de</strong>pendientes no idénticamente<br />

distribuidos.<br />

3.4.2. La cola M/M/∞<br />

El proceso X es un proceso <strong>de</strong> nacimiento y muerte con tasa <strong>de</strong> naci-<br />

miento contante α (<strong>de</strong> k a k + 1) y tasa <strong>de</strong> muerte lineal kρ, <strong>de</strong> k a k−1 (ver e.g.<br />

Sección 7a Cap. XVII <strong>de</strong> [23]). Si X(0) = 0, la distribución <strong>de</strong> X(t) es una variable<br />

<strong>de</strong> Poisson <strong>de</strong> parámetro<br />

α(t) = α −ρt<br />

1 − e<br />

ρ<br />

,<br />

.<br />

.<br />

60


y su distribución asintótica ν también es una variable <strong>de</strong> Poisson, <strong>de</strong> parámetro α/ρ.<br />

La distancia al equilibrio pue<strong>de</strong> ser calculada usando la Proposición 2.4.3 o aplicando<br />

los Teoremas 3.3.4 y 3.3.5, con (ver Observación2.4.5):<br />

don<strong>de</strong><br />

Obtenemos:<br />

RT V = R<br />

1. Variación total:<br />

2. Hellinger:<br />

3. Chi-cuadrado:<br />

4. Kullback:<br />

<br />

α<br />

α<br />

, RH =<br />

ρ<br />

8ρ , R <br />

α<br />

χ2 =<br />

ρ , RK<br />

<br />

α<br />

=<br />

2ρ ,<br />

R(a) = e−a<br />

⌊a⌋! a⌊a⌋+1 .<br />

<br />

1 − exp − R(α/ρ)2<br />

e<br />

2<br />

−2ρu<br />

<br />

≤ lím inf<br />

n→∞ d(n)<br />

<br />

log n<br />

T V + u<br />

2ρ<br />

lím sup d<br />

n→∞<br />

(n)<br />

<br />

log n<br />

T V + u ≤ 1 − exp −<br />

2ρ α<br />

4ρ e−2ρu<br />

1/2 lím<br />

n→∞ d(n)<br />

<br />

log n<br />

H + u = 1 − exp −<br />

2ρ α<br />

8ρ e−2ρu<br />

1/2 lím<br />

n→∞ d(n)<br />

χ2 <br />

log n<br />

α<br />

+ u = exp<br />

2ρ ρ e−2ρu<br />

1/2 − 1<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

α<br />

K + u =<br />

2ρ 2ρ e−ρu .<br />

.<br />

.<br />

,<br />

.<br />

61


El fenómeno <strong>de</strong> <strong>Cutoff</strong> <strong>para</strong> la familia <strong>de</strong> <strong>procesos</strong> M/M/∞ in<strong>de</strong>xada por el estado<br />

inicial n fue estudiado por Martínez e Ycart en [42] en el contexto <strong>de</strong> <strong>procesos</strong> <strong>de</strong><br />

nacimiento y muerte en árboles. En la Proposición 6.1 los autores encontraron cotas<br />

análogas a aquellas <strong>de</strong> la Proposición anterior <strong>para</strong> la distancia en VT (ver también<br />

p. 293 en [65]).<br />

3.4.3. El proceso Ornstein-Uhlenbeck<br />

El proceso X es la solución <strong>de</strong> la siguiente ecuación diferencial estocás-<br />

tica (ver e.g. ejemplo 4(b) Cap. X <strong>de</strong> [24]):<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

dX(t) = α √ 2ρ dBt − ρX(t) dt ,<br />

X(0) = x0 ,<br />

Don<strong>de</strong> α, ρ > 0 y {Bt , t ≥ 0} es el movimiento Browniano estándar. La distribución<br />

<strong>de</strong> X(t) es una variable Normal <strong>de</strong> parámetros<br />

m(t) = x0e −ρt<br />

and v(t) = α 2 1 − e −2ρt ,<br />

y su distribución asintótica ν es también una variable Normal, <strong>de</strong> parámetros 0 y α 2 .<br />

La distancia al equilibrio pue<strong>de</strong> calcularse usando la Proposición 2.4.6 o aplicando<br />

los Teoremas 3.3.4 y 3.3.5, con<br />

Obtenemos:<br />

RT V = |x0|<br />

α √ 2π , RH = |x0|<br />

α √ 8 , R |x0|<br />

χ2 =<br />

α , RK = |x0|<br />

α √ 2 .<br />

62


1. Variación total:<br />

2. Hellinger:<br />

3. Chi-cuadrado:<br />

4. Kullback:<br />

<br />

1 − exp − x2 <br />

0<br />

e−2ρu ≤ lím inf<br />

4πα2 n→∞ d(n)<br />

<br />

log n<br />

T V + u<br />

2ρ<br />

lím sup d<br />

n→∞<br />

(n)<br />

<br />

log n<br />

T V + u ≤ 1 − exp<br />

2ρ<br />

lím<br />

n→∞ d(n)<br />

<br />

log n<br />

H + u = 1 − exp<br />

2ρ<br />

− x20 e−2ρu<br />

4α2 − x20 e−2ρu<br />

8α2 ,<br />

1/2<br />

1/2<br />

lím<br />

n→∞ d(n)<br />

χ2 2 1/2<br />

log n<br />

x0 + u = exp e−2ρu − 1<br />

2ρ α2 lím<br />

n→∞ d(n)<br />

<br />

log n<br />

K + u =<br />

2ρ |x0|<br />

√ e<br />

2 α −ρu .<br />

El cutoff <strong>para</strong> el proceso <strong>de</strong> Ornstein-Uhlenbeck ha sido estudiado por Lachaud<br />

en [39], en él el autor lo relaciona con la distribución <strong>de</strong>l tiempo (<strong>de</strong> <strong>para</strong>da) que le<br />

toma a la media empírica <strong>de</strong> la n-tupla alcanzar el valor 0.<br />

.<br />

.<br />

.<br />

63


Particiones aleatorias <strong>de</strong>l<br />

intervalo [0, 1]<br />

Una partición <strong>de</strong>l intervalo [0, 1] se construye a partir <strong>de</strong> cualquier<br />

distribución <strong>de</strong> probabilidad discreta. Sea p = (p1, p2, . . .) una distribución <strong>de</strong> pro-<br />

babilidad discreta. Definiremos la partición <strong>de</strong>l intervalo [0, 1] asociada a p como los<br />

subintervalos Ii con i = 1, 2, . . . tales que:<br />

Ii = [si−1, si) ,<br />

don<strong>de</strong> s0 = 0 y si = n<br />

i=1 pi. En esta partición el subintervalo i-ésimo tiene largo pi.<br />

Las particiones dan lugar a algunos problemas que enunciamos a con-<br />

tinuación. Definimos un muestreo sesgado por tamaño como aquel don<strong>de</strong> la proba-<br />

bilidad <strong>de</strong> muestrear el subitervalo i-ésimo es proporcional a su tamaño. Tiremos<br />

in<strong>de</strong>pendientemente k muestreos sesgados por tamaño y llamemos k-muestra a los<br />

intervalos muestreados. Dos preguntas naturales son: ¿La k-muestra contiene dos o<br />

más veces un mismo subintervalo? ¿han sido todos los subintervalos visitados?. Estas<br />

dos preguntas correspon<strong>de</strong>n a dos problemas clásicos <strong>de</strong> probabilida<strong>de</strong>s la <strong>para</strong>doja<br />

<strong>de</strong>l cumpleaños y el problema <strong>de</strong>l coleccionista <strong>de</strong> cupones (ver Feller [23] pág. 47-48<br />

<strong>para</strong> la <strong>de</strong>finición <strong>de</strong> los problemas). Otros problemas similares quizás menos cono-<br />

cidos que se pue<strong>de</strong>n plantear en una partición son: las reglas <strong>de</strong> organización mover<br />

al frente (move-to-front MtF), <strong>de</strong>splazar hacia la raíz (move-to-root MtR), el menos<br />

utilizado (Least recently used LRU), regla <strong>de</strong> transposición (transposition rule) y la<br />

64


permutación sesgada por tamaño (Size-biased permutation S-BP) (ver [22]). Como<br />

veremos en este capítulo y el siguiente, varios autores han abordado estos problemas,<br />

entre ellos se pue<strong>de</strong> <strong>de</strong>stacar el trabajo <strong>de</strong> Flajolet et al. [28] por utilizar el marco<br />

teórico común <strong>de</strong> los lenguajes regulares <strong>para</strong> abordar los problemas: <strong>de</strong> la <strong>para</strong>doja<br />

<strong>de</strong>l cumpleaños, el coleccionista <strong>de</strong> cupones, MtF y LRU.<br />

Hay muchas aplicaciones que involucran la <strong>de</strong>scomposición <strong>de</strong> un ítem<br />

<strong>de</strong> masa unitaria en componentes <strong>de</strong> tamaño aleatorio (partición aleatoria), por ejem-<br />

plo la asignación <strong>de</strong> memoria <strong>de</strong> un computador, la frecuencia <strong>de</strong> un gen en una<br />

población, la fragmentación <strong>de</strong> una roca. En estos mo<strong>de</strong>los pue<strong>de</strong> tener tanto o más<br />

sentido hacerse las mismas preguntas que hemos <strong>de</strong>scrito <strong>para</strong> las particiones no<br />

aleatorias. Como veremos a lo largo capítulo hay varias maneras <strong>de</strong> generar una par-<br />

tición aleatoria, presentaremos dos (Sección 4.2): la partición por renormalización y<br />

el mo<strong>de</strong>lo <strong>de</strong> localización aleatoria.<br />

Entre las particiones aleatoria una <strong>de</strong> las más utilizadas es la partición<br />

aleatoria <strong>de</strong> Poisson-Dirichlet (PD) introducida por Kingman (ver[35]). La partición<br />

<strong>de</strong> PD resulta <strong>de</strong> or<strong>de</strong>nar <strong>de</strong> manera <strong>de</strong>creciente la partición <strong>de</strong> Griffiths-Engen-<br />

McCloskey (GEM) y esta última se obtiene <strong>de</strong> una permutación aleatoria <strong>de</strong> la PD.<br />

A<strong>de</strong>más la partición GEM se obtiene como el límite <strong>de</strong> una permutación aleatoria <strong>de</strong><br />

la partición <strong>de</strong> Dirichlet (D). La partición GEM y su versión or<strong>de</strong>nada, la partición<br />

PD, constituyen un mo<strong>de</strong>lo que tiene aplicaciones en distintos ámbitos como: en<br />

ecología, en genética, en estadística bayesiana y teoría <strong>de</strong> números (ver sec. 6 en<br />

[59] y las referencias citadas ahí). La relación entre esta tres particiones, PD, GEM<br />

y D, está <strong>de</strong>scrita por Kingman en [35] (pág.90-99) y los <strong>de</strong>talles <strong>de</strong> ellas que son<br />

relevantes <strong>para</strong> esta tesis están <strong>de</strong>scritos en la Sección 4.3. La relevancia <strong>de</strong> estas<br />

65


tres particiones nos motiva a estudiar algunas nuevas propieda<strong>de</strong>s <strong>de</strong> la partición <strong>de</strong><br />

D y otra partición que, al igual que la permutación aleatoria <strong>de</strong> la partición <strong>de</strong> D,<br />

también aproximan la partición GEM.<br />

En este capítulo en la Sección 4.1 recordamos algunas cantida<strong>de</strong>s im-<br />

portantes <strong>de</strong>finidas <strong>para</strong> una partición (no aleatoria) <strong>de</strong>l intervalo unitario. Luego<br />

en la Sección 4.2 introducimos dos mo<strong>de</strong>los generales <strong>para</strong> generar particiones alea-<br />

torias. El primero que llamaremos partición por renormalización es generado por n<br />

variables in<strong>de</strong>pendientes, don<strong>de</strong> el i-ésimo segmento se <strong>de</strong>fine como la i-ésima va-<br />

riable renormalizada por la suma total. El segundo, que llamaremos <strong>de</strong> localización<br />

aleatoria que es generado por n variables in<strong>de</strong>pendientes con soporte en (0, 1) don<strong>de</strong><br />

el i-ésimo segmentos se genera como el producto <strong>de</strong> i variables in<strong>de</strong>pendientes. En la<br />

Sección 4.3 introducimos formalmente la partición aleatoria <strong>de</strong> Dirichlet, recordamos<br />

varias <strong>de</strong> sus propieda<strong>de</strong>s, su relación con las particiónes PD y GEM. También los<br />

resultados realizados en colaboración con T. Huillet y Ch. Paroissin publicados en el<br />

artículo [4] en la revista “Probability in the engineering and informational science”.<br />

En la Sección 4.4 <strong>de</strong>finimos y estudiamos las propieda<strong>de</strong>s <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> partición<br />

<strong>de</strong> fragmentación <strong>de</strong> la vara que aproxima la partición <strong>de</strong> GEM <strong>para</strong> cierto paráme-<br />

tro. Este trabajo [3] realizado en colaboración T. Huillet fue publicado en la revista<br />

“Statistics & probability letters”.<br />

4.1. Particiones <strong>de</strong>l intervalo [0, 1]<br />

En esta sección <strong>de</strong>finiremos algunas cantida<strong>de</strong>s <strong>para</strong> una partición no<br />

aleatoria como: la media <strong>de</strong> Rényi, el muestreo sesgado por tamaño, el costo <strong>de</strong> bús-<br />

66


queda en una lista, la permutación sesgada por tamaño. I<strong>de</strong>ntificaremos la partición<br />

con la distribución discreta que la genera pn en el caso finito <strong>de</strong> n segmentos y<br />

simplemente p en el caso <strong>de</strong> una partición numerable.<br />

Definición 4.1.1. Para β ∈ IR la media <strong>de</strong> Rényi es<br />

〈pn〉β :=<br />

n<br />

m=1<br />

p β+1<br />

m<br />

1/β<br />

Observemos que esta cantidad tien<strong>de</strong> al tamaño <strong>de</strong>l intervalo más gran-<br />

<strong>de</strong> <strong>de</strong> la partición cuando β tien<strong>de</strong> a ∞ y al tamaño <strong>de</strong>l intervalo más pequeño cuando<br />

β tien<strong>de</strong> a −∞.<br />

Definición 4.1.2. Definimos el muestreo sesgado por tamaño a partir <strong>de</strong> una varia-<br />

ble aleatoria V distribuida como uniforme en [0, 1], como:<br />

I(V ) =<br />

n<br />

i 1[si−1,si](V ) ,<br />

i=1<br />

Don<strong>de</strong> si son las sumas parciales <strong>de</strong> pn. La variable I(V ) es una variable discreta<br />

que toma el valor i con probabilidad pi.<br />

Supongamos que pn correspon<strong>de</strong> a la probabilidad <strong>de</strong> requerir unos<br />

objetos numerados <strong>de</strong> 1 a n. Imaginemos que disponemos estos objetos en una lista<br />

en una permutación ς <strong>de</strong>sconocida. La búsqueda lineal <strong>de</strong> un objeto consiste en<br />

revisar la lista <strong>de</strong>s<strong>de</strong> un extremo hasta encontrarlo, po<strong>de</strong>mos <strong>de</strong>cir, que el costo <strong>de</strong><br />

encontrar el objeto en la k-ésima posición es k − 1. Ahora si el objeto que se requiere<br />

se pi<strong>de</strong> aleatoriamente <strong>de</strong> acuerdo a un muestreo sesgado por tamaño, llamaremos S<br />

al costo (aleatorio) <strong>de</strong> buscarlo en la lista.<br />

.<br />

67


Proposición 4.1.3. Sea ς una permutación <strong>de</strong> {1, . . . , n}. Consi<strong>de</strong>remos una lista<br />

don<strong>de</strong> los objetos están or<strong>de</strong>nado según ς. La distribución <strong>de</strong>l costo S <strong>de</strong> buscar un<br />

objeto requerido según un muestreo sesgado por tamaño en esta lista está dada por<br />

P (S = k + 1) = pςk .<br />

Don<strong>de</strong> don<strong>de</strong> pk es la probabilidad <strong>de</strong> requerir el objeto k.<br />

Definición 4.1.4. La permutación sesgada por tamaño (size-biased permutation S-<br />

BP) <strong>de</strong> una partición pn, es la permutación aleatoria pσ1, . . . pσn <strong>de</strong> la partición,<br />

don<strong>de</strong> σ = (σ1, . . . , σn) se <strong>de</strong>fine como: σ1 es un muestreo sesgado por tamaño <strong>de</strong><br />

pn, se remueve el intervalo σ1 escogido y se renormalizan los intervalos restantes<br />

<strong>para</strong> obtener una partición pn−1, se repite la operación <strong>para</strong> <strong>de</strong>finir iterativamente<br />

σ2, . . . , σn hasta que no que<strong>de</strong>n intervalos.<br />

una permutación ς es:<br />

piedad.<br />

La S-BP es una permutación aleatoria, y la probabilidad <strong>de</strong> obtener<br />

pς2<br />

pςn−1<br />

P (σ = ς) = pς1 · · ·<br />

. (4.1)<br />

1 − pς1 1 − pς1 − pς2 − · · · − pςn−2<br />

El tamaño <strong>de</strong>l primer segmento <strong>de</strong> la S-BP satisface la siguiente pro-<br />

Proposición 4.1.5. Sea L = pσ1 y sea g una función real luego<br />

<br />

g(L)<br />

IE =<br />

L<br />

n<br />

g(pi) .<br />

i=1<br />

68


En particular <strong>para</strong> g(y) = y 1y≤x obtenemos la distribución <strong>de</strong> L:<br />

FL(x) =<br />

n<br />

pm 1{p≤x} . (4.2)<br />

m=1<br />

4.2. Particiones Aleatorias<br />

En esta sección introducimos dos mo<strong>de</strong>los generales <strong>para</strong> construir una<br />

partición aleatoria: la partición por renormalización y la partición <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong><br />

localización aleatoria. A<strong>de</strong>más <strong>de</strong>finimos la propiedad <strong>de</strong> intercambiabilidad <strong>de</strong> una<br />

partición aleatoria.<br />

4.2.1. El mo<strong>de</strong>lo <strong>de</strong> partición por renormalización<br />

Una manera <strong>de</strong> generar una partición aleatoria es a partir <strong>de</strong> suce-<br />

sión W = (Wi) i∈IN <strong>de</strong> variable aleatorias in<strong>de</strong>pendientes no negativas. Definimos la<br />

partición pn <strong>de</strong> n elementos como<br />

∀i ∈ {1, ..., n} , pi = Wi<br />

Ωn<br />

don<strong>de</strong> Ωn =<br />

n<br />

Wi . (4.3)<br />

Notemos que una misma partición pue<strong>de</strong> ser engendrada por secuencias ω y ω ′ <strong>de</strong><br />

variables aleatorias positivas i.i.d. diferentes en distribución.<br />

Observación 4.2.1. Si W y W ′ son dos sucesiones <strong>de</strong> variables aleatorias in<strong>de</strong>-<br />

pendientes estrictamente positivas i.i.d. tales que <strong>para</strong> todo i se tiene W ′<br />

i<br />

i=1<br />

(d)<br />

= kWi.<br />

Sea n un entero cualquiera, consi<strong>de</strong>remos los n primero términos <strong>para</strong> generar las<br />

69


particiones aleatorias pn y p ′ n. Sea Ωn = W1 + · · · + Wn y Ω ′ n = W ′ 1 + · · · + W ′ n.<br />

Luego las dos pn y p ′ n son iguales en distribución,<br />

p ′ i<br />

(d) kWi<br />

= n<br />

kWj<br />

j=1<br />

= kWi<br />

kΩn<br />

= pi .<br />

Sea f(p1, . . . , pn) la <strong>de</strong>nsidad <strong>de</strong> la partición pn con respecto a la me-<br />

dida <strong>de</strong> Lebesgue. Una partición se dice intercambiable si la <strong>de</strong>nsidad es simétrica<br />

en su argumentos, es <strong>de</strong>cir, si σ es una permutación <strong>de</strong> 1, ..., n<br />

f(p1, . . . , pn) = f(pσ1, . . . , pσn) . (4.4)<br />

Un simple cálculo nos permiten <strong>de</strong>mostrar que la esperanza <strong>de</strong> pn vale ( 1 1 , . . . , n n ),<br />

<strong>de</strong>pendiendo únicamente <strong>de</strong>l numero <strong>de</strong> intervalos que tiene la partición n.<br />

Proposición 4.2.2. Sea pn una partición construida a partir <strong>de</strong> una secuencia<br />

W = (Wi) i∈IN <strong>de</strong> variable aleatorias no negativas i.i.d utilizando la fórmula (4.3).<br />

La partición pn es intercambiable.<br />

4.2.2. El mo<strong>de</strong>lo <strong>de</strong> localización aleatoria<br />

Supongamos que una especie llega y ocupa una fracción aleatoria <strong>de</strong>l<br />

espacio disponible. Luego llega una segunda especie e in<strong>de</strong>pendientemente <strong>de</strong> la pri-<br />

mera utiliza una fracción aleatoria <strong>de</strong>l espacio que quedó disponible. Se repite el<br />

proceso <strong>para</strong> n especies, don<strong>de</strong> cada una <strong>de</strong> ellas ocupa una fracción aleatoria <strong>de</strong>l<br />

espacio disponible. Este mo<strong>de</strong>lo <strong>de</strong> partición aleatoria es conocido como el mo<strong>de</strong>lo<br />

70


<strong>de</strong> localización aleatoria (Random alocation mo<strong>de</strong>l RAM).<br />

Definamos el mo<strong>de</strong>lo formalmente. Consi<strong>de</strong>remos una sucesión U =<br />

(Uj) j∈IN <strong>de</strong> variables aleatorias in<strong>de</strong>pendientes con soporte en el intervalo [0, 1]. Sea<br />

U j = 1 − Uj. Se <strong>de</strong>fine la partición pn+1 = (p1, . . . , pn+1) como<br />

pi = Ui<br />

i−1<br />

U j ∀i = 1, . . . , n y pn+1 =<br />

j=1<br />

n<br />

U j . (4.5)<br />

Don<strong>de</strong> pn+1 es el espacio <strong>de</strong>socupado y pi es el espacio ocupado por la especie i<br />

<strong>para</strong> i ≤ n. También se pue<strong>de</strong> <strong>de</strong>finir la partición p = (pi) i∈IN con una cantidad<br />

numerable <strong>de</strong> especies como:<br />

pi = Ui<br />

j=1<br />

i−1<br />

U j ∀i ∈ IN . (4.6)<br />

4.3. La familia <strong>de</strong> particiones <strong>de</strong> Dirichlet<br />

j=1<br />

Las particiones GEM y PD son una <strong>de</strong> las particiones más estudiada<br />

y utilizada como mo<strong>de</strong>lo. La partición GEM <strong>de</strong>be su nombre a McCloskey y Egen<br />

quienes la utilizaron <strong>para</strong> mo<strong>de</strong>lar el tamaño <strong>de</strong> poblaciones en ecología y a Griffiths<br />

quien utilizo el mo<strong>de</strong>lo en genética (ver [59] y las referencias citadas). Como veremos<br />

en este capítulo la partición PD <strong>de</strong>be a su nombre a que se pue<strong>de</strong> obtener como<br />

límite <strong>de</strong> la partición finita <strong>de</strong> Dirichlet (D) que ha sido or<strong>de</strong>nada <strong>de</strong>crecientemente<br />

(ver cap. 9 <strong>de</strong> [35]).<br />

71


En esta sección primero introducimos formalmente la partición <strong>de</strong> D,<br />

veremos que pue<strong>de</strong> ser generado con mo<strong>de</strong>los <strong>de</strong> partición renormalizada y la parti-<br />

ción RAM y estableceremos su relación con las particiones numerables PD y GEM.<br />

Luego presentamos algunos resultados nuevos <strong>para</strong> la S-BP, como la función <strong>de</strong> mo-<br />

mentos <strong>para</strong> cada segmento y la función <strong>de</strong> momentos conjunta. Finalmente utilizan-<br />

do estas propieda<strong>de</strong>s estudiamos la distribución <strong>de</strong>l costo <strong>de</strong> búsqueda en una lista<br />

(ver Sección 4.1 Propiedad 4.1.3) <strong>para</strong> la partición <strong>de</strong> D y su permutación sesgada<br />

por tamaño.<br />

4.3.1. Introducción <strong>de</strong>l mo<strong>de</strong>lo<br />

La partición D cuenta con muchas propieda<strong>de</strong>s, enumeraremos aquellas<br />

que sean relevantes <strong>para</strong> el <strong>de</strong>sarrollo <strong>de</strong> los resultados <strong>de</strong> esta tesis.<br />

Consi<strong>de</strong>remos n constantes estrictamente positivas α1, . . . , αn y note-<br />

mos por −→ α al vector (α1, ..., αn). La <strong>de</strong>nsidad <strong>de</strong> una partición <strong>de</strong> D <strong>de</strong> parámetros<br />

−→ α esta dada por:<br />

fpn(p1, ..., pn) = Γ(α1 + α2 + . . . + αn)<br />

Γ(α1)Γ(α2) . . . Γ(αn) pα1−1 1 p α2−1<br />

2<br />

. . . p αn−1<br />

n<br />

(4.7)<br />

don<strong>de</strong> p1 + . . . + pn = 1 y Γ es la función Gamma. Una <strong>de</strong> las características que<br />

hace a la partición D popular es que se pue<strong>de</strong> construir a partir <strong>de</strong> una secuencia <strong>de</strong><br />

variables aleatorias in<strong>de</strong>pendientes (Wi) i∈IN utilizando el mo<strong>de</strong>lo <strong>de</strong> renormalización<br />

(ecuación (4.3)) don<strong>de</strong> Wi se distribuye como una variable Gamma <strong>de</strong> parámetro αi<br />

(ver [35] pág. 91-92). Cuando las variables (Wi) i∈IN son i.i.d. <strong>de</strong>cimos que la partición<br />

se distribuye como una partición <strong>de</strong> D simétrica y la llamaremos Dn(α).<br />

72


En este sección nos interesaremos en la partición <strong>de</strong> D simétrica la<br />

cual tiene la importante propiedad <strong>de</strong> que su S-BP (ver Definición 4.1.4) pue<strong>de</strong><br />

<strong>de</strong>scribirse con el mo<strong>de</strong>lo localización aleatoria. Sean U1, . . . , Un−1 variables aleatorias<br />

in<strong>de</strong>pendientes con Ui distribuida como una variable Beta <strong>de</strong> parámetros (α+1, (n−<br />

i)α). Si llamamos ln a la partición que resulta <strong>de</strong> aplicar una permutación sesgada<br />

por tamaño, tendremos que<br />

lm = Um<br />

ln =<br />

m−1 <br />

k=1<br />

U k con m = 1, . . . , n − 1 , (4.8)<br />

m<br />

U k . (4.9)<br />

k=1<br />

Si tomamos el limite cuando el numero <strong>de</strong> intervalos n tien<strong>de</strong> a infinito y nα tien<strong>de</strong><br />

a γ, obtenemos la partición GEM <strong>de</strong> parámetro γ. Este procedimiento es conocido<br />

como el límite <strong>de</strong> Kingman. Notemos que la partición GEM(γ) también respon<strong>de</strong> al<br />

mo<strong>de</strong>lo <strong>de</strong> localización aleatoria dado por la ecuación (4.6) construida a partir <strong>de</strong> una<br />

secuencia <strong>de</strong> variables aleatorias (U ′ i) i∈IN i.i.d. distribuidas como una variable Beta<br />

<strong>de</strong> parámetros (1, γ) (<strong>para</strong> más <strong>de</strong>talles ver nuevamente [35] pág. 98-99). Or<strong>de</strong>nando<br />

la partición GEM(γ) en intervalos <strong>de</strong>crecientes se obtiene la partición <strong>de</strong> PD <strong>de</strong><br />

parámetro γ (PD(γ)).<br />

Finalmente, recor<strong>de</strong>mos que la ley Beta <strong>de</strong> parámetros a y b (Ba,b)<br />

estrictamente positivos con soporte en [0, 1] tiene <strong>de</strong>nsidad:<br />

fa,b(x) =<br />

Γ(a + b)<br />

Γ(a)Γ(b) xa−1 (1 − x) b−1 ,<br />

73


y su función <strong>de</strong> generadora <strong>de</strong> momentos es<br />

IE B q Γ(a + q)Γ(a + b)<br />

a,b =<br />

Γ(a)Γ(a + b + q)<br />

. (4.10)<br />

4.3.2. Muestreo y permutación sesgada por tamaño<br />

Consi<strong>de</strong>remos ln la partición aleatoria resultante <strong>de</strong> aplicar una S-BP<br />

a Dn(α). A lo largo <strong>de</strong> la sección encontraremos algunas <strong>de</strong> propieda<strong>de</strong>s <strong>de</strong> ln entre<br />

ellas función <strong>de</strong> momentos conjunta.<br />

Proposición 4.3.1. [4] La variable L = l1 es un muestreo sesgado por tamaño, L se<br />

distribuye como una variable Beta <strong>de</strong> parámetros (1 + α, (n − 1)α). Luego L satisface<br />

las siguiente <strong>de</strong>sigualdad:<br />

L st pm .<br />

Demostración: De la ecuación 4.2 tenemos que FL(x) = n x<br />

0 yFpn(y) dt. Luego <strong>para</strong><br />

<strong>de</strong>mostrar la <strong>de</strong>sigualdad estocástica basta probar que n 1<br />

x yFpn(y) dt ≥ F pn(x) o<br />

en otras palabras IE(pm | pm > x) ≥ 1/n = IE(pm). Esta última <strong>de</strong>sigualdad (y por<br />

en<strong>de</strong> la proposición) es cierta <strong>para</strong> cualquier partición simétrica. <br />

No <strong>de</strong>ja <strong>de</strong> ser <strong>para</strong>dójico que si escogemos un intervalo al azar <strong>de</strong> pn sea estocás-<br />

ticamente más gran<strong>de</strong> que cada uno <strong>de</strong> los intervalos <strong>de</strong> la partición. Esta aparente<br />

contradicción pue<strong>de</strong> enten<strong>de</strong>rse si notamos que en un muestre sesgado por tamaño<br />

los segmentos más gran<strong>de</strong>s son preferidos a los más pequeños (<strong>para</strong>doja discutida<br />

74


por Feller en [24] pág. 22-23 <strong>para</strong> α = 1 y también fue investigada por Hawkes en<br />

[30] pág. 294-295).<br />

Corolario 4.3.2. [4] Sea Bn una variable aleatoria distribuida como una Bernoulli<br />

<strong>de</strong> parámetro 1/n y sea Bα,1 otra variable aleatoria distribuida como una ley Beta<br />

<strong>de</strong> parámetros (α, 1) in<strong>de</strong>pendiente <strong>de</strong> Bn. Definimos la variable Rn con soporte en<br />

[0, 1] como<br />

Rn<br />

(d)<br />

= Bn + (1 − Bn) · Bα,1 .<br />

Luego, L y pn satisfacen la siguiente igualdad<br />

con Rn y L in<strong>de</strong>pendientes.<br />

Rn L (d)<br />

= pn ,<br />

Demostración: De la <strong>de</strong>finición <strong>de</strong> Rn <strong>de</strong>ducimos que la función <strong>de</strong> momentos vale:<br />

IE [R q n] = 1<br />

n +<br />

<br />

1 − 1<br />

<br />

α<br />

n α + q<br />

Tomando g(x) = x q en la Proposición 4.1.5 obtenemos:<br />

IE [L q ] = nIE p q+1<br />

nΓ(nα)Γ(α + q + 1)<br />

m =<br />

Γ(α)Γ(nαq + 1)<br />

Recordando que la función generadora <strong>de</strong> momentos <strong>de</strong> pm es:<br />

IE [p q m] = (Γ(nα)Γ(α + q)) / (Γ(α)Γ(nαq)) .<br />

.<br />

75


Po<strong>de</strong>mos encontrar la siguiente factorización:<br />

IE [p q m] =<br />

nα + q<br />

n(α + q) IE [Lq ] = IE [R q n] IE [L q ] .<br />

Encontramos que la partición ln es <strong>de</strong>creciente en el sentido <strong>de</strong> estocástico o más<br />

precisamente el siguiente resultado:<br />

Teorema 4.3.3. [4]<br />

1. La ley <strong>de</strong>l m-ésimo fragmento <strong>de</strong> ln esta caracterizada por:<br />

y <strong>para</strong> m = n<br />

IE [L q Γ(1 + α + q)Γ((n − m + 1)α + 1)<br />

m] =<br />

Γ(α + 1)Γ((n − m + 1)α + 1 + q)<br />

×<br />

IE [l q n] =<br />

m−1 <br />

k=1<br />

n−1 <br />

k=1<br />

Γ((n − k)α + q)Γ((n − k + 1)α + 1)<br />

Γ((n − k)α)Γ((n − k + 1)α + 1 + q) ,<br />

Γ((n − k)α + q)Γ((n − k + 1)α + 1)<br />

Γ((n − k)α)Γ((n − k + 1)α + 1 + q) .<br />

<br />

(4.11)<br />

2. Sea B(n−m)α,1 una variable aleatoria distribuida como una Beta <strong>de</strong> parámetros<br />

((n − m + 1)α, 1). Luego<br />

lm<br />

(d)<br />

= B(n−m)α,1lm−1 <strong>para</strong> m = 1, . . . , n ,<br />

don<strong>de</strong> <strong>para</strong> cada m = {1, . . . , n} la variable B(n−m)α,1 es in<strong>de</strong>pendiente <strong>de</strong> Lm−1.<br />

3. l1 st . . . st ln<br />

76


Demostración: La parte (1) es consecuencia directa <strong>de</strong> la construcción <strong>de</strong>l mo<strong>de</strong>lo.<br />

La caracterización <strong>de</strong> ln con el mo<strong>de</strong>lo <strong>de</strong> localización aleatoria en la ecuación (4.8)<br />

nos permite <strong>de</strong>ducir que <strong>para</strong> m = {1, . . . , n − 1}<br />

y <strong>para</strong> m = n<br />

IE[l q m] = IE[U q m−1 <br />

m] IE U q<br />

k ,<br />

IE[l q n] =<br />

n<br />

k=1<br />

k=1<br />

IE [U q<br />

k ] .<br />

Sabemos que cada Um se distribuye como una variable Beta <strong>de</strong> parámetros (1 +<br />

α, (n − m)α) y que son in<strong>de</strong>pendientes entre si. A<strong>de</strong>más U m también se distribuye<br />

una variable Beta pero <strong>de</strong> parámetros ((n − m)α, 1 + α). Recordando la función <strong>de</strong><br />

momentos <strong>de</strong> una ley Beta ( ver ecuación 4.10) se obtiene el resultado. La parte (3)<br />

<strong>de</strong>l teorema es consecuencia directa <strong>de</strong> (2) por lo que solo necesitamos probar (2).<br />

La función <strong>de</strong> momentos <strong>de</strong> B(n−m+1)α,1 está dada por:<br />

<br />

IE B q<br />

<br />

(n−m+1)α,1 = Γ((1 + α + q)Γ((n − m + 1)α + 1)<br />

Γ(α + 1)Γ((n − m + 1)α + 1 + q) .<br />

Luego reagrupando términos en la relación <strong>de</strong> la parte (1) <strong>de</strong>l teorema encontramos,<br />

IE[l q <br />

m] = IE B q<br />

<br />

(n−m+1)α,1 IE[l q<br />

m−1]. <br />

El resultado (2) <strong>de</strong>l Teorema 4.3.3 se pue<strong>de</strong> encontrar también en [15] con una<br />

<strong>de</strong>mostración similar.<br />

la esperanza <strong>de</strong> lm:<br />

De este último resultado po<strong>de</strong>mos <strong>de</strong>ducir el siguiente corolario <strong>para</strong><br />

77


Corolario 4.3.4. [4] Sea θ := 1/α, luego<br />

IE [lm] =<br />

con n<br />

i=1 IE [lm] = 1.<br />

(θ + 1)Γ(n) Γ(θ + n − m + 1)<br />

Γ(θ + n + 1) Γ(n − k + 1)<br />

, <strong>para</strong> k = {1, . . . , n} ,<br />

Demostración: Reemplazando en la expresión (4.11) q = 1 y θ = 1/α se obtiene el<br />

resultado:<br />

IE [lm] =<br />

m (n − i)α 1 + θ<br />

(n − i + 1)α + 1 (n − k + 1)θ + 1<br />

k=1<br />

(n − 1)!<br />

= (θ + 1)<br />

(n − k)!<br />

m−1<br />

k=0<br />

Γ(n)<br />

= (θ + 1)<br />

Γ(n − k + 1)<br />

1<br />

(θ + n − k)<br />

Γ(θ + n − k + 1)<br />

Γ(θ + n + 1)<br />

Calcularemos ahora la función generadora <strong>de</strong> momentos conjunta <strong>de</strong> la partición ln.<br />

De la caracterización <strong>de</strong> la ecuación 4.8 tenemos<br />

IE<br />

n<br />

m=1<br />

l qm<br />

m<br />

<br />

= IE<br />

=<br />

n<br />

m=1<br />

U qm<br />

m<br />

n <br />

IE U qk<br />

k<br />

k=1<br />

m−1 <br />

k=1<br />

U qm<br />

k<br />

<br />

U qk+1+...+qn<br />

k<br />

Luego usando la función <strong>de</strong> momentos <strong>de</strong> Uk tenemos el siguiente teorema:<br />

<br />

.<br />

.<br />

<br />

78


Teorema 4.3.5. [4] La función <strong>de</strong> momentos conjunta <strong>de</strong> ln está dada por<br />

IE<br />

=<br />

n<br />

m=1<br />

n<br />

k=1<br />

l qm<br />

m<br />

<br />

Γ(1 + (n − k + 1)α)<br />

Γ(1 + α)Γ(m − k)α<br />

(4.12)<br />

Γ(1 + α + qk)Γ((n − k)α) + qk+1 + . . . + qn<br />

Γ(1 + (n − k + 1)α + qk . . . + qn)<br />

Demostración: Sea V una variable distribuida como una ley Beta <strong>de</strong> parámetros<br />

(a, b). Sea V := 1 − V . Luego<br />

IE V q1 V q2 =<br />

<br />

Utilizando esta expresión <strong>para</strong> calcular IE<br />

= Γ(a + b)<br />

1<br />

v<br />

0<br />

a+q1−1 b+q2−1<br />

(1 − v) dv<br />

Γ(a + b)<br />

Γ(a)Γ(b)<br />

Γ(a + q1)Γ(b + q2)<br />

Γ(a)Γ(b) Γ(a + b + q1 + q2) .<br />

U qk<br />

k<br />

<br />

qk+1+...+qn<br />

U k se tiene la conclusión. <br />

Observemos que si qk = q/n <strong>para</strong> k = 1, . . . , n en el Teorema 4.3.5 se obtiene el<br />

promedio geométrico <strong>de</strong> la partición ln.<br />

4.3.3. Una com<strong>para</strong>ción <strong>de</strong>l costo <strong>de</strong> búsqueda en la partición<br />

<strong>de</strong> Dirichlet y su permutación sesgada por tamaño<br />

En este mo<strong>de</strong>lo las probabilidad <strong>de</strong> requerir el i-ésimo ítem es pi, ahora<br />

consi<strong>de</strong>remos dos posibilida<strong>de</strong>s <strong>para</strong> or<strong>de</strong>nar los ítemes en una lista: <strong>de</strong>jar los ítem en<br />

el or<strong>de</strong>n original o reor<strong>de</strong>narlos <strong>de</strong> acuerdo a una permutación sesgada por tamaño.<br />

El costo <strong>de</strong> búsqueda <strong>de</strong>l ítem i esta dado por su posición en la lista, luego si se<br />

requiere un ítem <strong>de</strong> acuerdo a un muestreo sesgado por tamaño ¿cual es el costo <strong>de</strong><br />

79


uscar en cada una <strong>de</strong> las listas?.<br />

Llamemos Cn al costo <strong>de</strong> búsqueda en la lista en el or<strong>de</strong>n original pn<br />

y Sn el costo <strong>de</strong> búsqueda en la lista permutada ln (ver Proposición 4.1.3). Primero<br />

<strong>para</strong> pn tenemos el costo <strong>de</strong> buscar el ítem i es i − 1 luego la función generadora <strong>de</strong><br />

momentos <strong>de</strong> Cn es:<br />

IE e −sCn = 1 <br />

ne<br />

n<br />

m=1<br />

−s(m−1) = 1<br />

n<br />

1 − e−sn .<br />

1 − e−s En consecuencia el costo esperado vale IE [Cn] = (n−1)/2, IE [C 2 n] = (n−1)(2n−1)/6<br />

y VAR [Cn] = (n − 1)(n + 1)/12. Po<strong>de</strong>mos encontrar el siguiente comportamiento<br />

asintótico <strong>para</strong> Cn.<br />

Proposición 4.3.6. [4] Sea U una variable distribuida como una ley Uniforme en<br />

[0, 1] luego<br />

Cn<br />

n<br />

(d)<br />

−−−→ U .<br />

n→∞<br />

Demostración: La <strong>de</strong>mostración es directa tomando límite en la función generadora<br />

<strong>de</strong> momentos<br />

lím<br />

n→∞ IE e −sCn =<br />

1 − e−s<br />

s<br />

y reconociendo la transformada <strong>de</strong> Laplace <strong>de</strong> una distribución Uniforme en [0, 1].<br />

Fill encuentra el mismo comportamiento <strong>para</strong> el costo <strong>de</strong> búsqueda <strong>de</strong> una lista en<br />

otro contexto [25]. <br />

Ahora estudiemos el costo <strong>de</strong> búsqueda Sn en la lista permutada.<br />

Lema 4.3.7. [4]<br />

,<br />

80


1. La distribución <strong>de</strong> Sn es:<br />

P (Sn = k) =<br />

es unimodal con moda en k = 0.<br />

2. El primer y segundo momento son<br />

IE [Sn] =<br />

(θ + 1)Γ(n) Γ(θ + n − k)<br />

Γ(θ + n + 1) n − k<br />

n − 1<br />

2 − θ<br />

<strong>para</strong> k = 0, . . . , n .<br />

y IE S 2 (n − 1)(2n + θ − 1)<br />

n =<br />

(θ + 2)(θ + 3)<br />

Demostración: La primera parte es consecuencia directa <strong>de</strong> la expresión <strong>de</strong> IE [lm] en<br />

el Corolario 4.3.4 pues P (Sn = k) = lk+1. Notemos que P (Sn = 0) = (θ+1)/(1+nθ),<br />

y <strong>para</strong> cada k = 0, . . . , n − 1 tenemos<br />

P (Sn = k + 1)<br />

P (Sn = k)<br />

= n − k − 1<br />

θ + n − k − 1<br />

< 1,<br />

que nos indica que la moda <strong>de</strong> la distribución es k = 0. Para (2) tenemos que<br />

IE [S q n] =<br />

= (θ + 1)Γ(n)<br />

n−1<br />

k q (θ + 1)Γ(n) n−1<br />

q Γ(β + n − k)<br />

IE [lk] = k<br />

Γ(θ + n + 1) Γ(n − k)<br />

k=1<br />

k=1<br />

n−1<br />

q Γ(β + i)<br />

(n − i)<br />

Γ(θ + n + 1)<br />

Γ(i)<br />

i=1<br />

Sea A := Γ(θ + n + 1)/ ((θ + 1)Γ(n)), como n−1<br />

k=0 P (Sn = k) = 1 po<strong>de</strong>mos expresar<br />

A en términos <strong>de</strong> la siguiente sumatoria:<br />

A =<br />

n<br />

i=1<br />

Γ(β + i)<br />

Γ(i)<br />

.<br />

.<br />

.<br />

81


Sea B := Γ(θ + n + 1)/ ((θ + 2)Γ(n − 1)), utilizando el mismo razonamiento que el<br />

usado <strong>para</strong> A (basta tomar (θ + 1, n − 1) en vez <strong>de</strong> (θ, n)) expresamos B como:<br />

B =<br />

=<br />

n−1<br />

Γ(β + 1 + i) n−1<br />

Γ(β + 1 + i)<br />

= i<br />

Γ(i)<br />

Γ(i + 1)<br />

i=1<br />

i=1<br />

n Γ(β + i)<br />

(i − 1)<br />

Γ(i) =<br />

n Γ(β + i)<br />

i − A .<br />

Γ(i)<br />

i=2<br />

Tomando q = 1 obtenemos el valor esperado <strong>de</strong>l costo <strong>de</strong> búsqueda Sn<br />

IE [Sn] = 1<br />

A<br />

<br />

n<br />

= 1<br />

A<br />

= n − 1 −<br />

= n − 1<br />

i=1<br />

n Γ(β + i)<br />

i<br />

Γ(i)<br />

i=1<br />

−<br />

n<br />

<br />

Γ(β + i)<br />

i<br />

Γ(i)<br />

i=1<br />

<br />

<br />

<br />

Γ(θ + n)<br />

Γ(θ + n)<br />

n A − − A + B − n<br />

Γ(n)<br />

Γ(n)<br />

(n − 1)(θ + 1)<br />

θ + 1<br />

2 + θ .<br />

Usando argumentos similares po<strong>de</strong>mos encontrar el segundo momento (q = 2). Sin<br />

ahondar en muchos <strong>de</strong>talles sea<br />

C :=<br />

Γ(θ + n + 1)<br />

(θ + 3)Γ(n − 2) .<br />

Similarmente a lo hecho <strong>para</strong> B, po<strong>de</strong>mos expresar C en función <strong>de</strong> A y B:<br />

C =<br />

(n − 1)(n − 2)(θ + 1)<br />

A =<br />

θ + 3<br />

n<br />

i=1<br />

2 Γ(θ + i)<br />

i − 3B − A .<br />

i<br />

82


Luego <strong>para</strong> q = 2 obtenemos<br />

IE S 2 1<br />

n =<br />

= (n − 1)(2n + θ − 1)<br />

A (n2 A − 2n(A + B) + C + 3B + A)<br />

(θ + 2)(θ + 3)<br />

El resultado <strong>para</strong> la esperanza <strong>de</strong> Sn ya había sido obtenido por Kingman en [34],<br />

con otras técnicas. El resultado <strong>para</strong> la varianza también fue obtenido en el artículo<br />

[7] que también forma es parte <strong>de</strong> esta tesis, (ver Capítulo 5 en Sección 5.2.3). Nos<br />

parece que la distribución <strong>de</strong> Sn (parte (1) <strong>de</strong>l Lema 4.3.7) es nueva.<br />

hicimos <strong>para</strong> Cn.<br />

Po<strong>de</strong>mos obtener el comportamiento asintótico <strong>de</strong> Sn al igual que lo<br />

Teorema 4.3.8. [4] Sea B1,1+1/α una variable siguiendo una ley Beta <strong>de</strong> parámetros<br />

(1, 1 + 1/α) luego<br />

Sn<br />

n<br />

(d)<br />

−−−→<br />

n→∞ B1,1+1/α .<br />

Demostración: De la expresión <strong>de</strong> la función <strong>de</strong> momentos <strong>de</strong> Sn,<br />

IE<br />

q Sn<br />

=<br />

n<br />

(θ + 1)Γ(n)<br />

n−1<br />

Γ(θ + n + 1)<br />

i=1<br />

Para n gran<strong>de</strong>, esta cantidad se pue<strong>de</strong> aproximar por<br />

IE<br />

q Sn<br />

∼<br />

n<br />

(θ + 1)Γ(n)<br />

Γ(θ + n + 1)<br />

1<br />

0<br />

.<br />

<br />

1 − i<br />

<br />

Γ(θ + i)<br />

n Γ(i)<br />

q Γ(θ + nz)<br />

(1 − x)<br />

nz<br />

.<br />

dz .<br />

<br />

83


De la formula <strong>de</strong> Stirling con a > 0, po<strong>de</strong>mos aproximar Γ(a+z)/Γ(z) por z a cuando<br />

z tien<strong>de</strong> a infinito. Esto nos permite aproximar la función <strong>de</strong> momentos por<br />

IE<br />

q Sn<br />

n<br />

∼<br />

θ + 1<br />

n θ<br />

∼ (θ + 1)<br />

1<br />

(1 − z)<br />

0<br />

q (nz) θ dz<br />

1<br />

(1 − z)<br />

0<br />

q (z) θ dz ,<br />

la cual es la función <strong>de</strong> momentos <strong>de</strong> una variable B1,1+θ <strong>de</strong> media 1/(2+θ) menor que<br />

1/2. Este resultado fue generalizado <strong>para</strong> cualquier S-BP <strong>de</strong> una partición obtenida<br />

por renormalización simétrica en [4] resultado que forma parte <strong>de</strong> esta tesis en el<br />

Capítulo 5 en la Sección 5.2.2. <br />

Tenemos que en el caso en que los ítemes se quedan en el or<strong>de</strong>n original el costo<br />

<strong>de</strong> búsqueda normalizado por el número <strong>de</strong> ítemes Cn/n tien<strong>de</strong> a una Uniforme,<br />

mientras que en el caso <strong>de</strong> la lista permutada (permutación sesgada por tamaño)<br />

el costo <strong>de</strong> búsqueda normalizado Sn/n tiene una distribución Beta <strong>de</strong> parámetros<br />

(1, 1 + 1/α). Claramente tenemos U st B1,1+1/α expresando el hecho que Cn es<br />

asintóticamente mayor que Sn, luego ln organiza mejor los ítemes que pn.<br />

Recor<strong>de</strong>mos que la partición GEM(γ) se obtiene <strong>de</strong> realizar el límite<br />

<strong>de</strong> Kingman sobre ln, luego po<strong>de</strong>mos estudiar el comportamiento asintótico <strong>de</strong>l costo<br />

<strong>de</strong> búsqueda Sn <strong>para</strong> este límite.<br />

Proposición 4.3.9. [4] Sea γ una constante positiva y α(n) = γ/n, el costo Sn en<br />

la partición ln con parámetro α(n) converge a la ley Geométrica <strong>de</strong> parámetro γ (G).<br />

Sn<br />

(d)<br />

−−−→ G .<br />

n→∞<br />

84


Demostración: Sea l ∗ ∞ la partición GEM(γ) a la que converge ln cuando tomamos el<br />

límite <strong>de</strong> Kingman. Tenemos que <strong>para</strong> l ∗ ∞ = (l ∗ i ) i∈IN se tiene<br />

IE [l ∗ i ] =<br />

k−1 γ 1<br />

1 + γ 1 + γ ,<br />

Luego la función generadora <strong>de</strong> momentos <strong>de</strong>l costo <strong>de</strong> búsqueda <strong>de</strong> esta partición<br />

S ∗ vale<br />

IE e sS∗ = <br />

i≥1<br />

e si−1 IE [l ∗ i ] =<br />

1<br />

1 + γ(1 − e −s ) .<br />

La cual es la transformada <strong>de</strong> Laplace <strong>de</strong> una distribución geométrica. Notemos que<br />

P (S ∗ = 0) = E(l ∗ 1). <br />

4.4. El mo<strong>de</strong>lo <strong>de</strong> fragmentación <strong>de</strong> la vara<br />

Consi<strong>de</strong>remos una partición GEM(1) y la partición <strong>de</strong> PD(1). En con-<br />

junto satisfacen las siguientes importantes propieda<strong>de</strong>s <strong>de</strong> invariancia:<br />

El mo<strong>de</strong>lo <strong>de</strong> partición GEM(1) es invariante <strong>para</strong> la operación <strong>de</strong> S-BP (ver<br />

[57], [45], [62]).<br />

Si se or<strong>de</strong>na por tamaño <strong>de</strong>crecientes la partición GEM(1) se obtiene la par-<br />

tición PD(1) y se se realiza una S-BP en una partición PD(1) se obtiene una<br />

partición GEM(1) (ver [47]).<br />

La partición <strong>de</strong> PD(1) es invariante ante las operaciones <strong>de</strong> inserción y supresión<br />

85


<strong>de</strong> un intervalo (ver [47]) y <strong>para</strong> las operaciones <strong>de</strong> fragmentación y fusión <strong>de</strong><br />

dos intervalos (ver [46]).<br />

Para compren<strong>de</strong>r mejor la tercera propiedad <strong>de</strong>scribiremos las operaciones. La ope-<br />

ración <strong>de</strong> inserción consiste en generar un segmento <strong>de</strong> largo X distribuido según una<br />

ley Beta en insertarlo en la partición previamente reescalada por un factor 1 − X<br />

y reor<strong>de</strong>nar, la operación <strong>de</strong> supresión en una partición consiste en suprimir un in-<br />

tervalo escogido <strong>de</strong> acuerdo a un muestreo sesgado por tamaño y renormalizar. La<br />

operación <strong>de</strong> fragmentación y fusión toma dos muestreos sesgados por tamaño, los<br />

divi<strong>de</strong> en un punto aleatorio distribuido uniformemente si ambos muestreos caen en<br />

el mismo intervalo y los fusiona en uno solo <strong>de</strong> largo la suma <strong>de</strong> los dos si caen en<br />

dos intervalos distintos y luego los or<strong>de</strong>na <strong>de</strong> manera <strong>de</strong>creciente.<br />

Como ya mencionamos la partición GEM(1) se pue<strong>de</strong> aproximar por la<br />

S-BP <strong>de</strong> una partición <strong>de</strong> D simétrica Dn(1/n). En esta sección nos interesamos en<br />

otra aproximación <strong>de</strong> esta partición y sus propieda<strong>de</strong>s; consi<strong>de</strong>remos la partición <strong>de</strong>l<br />

intervalo unitario pn+1 <strong>de</strong> n + 1 fragmentos generada con el mo<strong>de</strong>lo <strong>de</strong> fracturación<br />

<strong>de</strong> la vara a partir <strong>de</strong> una secuencia <strong>de</strong> variables i.i.d. (Ui) i∈IN distribuidas como<br />

uniformes en [0, 1]. Cuando n tien<strong>de</strong> a infinito este mo<strong>de</strong>lo converge débilmente a la<br />

partición GEM(1). La función <strong>de</strong>nsidad <strong>de</strong> pn+1 está dada por:<br />

fpn+1(p1, ..., pn) =<br />

1<br />

n m=1 (1 − m k=1 pk) 1{ n m=1 pm


Recor<strong>de</strong>mos que la <strong>de</strong>nsidad <strong>de</strong> una variable aleatoria Gamma <strong>de</strong> pa-<br />

rámetro α con soporte en IR + es<br />

don<strong>de</strong> Γ es la función Gamma.<br />

fα(x) = xα−1 e x<br />

Γ(α)<br />

4.4.1. El promedio geométrico <strong>de</strong> los intervalos ocupados<br />

algunas propieda<strong>de</strong>s.<br />

Primero calculamos la función <strong>de</strong> momentos <strong>de</strong> la cual <strong>de</strong>rivaremos<br />

Lema 4.4.1. [3] La función conjunta <strong>de</strong> momentos <strong>de</strong> la partición pn+1 está dada<br />

por:<br />

IE<br />

n<br />

m=1<br />

p qm<br />

m<br />

<br />

=<br />

1<br />

1 + q1 + . . . + qn<br />

,<br />

n<br />

m=1<br />

Γ(1 + qm)<br />

1 + qm + . . . + qn<br />

Demostración: De la <strong>de</strong>finición <strong>de</strong> pn+1 como una partición RAM po<strong>de</strong>mos calcular<br />

la función generadora <strong>de</strong> momentos conjunta:<br />

IE<br />

n<br />

m=1<br />

p qm<br />

m<br />

<br />

= IE<br />

=<br />

=<br />

n<br />

n<br />

Ū<br />

m=1 k=1<br />

qm qm<br />

k Um <br />

=<br />

m=1<br />

n<br />

m=1<br />

IE U qm<br />

m U qm+1+...+qn<br />

<br />

m<br />

n Γ(1 + qm)Γ(1 + qm+1 + . . . + qn)<br />

Γ(2 + qm + . . . + . . . + qn)<br />

m=1<br />

n<br />

1<br />

Γ(1 + qm)<br />

.<br />

Γ(1 + q1 + . . . + qn) 1 + qm + . . . + . . . + qn<br />

.<br />

<br />

87


Este resultado nos permite obtener el comportamiento <strong>de</strong>l promedio geométrico <strong>de</strong><br />

los intervalos. Definimos la función F como F (q) := (1 + q −1 ) log(1 + q) − 1 con<br />

F (0) = 0. Tendremos que F ′ (q) tien<strong>de</strong> a 1/2 cuando q tien<strong>de</strong> a 0. Luego<br />

Proposición 4.4.2. [3] Se tiene el siguiente límite c.s.<br />

y<br />

lím<br />

n<br />

n→∞<br />

m=1<br />

<br />

n<br />

1<br />

lím log P<br />

n→∞ n<br />

1<br />

lím log P<br />

n→∞ n<br />

m=1<br />

n<br />

m=1<br />

p 1/n<br />

m = e −F ′ (0) = 0, 6065... ;<br />

p 1/n<br />

m > e −x<br />

p 1/n<br />

m ≤ e −x<br />

<br />

<br />

= f(x) con x > 1<br />

2 ,<br />

= f(x) con x ∈ (0, 1]<br />

, 2<br />

don<strong>de</strong> f(x) = ínfq>−1(qx − F (q)) es una cantidad menor o igual a 0. La función f<br />

correspon<strong>de</strong> a la trasformada <strong>de</strong> Legendre cóncava <strong>de</strong> F con f(1/2) = 0.<br />

Demostración: Tomamos la ecuación <strong>de</strong>l Lema 4.4.1 con qm = q/n <strong>para</strong> m = 1, . . . , n<br />

siendo q > −1, así obtenemos<br />

IE<br />

n<br />

m=1<br />

p 1/n<br />

m<br />

Si consi<strong>de</strong>ramos q > 0 tenemos<br />

IE<br />

n<br />

m=1<br />

p 1/n<br />

m<br />

q<br />

q<br />

= Γ(1 + q/n)n<br />

= Γ(1 + q/n)n<br />

Γ(1 + q)<br />

n<br />

m=1<br />

1<br />

1 + mq/n<br />

Γ(1 + q)(q/m) n<br />

Γ(1 + n/q)<br />

Γ(1 + n + n/q) .<br />

. (4.13)<br />

Usando la fórmula <strong>de</strong> Stirling obtenemos el siguiente equivalente asintótico cuando<br />

88


n tien<strong>de</strong> a infinito, don<strong>de</strong> E es la constante <strong>de</strong> Euler:<br />

IE<br />

n<br />

m=1<br />

p 1/n<br />

m<br />

q<br />

∼<br />

Por otro lado si q > −1 se tiene el siguiente límite:<br />

eEq Γ(1 + q)(1 + q) 1/2<br />

−(1+1/q)<br />

e(1 + q) n<br />

, con q > 0 .<br />

1<br />

lím −<br />

n→∞ n log<br />

<br />

n<br />

<br />

1<br />

=<br />

1 + mq/n<br />

m=1<br />

1<br />

0<br />

log(1 + qx)dx = F (q) .<br />

Aplicando esta aproximación a la ecuación (4.13) tendremos la siguiente convergencia<br />

puntual <strong>para</strong> el promedio geométrico <strong>de</strong> la partición,<br />

<br />

n<br />

1<br />

lím − log IE p<br />

n→∞ n<br />

m=1<br />

1/n<br />

q m = F (q) .<br />

El siguiente lema relaciona el promedio geométrico <strong>de</strong> la partición pn+1 con el<br />

promedio geométrico <strong>de</strong> una partición <strong>de</strong> Dirichlet simétrica.<br />

Lema 4.4.3. [3] Sea dn una partición <strong>de</strong> Dirichlet simétrica <strong>de</strong> n intervalos <strong>de</strong><br />

parámetro α = 1. Sea B1,n−1 una variable aleatoria <strong>de</strong> ley Beta <strong>de</strong> parámetros (1, n−<br />

1), in<strong>de</strong>pendiente <strong>de</strong> n<br />

m=1 p1/n<br />

m . Sean {Bn/m,1 : m = 1, . . . , n} variables i.i.d. con<br />

Bn/m,1 <strong>de</strong> ley Beta <strong>de</strong> parámetros (n/m, 1). Luego tenemos:<br />

B1,n−1<br />

n<br />

m=1<br />

p 1/n<br />

m<br />

(d)<br />

=<br />

n<br />

m=1<br />

d 1/n<br />

m<br />

<br />

n<br />

Bn/m,1, (4.14)<br />

m=1<br />

con {Bn/m,1 : m = 1, . . . , n} in<strong>de</strong>pendiente <strong>de</strong> n<br />

m=1 d1/n<br />

m .<br />

89


Demostración: La función conjunta <strong>de</strong> momentos <strong>de</strong> dn es<br />

IE<br />

n<br />

m=1<br />

d qm<br />

m<br />

<br />

=<br />

Γ(n)<br />

Γ(n + q1 + . . . + qn)<br />

Imponiendo qm = q/n <strong>para</strong> m = 1, . . . , n tenemos<br />

IE<br />

n<br />

m=1<br />

d 1/n<br />

m<br />

q<br />

n<br />

Γ(1 + qm) .<br />

m=1<br />

= Γ(n)<br />

Γ(n + q) Γ(1 + q/n)n .<br />

La función <strong>de</strong> momentos <strong>de</strong> Bn/m,1 es (1 + mq/n) −1 luego la función <strong>de</strong> momentos<br />

<strong>de</strong> n<br />

m=1 Bn/m,1 es<br />

IE<br />

n<br />

m=1<br />

B q<br />

n/m,1<br />

<br />

=<br />

n<br />

m=1<br />

1<br />

1 + mq/n .<br />

Luego recordando que la función <strong>de</strong> momento <strong>de</strong> B1,n−1 es Γ(1 + q)Γ(n)/Γ(n + q),<br />

basta con reconocer los términos <strong>de</strong> la ecuación (4.13) <strong>para</strong> concluir. <br />

4.4.2. La función partición<br />

Definimos la función <strong>de</strong> partición <strong>de</strong> pn+1 como Zn(β) := n+1<br />

m=1 pβ m<br />

<strong>para</strong> β > −1. El rango <strong>de</strong> esta variable es [(n + 1) 1−β , 1] <strong>para</strong> β ≥ 1 y [1, (n + 1) 1−β ]<br />

si β < 1. Luego el comportamiento <strong>de</strong> Zn(β) cuando n tien<strong>de</strong> a infinito está dado<br />

por la siguiente proposición,<br />

Proposición 4.4.4. [3] Sea β > 0. Luego Zn(β) converge en distribución cuando n<br />

tien<strong>de</strong> a infinito,<br />

Zn(β)<br />

d<br />

−−−→<br />

n→∞ Z∞(β) ,<br />

90


don<strong>de</strong> Z∞(β) ∈ [0, 1] <strong>para</strong> β > 1 y Z∞(β) ∈ (1, ∞) si β ∈ (0, 1). La variable Z∞(β)<br />

está caracterizada por la siguiente ecuación don<strong>de</strong> U1 sigue la ley Uniforme en [0, 1]<br />

y Z∞(β) y Z ′ ∞(β) son i.i.d:<br />

Z∞(β) (d)<br />

= U β<br />

1 + U β<br />

1Z∞(β) ′ . (4.15)<br />

Demostración: Tenemos que Z1(β) = U β<br />

1 + U β<br />

1 luego <strong>para</strong> n ≥ 2 se tiene<br />

Zn(β) = U β<br />

1 + U β<br />

1(U β<br />

2 + U β<br />

2U β<br />

3 + . . . + U β<br />

2 . . . U β<br />

n) = U β<br />

1 + U β<br />

1Z ′ n−1(β) ,<br />

con Z ′ n−1(β) (d)<br />

= Zn−1(β) e in<strong>de</strong>pendiente <strong>de</strong> U1. Luego <strong>para</strong> β > 0 tenemos que<br />

Zn(β) converge en distribución a Z∞(β) <strong>de</strong>finido en la ecuación (4.15). Notemos por<br />

mq(β) = IE [Z∞(β) q ] el q-ésimo momento <strong>de</strong> Z∞(β). La función mq queda <strong>de</strong>finida<br />

recursivamente <strong>para</strong> q ∈ IN por:<br />

<br />

con IE<br />

U β(q−k)<br />

1<br />

mq(β) =<br />

q<br />

k=1<br />

<br />

q<br />

<br />

IE<br />

k<br />

U β(q−k)<br />

1<br />

U βk<br />

<br />

1 mk(β) ,<br />

U βk<br />

<br />

1 = Γ((q−k)β+1)Γ(kβ+1)/Γ(qβ+2). En particular m1(β) = 1/β<br />

y m2(β) = (2β + 1) −1 [1 + Γ(β) 2 /Γ(2β)] son el primer y segundo momento. <br />

A continuación enumeramos algunas <strong>de</strong> las propieda<strong>de</strong>s consecuencias directas <strong>de</strong><br />

la Proposición 4.4.4:<br />

1. se tiene m(1) = 1 y m2(1) = 1,<br />

2. Si β ∈ (−1, 0) luego (IEZn(β)) 1/n converge a 1/(1 + β) cuando n tien<strong>de</strong> a<br />

91


infinito y se <strong>de</strong>duce que Zn(β) no converge.<br />

3. Cuando β > 0, la función generadora <strong>de</strong> momentos <strong>de</strong> Z∞(β) pue<strong>de</strong> obtenerse<br />

<strong>de</strong> (4.15) elevando a la potencia λ, <strong>de</strong>sarrollando el lado <strong>de</strong>recho en una serie<br />

<strong>de</strong> potencia <strong>de</strong> λ<br />

IE Z λ <br />

∞ = (λ)a1+a2IE (U<br />

a1,a2≥0<br />

β<br />

1 − 1) a1<br />

<br />

βa2 ma2(β)<br />

U 1<br />

a1!a2!<br />

con (λ)a = λ(λ − 1) . . . (λ − a + 1), (λ)0 := 1 y<br />

<br />

IE (U β<br />

1 − 1) a1<br />

<br />

βa2<br />

U 1<br />

=<br />

=<br />

a1 <br />

r=0<br />

a1 <br />

r=0<br />

(−1) a1−r<br />

(−1) a1−r<br />

<br />

Tomando λ = q/β con q ≥ 0 nos da IE<br />

a1<br />

r<br />

a1<br />

r<br />

Z q/β<br />

∞<br />

<br />

IE U βr<br />

1 U βa2<br />

<br />

1<br />

Γ(rβ + 1)Γ(a2β + 1)<br />

Γ((r + a2)β + 2)<br />

<br />

que es límite <strong>de</strong> la función <strong>de</strong><br />

momentos <strong>de</strong> la β-norma <strong>de</strong> pn+1: Zn(β) 1/β cuyo rango está en el intervalo<br />

[(n + 1) (1−β)/β , 1] consi<strong>de</strong>rando β > 0.<br />

4. El β-promedio <strong>de</strong> Rényi <strong>de</strong> los fragmentos <strong>de</strong> pn+1 se pue<strong>de</strong> calcular como:<br />

〈pn+1〉β := Zn(β + 1) 1/β con β ∈ IR .<br />

El rango <strong>de</strong> esta variable es [1/(n+1), 1] <strong>para</strong> cualquier β ∈ (−1, ∞) y [0, 1/(n+<br />

1)] <strong>para</strong> cualquier β ∈ (−∞, −1). Notemos que si p1:n+1 es el intervalo más<br />

gran<strong>de</strong> y pn+1:n+1 es el intervalo más pequeño <strong>de</strong> pn+1, se tiene que 〈pn+1〉β<br />

converge a p1:n+1 cuando β tien<strong>de</strong> a ∞ y converge a pn+1:n+1 cuando β tien<strong>de</strong><br />

a −∞. Para el promedio <strong>de</strong> Rényi <strong>de</strong> pn+1 obtenemos el siguiente resultado<br />

,<br />

.<br />

92


Corolario 4.4.5. [3] Si β > −1 y β = 0 la variable 〈pn+1〉β converge en<br />

distribución a 〈p∞〉β ∈ [0, 1]. Don<strong>de</strong> la función <strong>de</strong> momentos <strong>de</strong> 〈pn+1〉β está<br />

dada por:<br />

IE 〈pn+1〉 q <br />

β =<br />

a1,a2≥0<br />

<br />

q<br />

<br />

IE (U<br />

β a1+a2<br />

β+1<br />

1<br />

4.4.3. La ley unidimensional <strong>de</strong> un segmento<br />

− 1) a1<br />

<br />

(β+1)a2 ma2(β + 1)<br />

U 1<br />

a1!a2!<br />

Consi<strong>de</strong>remos la ley <strong>de</strong> un intervalo pm con m ∈ {1, . . . , n}. Es fácil<br />

<strong>de</strong>mostrar que pm se distribuye como una variable log-Gamma, cuya función <strong>de</strong>nsidad<br />

y distribución están dadas por (ver [24] pág. 47):<br />

fpm(x) =<br />

1<br />

(m − 1)! (− log x)m−1 , (4.16)<br />

Fpm(x) =<br />

m−1 1<br />

x<br />

k! (− log x)k con x ∈ [0, 1] .<br />

k=0<br />

La distribución <strong>de</strong> la variable pm se pue<strong>de</strong> caracterizar también por su función <strong>de</strong><br />

momentos IE(p q m) = (1 + q) −m con q > −1 y tiene media 2 −m .<br />

Notemos que el espacio restante pn+1 y el espacio ocupado por la última<br />

especie pn son iguales en distribución luego IE(p q<br />

n+1) = (1 + q) −n con q > −1 y tiene<br />

media 2 −n . Utilizando la ley <strong>de</strong> los gran<strong>de</strong>s números y el teorema central <strong>de</strong>l límite<br />

(versiones multiplicativas) tenemos la siguiente proposición.<br />

Proposición 4.4.6. [3] El espacio restante pn+1 (que es igual en distribución al<br />

.<br />

93


espacio ocupado por la última especie pn) satisface los siguientes limites<br />

pn+1<br />

c.s.<br />

−−−→<br />

n→∞ e−1 ,<br />

don<strong>de</strong> L es una distribución Lognormal.<br />

<br />

ep 1/n<br />

<br />

n+1<br />

(d)<br />

−−−→ L ,<br />

n→∞<br />

Observemos que si consi<strong>de</strong>ramos el espacio ocupado por las m primeras<br />

especies Jm, tendremos que 1 − Jm satisface el mismo resultado que acabamos <strong>de</strong><br />

presentar pues equivale a consi<strong>de</strong>rar la partición pm+1.<br />

4.4.4. Or<strong>de</strong>n <strong>de</strong>creciente en tamaño: la distribución <strong>de</strong>l más<br />

pequeño y <strong>de</strong>l más largo <strong>de</strong> los intervalos<br />

Sea pn+1 ↓ = (p1:n+1, . . . , pn+1:n+1) la partición obtenida al or<strong>de</strong>nar por<br />

tamaño <strong>de</strong>creciente la partición pn+1 incluyendo el espacio restante pn+1. En parti-<br />

cular, <strong>para</strong> el intervalo más pequeño y <strong>para</strong> el intervalo más largo encontramos la<br />

siguiente proposición:<br />

Proposición 4.4.7. [3] Sea F pn+1:n+1(x) = P (pn+1:n+1 > x). Luego po<strong>de</strong>mos <strong>de</strong>finir<br />

por recurrencia la distribución <strong>de</strong>l más pequeño <strong>de</strong> los segmentos pn+1:n+1 por<br />

y <strong>para</strong> n ≥ 2<br />

F pn+1:n+1(x) =<br />

F p2:2(x) = (1 − 2x) , con x ∈ (0, 1/2)<br />

1−sx<br />

x<br />

F pn:n<br />

<br />

x<br />

1 − u<br />

<br />

du , con x ∈ (0, 1/(n + 1)) .<br />

94


Sea Fp1:n+1(x) = P (p1:n+1 ≤ x). Luego también po<strong>de</strong>mos <strong>de</strong>finir por recurrencia la<br />

distribución <strong>de</strong>l intervalo más gran<strong>de</strong> segmento p1:n+1 por<br />

y <strong>para</strong> n ≥ 2<br />

x<br />

Fp1:n+1(x) =<br />

Fp1:2(x) = (2x − 1) , con x ∈ (1/2, 1) ,<br />

(1−sx)+<br />

Fp1:n<br />

<br />

x<br />

1 − u<br />

<br />

du , con x ∈ (1/(n + 1), 1) .<br />

Demostración: La <strong>de</strong>mostración <strong>de</strong> ambas recurrencias es similar, basta condicio-<br />

nar en el tamaño <strong>de</strong>l primer p1 <strong>de</strong> la partición pn+1. Será suficiente <strong>de</strong>mostrar la<br />

recurrencia el segmento más largo.<br />

Cuando n = 1 tenemos dos segmentos que suman 1, luego es evi<strong>de</strong>nte<br />

que el más gran<strong>de</strong> <strong>de</strong> los intervalos tiene un tamaño más gran<strong>de</strong> que 1/2.<br />

Fp1:2(x) = P (U1 ≤ x, 1 − U1 ≤ x) = 2x − 1 , con x ∈ (1/2, 1) .<br />

Para n ≥ 2, condicionamos en U1:<br />

Fp1:n+1(x) = P (p1 ≤ x, . . . , pn+1 ≤ x)<br />

<br />

= P<br />

=<br />

=<br />

x<br />

U1 ≤ x, U 1U2 ≤ x, . . . ,<br />

(1−nx)∨0<br />

x<br />

(1−nx)+<br />

P<br />

<br />

Fp1:n<br />

n<br />

<br />

U m ≤ x<br />

m=1<br />

U2 ≤ x<br />

, . . . ,<br />

1 − u<br />

<br />

x<br />

du ,<br />

1 − u<br />

n<br />

m=2<br />

U m ≤ x<br />

<br />

1 − u<br />

du<br />

95


don<strong>de</strong> el límite inferior <strong>de</strong> la integral es (1 − nx)+ porque el soporte <strong>de</strong> la variable<br />

p1:n es (1/n, 1). Para n = 2 la variable p1:3 tiene soporte en (1/3, 1) y distribución:<br />

Fp1:3(x) = −2x log<br />

<br />

1 − x ∧ (1 − x)<br />

+ x − x ∧ (1 − x) .<br />

1 − (1 − 2x)<br />

La distribución y la <strong>de</strong>nsidad <strong>de</strong> p1:3 son continuas, en cambio la <strong>de</strong>rivada <strong>de</strong> la<br />

<strong>de</strong>nsidad presenta una discontinuidad en x = 1/2. <br />

Proposición 4.4.8. [3] Sea ζ1 una variable aleatoria tal que 1/ζ1 se distribuye como<br />

una ley <strong>de</strong> Dickman. Luego el más pequeños <strong>de</strong> los segmentos p1:n+1 converge en<br />

distribución a ζ1 cuando n tien<strong>de</strong> a infinito.<br />

Demostración: Asumamos que p1:n+1 converge en distribución a una variable que<br />

llamaremos p1:∞. Supongamos que p1:∞ es una variable no <strong>de</strong>generada y sea F∞ su<br />

función distribución. Luego <strong>de</strong> la <strong>de</strong>finición recursiva <strong>de</strong> Fp1:n+1 tenemos que F∞ <strong>de</strong>be<br />

ser solución funcional <strong>de</strong><br />

F∞(x) =<br />

x<br />

0<br />

F∞<br />

<br />

x<br />

1 − u<br />

<br />

du con x ∈ (0, 1) dt .<br />

Esta ecuación equivale a <strong>de</strong>cir que la variable p1:∞ satisface la relación p1:∞<br />

U1 ∨ U1p ′ 1:∞ don<strong>de</strong> p ′ 1:∞ y p1:∞ están idénticamente distribuidas y ambas son in-<br />

<strong>de</strong>pendiente <strong>de</strong> U1. Haciendo un cambio <strong>de</strong> variable x/(1 − u) obtenemos:<br />

1/x<br />

F∞(x) = x F∞<br />

(1−x)/x<br />

<br />

1<br />

t<br />

Finalmente sea G la función distribución <strong>de</strong> 1/p1:∞, luego G(t) = F∞(1/t) con t > 1.<br />

dt .<br />

(d)<br />

=<br />

96


Reemplazando G en la relación anterior,<br />

Derivando obtenemos la relación<br />

x(1 − G(x)) =<br />

1/x<br />

(1−x)/x<br />

G(t) dt .<br />

xG ′ (x) + G(x − 1) = 0,<br />

que muestra que G es una función <strong>de</strong> Dickman (ver [33] y las referencia citadas ahí).<br />

Luego la distribución <strong>de</strong> p1:∞ es:<br />

F∞(x) = 1 + [1/s] (log x)m<br />

m = 1<br />

m!<br />

, con x ∈ (0, 1) .<br />

Para el intervalo más pequeños encontramos el siguiente comportamiento asintótico,<br />

Proposición 4.4.9. [3] Cuando n tien<strong>de</strong> a infinito<br />

lím inf<br />

n→∞ enpn+1:n+1 = 0 y lím sup e<br />

n→∞<br />

n pn+1:n+1 = ∞ .<br />

Demostración: Sea d = (di) m∈IN una partición PD <strong>de</strong> parámetro 1. Kingman es-<br />

tableció que e m dm converge a 1 c.s. cuando m tien<strong>de</strong> a infinito, luego podríamos<br />

especular que existe una variable no <strong>de</strong>generada C estrictamente positiva tal que,<br />

e n pn+1:n+1<br />

(d)<br />

−→ C .<br />

<br />

97


Si fuera así sea F∞ la distribución <strong>de</strong> la variable C. De la recursión <strong>para</strong> el segmento<br />

más pequeño <strong>de</strong> la Proposición 4.4.7, tenemos que F ∞ = 1 − F∞ <strong>de</strong>bería satisfacer<br />

la siguiente relación:<br />

F ∞(x) =<br />

1<br />

0<br />

<br />

x<br />

F ∞<br />

du .<br />

e(1 − u)<br />

Esto significa que C satisface la siguiente igualdad C (d)<br />

= eUC ′ don<strong>de</strong> U y C ′ son<br />

in<strong>de</strong>pendientes, U sigue una ley Uniforme y C ′ se distribuye como C. Después <strong>de</strong> un<br />

cambio <strong>de</strong> variable en la integral obtenemos:<br />

F ∞(x) = x<br />

e<br />

e/x<br />

0<br />

F ∞<br />

Derivando esta expresión obtenemos la relación<br />

<br />

1<br />

t<br />

dt .<br />

xF ′<br />

∞(x) = F ∞(x) − F ∞(x/e) .<br />

Sea G(z) = F ∞(e z ) con z ∈ IR, luego G <strong>de</strong>be satisfacer la ecuación <strong>de</strong> diferencia-<br />

diferencial:<br />

G ′ (z) = G(z) − G(z − 1) con G(−∞) = 1 y G(∞) = 0 .<br />

Bajo estos supuestos las únicas soluciones podrían ser las funciones constantes G(z) =<br />

0 o G(z) = 1. Luego las soluciones <strong>para</strong> la ecuación funcional original son F (x) = 0<br />

<strong>para</strong> x > 0 ó F (x) = 0 <strong>para</strong> x ≥ 0. <br />

Ahora si consi<strong>de</strong>ramos el más pequeños y más largo <strong>de</strong> los intervalos ocupados sin<br />

tomar en cuenta pn+1, es <strong>de</strong>cir, p + n:n+1 := p1 ∨ . . . ∨ pn y p + 1:n+1 := p1 ∧ . . . ∧ pn.<br />

98


Obtenemos una relación <strong>de</strong> recurrencia similar pero más simple:<br />

y <strong>para</strong> n ≥ 2<br />

F +<br />

p (x) =<br />

1:n+1<br />

x<br />

Luego <strong>para</strong> n = 2 obtenemos<br />

0<br />

F +<br />

p (x) = s con x ∈ (0, 1) ,<br />

1:2<br />

F p +<br />

1:n<br />

<br />

x<br />

1 − u<br />

<br />

du , con x ∈ (1/(n + 1), 1) .<br />

F +<br />

p (x) = s log (1 − s ∧ (1 − s)) + s − s ∧ (1 − s) , con x ∈ (0, 1) .<br />

1:2<br />

La función distribución y la <strong>de</strong>nsidad <strong>de</strong> p + 1:2 son continuas pero la <strong>de</strong>rivada <strong>de</strong> la<br />

<strong>de</strong>nsidad tiene una discontinuidad en s = 1/2. Usando el mismo razonamiento que<br />

utilizamos <strong>para</strong> p1:n+1 tenemos que p + 1:n+1 converge en distribución a L cuando n<br />

tien<strong>de</strong> a infinito don<strong>de</strong> 1/L se distribuye como una ley <strong>de</strong> Dickman.<br />

y <strong>para</strong> n ≥ 2<br />

Análogamente <strong>para</strong> el mínimo tenemos:<br />

F +<br />

p (x) =<br />

n:n+1<br />

1<br />

x<br />

F +<br />

p (x) = 1 − s con x ∈ (0, 1) ,<br />

1:2<br />

F p +<br />

n−1:n<br />

<br />

x<br />

1 − u<br />

<br />

du , con x ∈ (1/(n + 1), 1) .<br />

La cantidad F +<br />

p (x) se interpreta en el mo<strong>de</strong>lo como la probabilidad que todas las<br />

n:n+1<br />

especies ocupen al menos una fracción x <strong>de</strong>l espacio (la cual podría ser una condición<br />

<strong>de</strong> supervivencia en algún medio <strong>para</strong> algún valor <strong>de</strong> x).<br />

99


De mismo modo po<strong>de</strong>mos <strong>de</strong>finir la distribución conjunta <strong>de</strong>l segmento<br />

más pequeño y más gran<strong>de</strong> <strong>de</strong> pn. Sea<br />

Luego<br />

y <strong>para</strong> n ≥ 2<br />

Gn(x1, x2) := P (p1:n+1 > x1, pn+1:n+1 ≤ x2) .<br />

G1(x1, x2) = x2 ∧ (1 − x1) − x1 ∨ (1 − x2) , con x1 < 1<br />

2<br />

Gn(x1, x2) =<br />

Análogamente, sea<br />

Luego <strong>para</strong> G + 1 tenemos<br />

y <strong>para</strong> n ≥ 2<br />

x2(1−x1)<br />

x1(1−x2)<br />

Gn−1<br />

<br />

x1 x2<br />

,<br />

1 − u 1 − u<br />

G + n (x1, x2) := P p + 1:n+1 > x1, p + <br />

n,n+1 ≤ x2 .<br />

G + 1 (x1, x2) = x2 − x1 , con x1 < x2<br />

G + x2<br />

n (x1, x2) = Gn−1<br />

x1<br />

<br />

x1 x2<br />

,<br />

1 − u 1 − u<br />

≤ x2<br />

du con x1 < 1<br />

n + 1 ≥ s2 .<br />

du con x1 < x2 .<br />

Esta cantidad nos permite estudiar la regularidad <strong>de</strong> los espacios ocupados por las<br />

especies. Si x1 = x y x2 = 2x tenemos que G + n (x, 2x) es la probabilidad que cada<br />

una <strong>de</strong> las especies ocupe una fracción mayor que x y menor que 2x luego los gaps<br />

|pm − x| serán menores que x <strong>para</strong> esta configuración.<br />

100


4.4.5. Permutación sesgada por tamaño<br />

Sea ln+1 = (l1, . . . , ln+1) la partición resultante <strong>de</strong> realizar una S-BP<br />

<strong>de</strong> pn+1. De la Proposición 4.1.5 <strong>de</strong>ducimos la siguiente relación <strong>para</strong> la distribución<br />

<strong>de</strong>l primer intervalo l1, utilizando la función g(l) = l 1l>x:<br />

F l1(x) =<br />

=<br />

n+1<br />

m=1<br />

n+1 1<br />

<br />

m=1<br />

<br />

IE pm 1pm>x<br />

x<br />

tfpm(t) dt .<br />

Reemplazando el valor <strong>de</strong> la <strong>de</strong>nsidad fpm dado en la ecuación (4.16) en la última<br />

expresión:<br />

F l1(x) =<br />

n−1<br />

m=0<br />

1<br />

x<br />

t(− log t) m<br />

m!<br />

dt +<br />

1<br />

s<br />

t(− log t) n−1<br />

(n − 1)!<br />

dt . (4.17)<br />

Po<strong>de</strong>mos proce<strong>de</strong>r análogamente <strong>para</strong> la función <strong>de</strong> momentos <strong>de</strong> l1 y obtenemos<br />

IE [l q<br />

1] =<br />

=<br />

= 1 + q(2 + q)−n<br />

n+1<br />

m=0<br />

n<br />

m=0<br />

IE p q+1<br />

m<br />

1 1<br />

+<br />

(1 + q) m (1 + q) n<br />

1 + q<br />

Notemos que IE[l1] = IE[〈pn+1〉1] ≥ IE(p1), luego podríamos conjeturar que l1 es<br />

estocásticamente mayor que p1 que, estocásticamente, es más gran<strong>de</strong> <strong>de</strong> los segmentos<br />

<strong>de</strong> la partición.<br />

.<br />

101


Proposición 4.4.10. [3] Para el primer segmento <strong>de</strong> ln+1 se tiene<br />

l1 st p1 .<br />

Demostración: Debemos <strong>de</strong>mostrar que <strong>para</strong> todo x en [0, 1] se tiene F l1(x) ≥ F p1(x).<br />

Tenemos que en F l1(0) = F p1(0) = 1 y F l1(1) = F p1(1) = 0. A<strong>de</strong>más <strong>de</strong>rivando dos<br />

veces la expresión <strong>de</strong> F l1 en la ecuación (4.17) obtenemos<br />

F ′′<br />

l1 (x) = −<br />

2<br />

(n − 1)!<br />

(log s)(n−1)<br />

<br />

n − 1<br />

1 +<br />

2 log s<br />

El único punto <strong>de</strong> inflexión <strong>de</strong> F l1 es x = e (n−1) . Luego como F l1(0) = 0 y F l1(1) = −1<br />

se tiene que F l1(x) ≥ 1 − x = F p1(x) la <strong>de</strong>sigualdad <strong>de</strong>seada. <br />

Finalmente notemos que IE [l q<br />

1] tien<strong>de</strong> a IE [p q<br />

1] = 1/(1+q) cuando n tien<strong>de</strong> a infinito<br />

es natural si consi<strong>de</strong>ramos la propiedad <strong>de</strong> invarianza <strong>de</strong> la partición límite GEM(1).<br />

Consi<strong>de</strong>remos ahora la función <strong>de</strong> momentos conjunta <strong>de</strong> ln+1, que<br />

recor<strong>de</strong>mos es la S-BP <strong>de</strong> pn+1. Consi<strong>de</strong>remos la ecuación (4.1) que es la distribución<br />

<strong>de</strong> la S-BP <strong>de</strong> una partición no aleatoria. Sea Ω el conjunto <strong>de</strong> las permutación <strong>de</strong><br />

{1, . . . , n + 1}. Luego<br />

IE<br />

n+1<br />

<br />

m=1<br />

<br />

= <br />

<br />

n<br />

p<br />

IE<br />

qk+1<br />

σk<br />

1 − k j=1 pσj<br />

p qn+1+1<br />

<br />

σn+1<br />

l q<br />

1<br />

σ∈Ω<br />

k=1<br />

Aunque calculable en teoría, algo <strong>de</strong> combinatoria es necesaria <strong>para</strong> evaluar el lado<br />

<strong>de</strong>recho <strong>de</strong> la última ecuación. Recordando que la S-BP se <strong>de</strong>fine recursivamente<br />

como un muestreo sesgado tamaño, la extracción <strong>de</strong>l segmento escogido y la re-<br />

.<br />

.<br />

102


normalización <strong>de</strong> los segmentos restantes, la última expresión se pue<strong>de</strong> encontrar.<br />

Po<strong>de</strong>mos calcular la función <strong>de</strong> momentos <strong>de</strong>l i-ésimo segmento <strong>de</strong> la partición ln+1<br />

condicional a los primeros i segmentos. Sean pσ1, . . . , pσi los tamaños <strong>de</strong> los primeros<br />

i − 1 segmentos <strong>de</strong> ln+1 y sea Ξ = {1, . . . , n + 1} − {σ1, . . . , σi}:<br />

IE l q<br />

i+1 | l1<br />

q<br />

= pσ1, . . . , li−1 = pσi = IE IE l<br />

⎡<br />

= IE ⎣<br />

i+1 | pn+1, l1 = pσ1, . . . , li−1 = pσi<br />

1<br />

1 − k<br />

j=1 pσj<br />

<br />

σi+1∈Ξ<br />

pσi+1<br />

Es una expresión recursiva <strong>de</strong> los momentos un poco más sencilla que la conjunta.<br />

⎤<br />

⎦ .<br />

<br />

103


Reglas <strong>de</strong> autorganización con<br />

popularida<strong>de</strong>s aleatorias<br />

En este capítulo estudiaremos las estrategias <strong>para</strong> or<strong>de</strong>nar objetos, la<br />

regla <strong>de</strong> Move-to-Front (MtF) y <strong>de</strong> Move-to-Root (MtR). Imaginemos que tenemos<br />

una lista <strong>de</strong> n ítemes y que a cada instante t un objeto es requerido el cual, una<br />

vez usado, es <strong>de</strong>splazado al comienzo <strong>de</strong> la lista, esta es la estrategia MtF. Si en vez<br />

<strong>de</strong> consi<strong>de</strong>rar una lista se consi<strong>de</strong>ra un árbol (<strong>de</strong> búsqueda binaria) <strong>para</strong> almacenar<br />

los ítemes, <strong>de</strong> modo que una vez que se esta disponible el ítem será <strong>de</strong>splazado a la<br />

raíz. Luego tendremos a groso modo la estrategia MtR. Pensando solo en la lista,<br />

supongamos que el objeto i es solicitado una fracción pi <strong>de</strong>l total <strong>de</strong> pedidos con<br />

<br />

i pi = 1 formando pn = (p1, . . . , pn) el vector <strong>de</strong> popularida<strong>de</strong>s. Si <strong>para</strong> encontrar el<br />

objeto vamos revisando la lista <strong>de</strong>s<strong>de</strong> a<strong>de</strong>lante hacia atrás, pasaremos menos tiempo<br />

buscando en la lista si or<strong>de</strong>namos en una permutación ς tal que (pςi ) sea <strong>de</strong>creciente.<br />

Pero, si por algún motivo, no conocemos los valores <strong>de</strong> (pi), po<strong>de</strong>mos intuir que la<br />

regla MtF será una buena estrategia. Una situación similar ocurre <strong>para</strong> un árbol;<br />

si se conocen los valores <strong>de</strong> pn Knuth propone (ver [36] pág. 433-477) un árbol <strong>de</strong><br />

búsqueda binaria <strong>de</strong> costo mínimo. En el caso que no se conocen pn se pue<strong>de</strong> utilizar<br />

la regla MtR.<br />

Supongamos que los objetos son solicitados in<strong>de</strong>pendientemente <strong>de</strong> las<br />

solicitu<strong>de</strong>s pasadas y que la probabilidad pi <strong>de</strong> requerir el objeto i es constante en<br />

el tiempo. En este caso se pue<strong>de</strong> mo<strong>de</strong>lar el problema como una ca<strong>de</strong>na <strong>de</strong> Markov<br />

que itera sobre las permutaciones <strong>de</strong> los n objetos. Esta ca<strong>de</strong>na <strong>de</strong> Markov también<br />

104


es conocida como como la librería <strong>de</strong> Tsetlin o proceso <strong>de</strong> Montón (“Heap process”).<br />

En 1965 McCabe estudia en [43] el proceso <strong>de</strong> MtF <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista probabi-<br />

lista, motivado por sus aplicaciones <strong>para</strong> or<strong>de</strong>nar. Por su parte Tsetlin ya en el 1963<br />

represento este proceso como un autómata finito reconociendo que se podía <strong>de</strong>scribir<br />

como una ca<strong>de</strong>na <strong>de</strong> Markov (ver [60]). Por su parte la regla MtR fue propuesta por<br />

Allen y Munro en 1978 en [2], la cual explicaremos en <strong>de</strong>talle en la primera sección.<br />

Una revisión completa <strong>de</strong> ambas estrategias y sus generalizaciones se pue<strong>de</strong> encon-<br />

trar en la tesis <strong>de</strong> Bo<strong>de</strong>ll [11]. Las propieda<strong>de</strong>s <strong>de</strong>l mo<strong>de</strong>lo MtF fueron estudiadas<br />

por diferentes autores obteniendo el costo <strong>de</strong> búsqueda en régimen estacionario por<br />

McCabe en [43], la distribución estacionaria <strong>de</strong> la ca<strong>de</strong>na por Hendricks en [31] (y<br />

Tsetlin [60]) y la función generatriz <strong>de</strong>l costo <strong>de</strong> búsqueda por Flajolet et al. en [28]<br />

entre otras propieda<strong>de</strong>s. En el caso <strong>de</strong> la regla MtR el análisis resulta más complejo,<br />

sin embargo Dobrow y Fill en [20] y [21] logran hacer un análisis sobre el proce-<br />

so <strong>de</strong> Markov con estados en los posibles árboles binarios, su costo <strong>de</strong> búsqueda,<br />

distribución estacionaria y velocidad <strong>de</strong> convergencia.<br />

Para ambas estrategias es difícil hacer un análisis más profundo sin<br />

hacer algún supuesto sobre pn, Fill estudia en [25] la regla MtF suponiendo cier-<br />

tas distribuciones <strong>para</strong> las popularida<strong>de</strong>s pn. Análogamente Dobrow y Fill hacen lo<br />

mismo en [21] <strong>para</strong> la regla <strong>de</strong> MtR. Esto motiva a enfrentar las estrategias a un<br />

escenario don<strong>de</strong> se tenga alguna noción <strong>de</strong>l comportamiento <strong>de</strong> las popularida<strong>de</strong>s sin<br />

conocer su valor exacto y preguntarnos que po<strong>de</strong>mos <strong>de</strong>cir <strong>de</strong>l comportamiento <strong>de</strong> las<br />

reglas MtF y MtR. Es eso precisamente lo que hacemos al enfrentar a las estrategias<br />

<strong>de</strong> al caso general <strong>de</strong> las particiones aleatorias por renormalización <strong>de</strong>finidas en el<br />

Capítulo 4. Nuestros resultados se reducen a estudiar el costo <strong>de</strong> búsqueda estaciona-<br />

rio y su comportamiento asintótico cuando el numero <strong>de</strong> objetos n tien<strong>de</strong> a infinito.<br />

105


Nuestro trabajo es similar al realizado por Papanicolaou et al. en [44] que estudiaron<br />

el problema <strong>de</strong>l coleccionista <strong>de</strong> cupones <strong>para</strong> la misma partición aleatoria.<br />

En este capítulo se recopilan los resultados <strong>de</strong>l trabajo realizado en<br />

colaboración con Ch. Paroissin [7]) publicado en el “Journal of Applied Probability”<br />

y su continuación ([5]) realizada con la colaboración <strong>de</strong> Ch. Paroissin y T. Huillet a<br />

sido aceptadad por “Operating Research Letters”. Así como los resultados obtenidos<br />

con Ch. Paroissin <strong>de</strong>l poster ([8]) presentados en el “Third Colloquium on Mathe-<br />

matics and Computer Science Algorithms, Trees, Combinatorics and Probabilities”.<br />

En la Sección 5.1 presentamos la motivación <strong>de</strong>l problema, los mo<strong>de</strong>los <strong>de</strong> las es-<br />

trategias y las propieda<strong>de</strong>s relevantes <strong>para</strong> nuestros resultados. En la Sección 5.2<br />

estudiamos el comportamiento asintótico cuando el numero <strong>de</strong> elementos tien<strong>de</strong> a<br />

infinito y finalmente proveemos algunos ejemplos. Finalmente en la Sección 5.3 se<br />

<strong>de</strong>rivan expresiones <strong>para</strong> el primer y segundo momentos <strong>de</strong>l costo <strong>de</strong> búsqueda <strong>para</strong><br />

la estrategia MtR (BSn) y se dan algunos ejemplos con el comportamiento asintótico<br />

cuando es posible.<br />

5.1. Reglas <strong>de</strong> auto-organización <strong>de</strong> datos<br />

En esta sección veremos primero que las ventajas <strong>de</strong> la regla se pue<strong>de</strong>n<br />

intuir en un mo<strong>de</strong>lo simple y luego introduciremos formalmente los mo<strong>de</strong>los <strong>de</strong> las<br />

dos estrategias en el caso <strong>de</strong> popularida<strong>de</strong>s <strong>de</strong>terministas.<br />

106


5.1.1. Motivación: ¿Cómo y dón<strong>de</strong> almacenar libros?<br />

Imaginemos que tenemos una repisa con nuestros libros (podría ser<br />

cualquier otro tipo <strong>de</strong> objeto). Cada vez que un libro es requerido recorremos la<br />

estantería <strong>de</strong> izquierda a <strong>de</strong>recha com<strong>para</strong>ndo uno a uno los títulos <strong>de</strong> los libros con<br />

el título <strong>de</strong> aquel que buscamos hasta dar con el libro requerido. Po<strong>de</strong>mos <strong>de</strong>cir que el<br />

tiempo que nos toma encontrar el libro es proporcional al número <strong>de</strong> com<strong>para</strong>ciones<br />

que tuvimos que hacer, es <strong>de</strong>cir, la posición <strong>de</strong>l menos uno.<br />

Si consi<strong>de</strong>ramos que hay libros que consultaremos más frecuentemen-<br />

te que otros, nos gustaría or<strong>de</strong>nar los libros <strong>de</strong> modo <strong>de</strong> pasar poco tiempo en la<br />

búsqueda <strong>de</strong> aquel que necesitamos. Por supuesto que si supiéramos la frecuencia<br />

con que consultamos cada libro bastaría que los or<strong>de</strong>nemos <strong>de</strong> manera <strong>de</strong>creciente<br />

con respecto a su popularidad y minimizaríamos nuestro tiempo <strong>de</strong> búsqueda pues<br />

mientras más frecuentemente necesitemos un libro menos com<strong>para</strong>ciones haremos<br />

<strong>para</strong> encontrarlo. ¿Que pasa si no conocemos la frecuencia con que necesitaremos<br />

el libro? o ¿si cambia en el tiempo? o si estimarlas tiene un costo, dado este costo<br />

¿vale la pena estimarlas?. Una posibilidad es que una vez que <strong>de</strong>socupamos un libro<br />

lo <strong>de</strong>jemos en su lugar original, pero esto no tomará en cuenta que hay libros más<br />

populares. Una solución intermedia es que cada vez que terminamos <strong>de</strong> utilizar un<br />

libro lo ponemos en la primera posición (a la izquierda <strong>de</strong> la estantería). De este<br />

modo si un libro se pi<strong>de</strong> frecuentemente ten<strong>de</strong>rá a quedar en el lado izquierdo y<br />

si un libro es rara vez solicitado ten<strong>de</strong>rá a quedar a la <strong>de</strong>recha, esta es la regla <strong>de</strong><br />

move-to-front (mover al frente). Sin embargo no es la única estrategia que sin cono-<br />

cer explícitamente los valores <strong>de</strong> las popularida<strong>de</strong>s <strong>de</strong> los libros las tome en cuenta,<br />

también esta la regla <strong>de</strong> permutar (transposing o move-ahead-1) don<strong>de</strong> una vez que<br />

107


se <strong>de</strong>socupa un libro lo ponemos una posición más a<strong>de</strong>lante <strong>de</strong> la que tenía cuando<br />

lo encontramos. Por supuesto que <strong>de</strong> la combinación <strong>de</strong> estas dos reglas pue<strong>de</strong>n sur-<br />

gir muchas otras estrategias que pue<strong>de</strong>n ser más o menos valiosas <strong>de</strong>pendiendo <strong>de</strong>l<br />

contexto <strong>de</strong>l problema.<br />

Si consi<strong>de</strong>ramos el mismo problema pero ahora nos permitimos alma-<br />

cenar nuestros libros en una estructura más sofisticada que una lista (representada<br />

por la repisa) podríamos disminuir aun más nuestro tiempo <strong>de</strong> búsqueda. Es así<br />

como surge la regla <strong>de</strong> Move-to- Root que or<strong>de</strong>na los libros en un árbol <strong>de</strong> búsqueda<br />

binaria.<br />

5.1.2. El mo<strong>de</strong>lo <strong>de</strong> Move-to-Front<br />

Consi<strong>de</strong>remos una lista <strong>de</strong> n archivos (o libros) y <strong>de</strong>notemos el conjunto<br />

<strong>de</strong> archivos por {1, . . . , n} don<strong>de</strong> la popularidad <strong>de</strong> los elementos es constante en el<br />

tiempo. A cada instante <strong>de</strong> tiempo t se requiere un archivo, el i-ésimo archivo se<br />

requerirá con probabilidad pi, como en un muestreo sesgado por tamaño en pn (ver<br />

Definición 4.1.4). La lista <strong>de</strong> archivos es actualizada <strong>de</strong> acuerdo a la regla <strong>de</strong> MtF,<br />

es <strong>de</strong>cir, cada vez que un archivo es requerido, una vez utilizado será <strong>de</strong>splazado a la<br />

primera posición <strong>de</strong> la lista. Luego el proceso se pue<strong>de</strong> enten<strong>de</strong>r como una ca<strong>de</strong>na <strong>de</strong><br />

Markov don<strong>de</strong> el espacio <strong>de</strong> estados es el conjunto <strong>de</strong> las permutaciones <strong>de</strong>l conjunto<br />

{1, . . . , n} y la probabilidad <strong>de</strong> transición entre dos permutaciones ς y ς ′ está dado<br />

108


por:<br />

P (σ(t + 1) = ς ′ ⎧<br />

⎪⎨ pi si ς<br />

| σ(t) = ς) =<br />

⎪⎩<br />

′ se <strong>de</strong>duce ς moviendo i al frente ,<br />

0 en otro caso .<br />

Este mo<strong>de</strong>lo también es conocido como la librería <strong>de</strong> Tsetlin o “Heap process” y se<br />

pue<strong>de</strong> consi<strong>de</strong>rar el problema a tiempo continuo si entre un pedido y otro pasa un<br />

tiempo exponencial. Este proceso tiene una única distribución estacionaria: la permu-<br />

tación sesgada por tamaño <strong>de</strong> pn <strong>de</strong>finida en el Capítulo 4 en la Definición 4.1.4. La<br />

distribución estacionaria fue obtenida por Hendricks [31] pero ya había sido obtenida<br />

por Tsetlin en [60] en el contexto <strong>de</strong> autómatas (ver también [22] y [26]).<br />

El <strong>de</strong>sempeño que alcanza esta estructura esta dado por el tiempo que<br />

nos <strong>de</strong>moramos en encontrar el archivo requerido, que es el tiempo que <strong>de</strong>moramos<br />

en hacer una búsqueda lineal en la lista.<br />

Definición 5.1.1. El costo <strong>de</strong> búsqueda lineal Sn(t) en la estrategia MtF se <strong>de</strong>fine<br />

el costo <strong>de</strong> búsqueda lineal en la permutación que genero la estrategia en el instante<br />

en que se solicita el ítem (ver Proposición 4.1.3).<br />

Luego si el objeto requerido al instante t se encuentra en la posición i<br />

el costo <strong>de</strong> buscarlo será i − 1.<br />

Este concepto <strong>de</strong> costo fue introducido por McCabe [43]. Notemos por<br />

Sn el costo <strong>de</strong> búsqueda cuando el proceso está en régimen estacionario. En la si-<br />

guiente proposición se entrega el valor <strong>de</strong> la transformada <strong>de</strong> Laplace <strong>de</strong> Sn en el<br />

contexto <strong>de</strong> popularida<strong>de</strong>s <strong>de</strong>terminista y correspon<strong>de</strong> al Teorema 2 <strong>de</strong> [26] (también<br />

se pue<strong>de</strong> encontrar en [11]):<br />

109


Proposición 5.1.2. La transformada <strong>de</strong> Laplace <strong>de</strong>l costo Sn esta dado por,<br />

<strong>para</strong> todo s 0.<br />

IE[exp(−sSn) | ω] =<br />

∞<br />

0<br />

e −t<br />

n<br />

i=1<br />

p 2 i<br />

n −s tpk 1 + e (e − 1) dt , (5.1)<br />

k=1<br />

k=i<br />

De está expresión se pue<strong>de</strong>n obtener la esperanza y varianza <strong>de</strong> Sn:<br />

IE[Sn] = <br />

i=j<br />

pipj<br />

pi + pj<br />

VAR[Sn] = IE[Sn] (1 − IE[Sn]) +<br />

4 pipjpk<br />

i


particiones que se relaciona con la estrategia MtF es el problema <strong>de</strong>l coleccionista<br />

<strong>de</strong> cupones. Es fácil compren<strong>de</strong>r por un argumento <strong>de</strong> acoplamiento que una vez que<br />

cada archivo sea requerido al menos una vez la estructura markoviana <strong>de</strong> la estra-<br />

tegia habrá “olvidado” el or<strong>de</strong>n inicial por lo tanto estará en régimen estacionario.<br />

Determinar el instante en que todos los archivos han sido requeridos al menos una<br />

vez es el problema <strong>de</strong>l coleccionista <strong>de</strong> cupones. Por último, como ya mencionamos la<br />

S-BP <strong>de</strong> la partición pn <strong>de</strong>finida en la Definición 4.1.4 es la distribución estacionaria<br />

<strong>de</strong> la estrategia MtF (ver [22]).<br />

5.1.4. El Mo<strong>de</strong>lo <strong>de</strong> Move-to-Root<br />

Consi<strong>de</strong>remos un árbol binario que tiene la propiedad que <strong>de</strong> cada nodo<br />

solo salen dos ramas. Or<strong>de</strong>no mis libros en este árbol <strong>de</strong> la siguiente forma: tomo el<br />

primer libro <strong>de</strong>l estante y lo coloco en la raíz <strong>de</strong>l árbol, el segundo libro lo cuelgo<br />

<strong>de</strong> la rama <strong>de</strong>recha si lexicográficamente el título <strong>de</strong>l libro es mayor que el título<br />

<strong>de</strong>l libro <strong>de</strong> la raíz y <strong>de</strong> la rama izquierda si es menor. Aplicamos esta regla hasta<br />

encontrar una rama vacía. De este modo en cada nodo <strong>de</strong>l árbol todos los libros que<br />

cuelgan <strong>de</strong> la rama izquierda tienen títulos “mayores” que el título <strong>de</strong>l libro <strong>de</strong>l nodo<br />

consi<strong>de</strong>rado y los que cuelgan <strong>de</strong> la rama izquierda tienen títulos menores. El tiempo<br />

que nos <strong>de</strong>moraremos en encontrar un libro en esta estructura será, nuevamente,<br />

proporcional al número <strong>de</strong> com<strong>para</strong>ciones que <strong>de</strong>bemos hacer que en el caso <strong>de</strong>l<br />

árbol es la distancia a la raíz menos 1. Cuando necesitamos un libro lo tomamos y<br />

cuando lo guardamos lo ponemos en la raíz pero <strong>para</strong> no per<strong>de</strong>r el or<strong>de</strong>n lexicográfico<br />

<strong>de</strong>l árbol y que siga siendo un árbol binario <strong>de</strong>bemos realizar una serie <strong>de</strong> cambios<br />

en la estructura. Esta manera <strong>de</strong> or<strong>de</strong>nar los datos es conocida como MtR (<strong>de</strong>splazar<br />

111


hacia la raíz).<br />

Formalmente un árbol con raíz es un grafo dirigido con un único nodo<br />

llamado raíz don<strong>de</strong> existe un único camino <strong>de</strong>s<strong>de</strong> la raíz a cualquier nodo j. Cada<br />

nodo i, distinto <strong>de</strong> j, <strong>de</strong> este camino es consi<strong>de</strong>rado un ancestro <strong>de</strong> j, siendo el<br />

ancestro más cercano el padre <strong>de</strong>l nodo. El subárbol <strong>de</strong> raíz i consiste <strong>de</strong> i y todos<br />

sus <strong>de</strong>scendientes. Un árbol binario es un árbol or<strong>de</strong>nado en el cual cada nodo tiene<br />

a lo más dos hijos (uno a la izquierda y/o el en la <strong>de</strong>recha). Un nodo sin hijo es una<br />

hoja o nodo terminal.<br />

Un árbol <strong>de</strong> búsqueda binaria es un árbol binario en el cual todos los<br />

ítemes etiquetados con valores menores que el etiquetado <strong>de</strong> la raíz quedan almacena-<br />

dos en el subárbol <strong>de</strong> la izquierda y aquellos ítemes etiquetados con valores mayores<br />

que la raíz se almacenan en el subárbol <strong>de</strong>recho. Luego, <strong>para</strong> una secuencia <strong>de</strong> íte-<br />

mes, tenemos el siguiente algoritmo <strong>para</strong> construir un árbol binario <strong>de</strong> búsqueda (ver<br />

[36]):<br />

Observación 5.1.3.<br />

1. Si no hay raíz, insertar el ítem como raíz;<br />

2. Si el etiquetado es menor que él <strong>de</strong> la raíz, insertar el ítem en subárbol izquierdo;<br />

3. Si el etiquetado es mayor que él <strong>de</strong> la raíz, insertar el ítem en subárbol <strong>de</strong>recho.<br />

Notemos que la construcción <strong>de</strong> árbol <strong>de</strong> búsqueda binaria <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l<br />

etiquetado pero también <strong>de</strong>l or<strong>de</strong>n en que se insertan los ítemes.<br />

La siguiente manera <strong>de</strong> iterar el or<strong>de</strong>n en un árbol binario <strong>de</strong> búsqueda es conocida<br />

112


como la regla <strong>de</strong> Move-To-Root y fue sugerida por Allen y Munro en [2]. Consi-<br />

<strong>de</strong>remos n ítemes que están or<strong>de</strong>nados en un árbol binario <strong>de</strong> búsqueda, a cada<br />

instante <strong>de</strong> tiempo (discreto) un ítem es requerido in<strong>de</strong>pendiente <strong>de</strong> los requeridos<br />

anteriormente y es <strong>de</strong>splazado a la raíz <strong>de</strong>l árbol binario <strong>de</strong> búsqueda respetando la<br />

estructura binaria y <strong>de</strong> or<strong>de</strong>n <strong>de</strong>l árbol. Esta estructura será actualizada <strong>de</strong> acuerdo<br />

al siguiente algoritmo que repetiremos hasta que el ítem requerido llegue a la raíz:<br />

Observación 5.1.4. Sea a el ítem requerido:<br />

1. Si a es la raíz, no hacer nada;<br />

2. si a es un hijo izquierdo sea r su padre, luego modificar el subárbol cuya raíz<br />

es r como se <strong>de</strong>scribe a continuación:<br />

intercambiar a con r <strong>de</strong> modo que a será ahora la raíz <strong>de</strong>l subárbol;<br />

el antiguo subárbol izquierdo <strong>de</strong> a continuara como subárbol izquierdo <strong>de</strong><br />

a;<br />

el antiguo subárbol <strong>de</strong>recho <strong>de</strong> a pasará a ser el subárbol izquierdo <strong>de</strong> r;<br />

el antiguo subárbol <strong>de</strong>recho r continuará subárbol <strong>de</strong>recho <strong>de</strong> r.<br />

3. Si a es un hijo <strong>de</strong>recho sea r su padre, se modifica el subárbol cuya raíz es r<br />

con una transformación análoga.<br />

El objetivo <strong>de</strong> esta heurística es mantener el árbol <strong>de</strong> búsqueda binaria<br />

cercano a su forma optimal. La ca<strong>de</strong>na <strong>de</strong> Markov asociada fue estudiada por Dobrow<br />

y Fill en [20, 21]. Dobrow extendió algunos <strong>de</strong> los resultados en [19] al caso en que<br />

los ítemes la probabilidad <strong>de</strong> requerir un ítem <strong>de</strong>pen<strong>de</strong> <strong>de</strong> t <strong>de</strong> forma markoviana.<br />

113


Definición 5.1.5. El costo <strong>de</strong> búsqueda lineal BSn(t) en la estrategia MtR se <strong>de</strong>fine<br />

como si al tiempo t el último ítem que se requirió fue i luego<br />

BSn(t) = d(i, R) − 1 ,<br />

don<strong>de</strong> d(i, R) es la distancia <strong>de</strong>l ítem i a la raíz.<br />

Notaremos por BSn por el costo <strong>de</strong> búsqueda en régimen estacionario.<br />

Proposición 5.1.6. El primer momento <strong>de</strong> BSn es:<br />

y el segundo<br />

don<strong>de</strong> V vale:<br />

V =<br />

<br />

1i


portamiento asintótico.<br />

A lo largo <strong>de</strong> la sección consi<strong>de</strong>remos el mo<strong>de</strong>lo <strong>de</strong> partición por nor-<br />

malización <strong>de</strong> la Sección 4, luego sea ω = {ωi : i ∈ IN} una sucesión <strong>de</strong> variables<br />

in<strong>de</strong>pendientes, luego las popularida<strong>de</strong>s aleatorias estarán dadas por:<br />

pi = ωi<br />

Wn<br />

con Wn =<br />

5.2.1. Expresión exacta <strong>para</strong> la transformada <strong>de</strong> Laplace<br />

En esta subsección, estudiaremos la transformada <strong>de</strong> Laplace φSn <strong>de</strong>l<br />

costo <strong>de</strong> búsqueda estacionario <strong>para</strong> la estrategia Move-To-Front con popularida<strong>de</strong>s<br />

aleatorias. El siguiente teorema entrega una representación integral exacta:<br />

Teorema 5.2.1. [7] Para la sucesión ω <strong>de</strong> variables aleatorias i.i.d.,<br />

don<strong>de</strong>:<br />

∀s 0, φSn(s) = n<br />

n<br />

i=1<br />

ωi .<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)ψt,s(r) n−1 dr dt , (5.4)<br />

∀t 0, ∀r t, ψt,s(r) = φ(r) + e −s (φ(r − t) − φ(r)) . (5.5)<br />

Demostración: De la ecuación 5.1 uno pue<strong>de</strong> obtener la transformada <strong>de</strong> Laplace <strong>de</strong><br />

Sn condicional a ω: ∀s 0,<br />

IE[exp(−sSn) | ω] =<br />

∞<br />

0<br />

e −t<br />

n<br />

i=1<br />

p 2 i<br />

n −s tpk 1 + e (e − 1) dt .<br />

k=1<br />

k=i<br />

115


Reemplazando p1, . . . , pn por su expresión en función <strong>de</strong> ω1, . . . , ωn, obtenemos:<br />

IE[exp(−sSn) | ω] =<br />

n<br />

i=1<br />

∞<br />

0<br />

e −tWn w2 i<br />

Wn<br />

n −s twk 1 + e (e − 1) dt .<br />

k=1<br />

k=i<br />

Luego po<strong>de</strong>mos <strong>de</strong>ducir que la transformada <strong>de</strong> Laplace <strong>de</strong> Sn vale:<br />

IE[exp(−sSn)] =<br />

n<br />

i=1<br />

∞<br />

0<br />

⎡<br />

⎢<br />

IE<br />

⎣e −tWn w2 i<br />

Wn<br />

⎤<br />

n <br />

−s twk ⎥<br />

1 + e (e − 1) ⎦ dt . (5.6)<br />

En el caso <strong>de</strong> variables aleatorias idénticamente distribuidas, la ecuación (5.6) se<br />

reduce a:<br />

IE[exp(−sSn)] = n<br />

∞<br />

Sea Q la esperanza en la integral:<br />

Q = IE<br />

Po<strong>de</strong>mos reescribir Q como:<br />

Q = IE<br />

=<br />

=<br />

∞<br />

t<br />

∞<br />

t<br />

<br />

∞<br />

t<br />

IE<br />

0<br />

IE<br />

<br />

e −tWn w2 n<br />

Wn<br />

<br />

e −tWn w2 n<br />

Wn<br />

k=1<br />

k=1<br />

k=i<br />

n−1 −s twk 1 + e (e − 1) <br />

dt .<br />

k=1<br />

n−1 −s twk 1 + e (e − 1) <br />

.<br />

e −rWn dr w 2 n<br />

k=1<br />

e −rWn w 2 n−1 <br />

n<br />

k=1<br />

n−1 −s twk 1 + e (e − 1) <br />

1 + e −s (e twk − 1) <br />

dr<br />

φ ′′ (r) φ(r) + e −s (φ(r − t) − φ(r)) n−1 dr ,<br />

116


puesto que:<br />

exp(−tWn) =<br />

n<br />

exp(−twk) .<br />

k=1<br />

Reemplazando Q en la expresión correspondiente <strong>de</strong>ducimos que la transformada <strong>de</strong><br />

Laplace <strong>de</strong>l costo <strong>de</strong> búsqueda vale:<br />

IE[exp(−sSn)] =<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)ψt,s(r) n−1 dr dt .<br />

Cálculos similares a los recién expuestos se pue<strong>de</strong>n hacer en el caso <strong>de</strong> pesos in<strong>de</strong>-<br />

pendientes, en este caso uno obtiene el siguiente resultado:<br />

Teorema 5.2.2. [7] Para la sucesión ω <strong>de</strong> variables aleatorias in<strong>de</strong>pendientes,<br />

∀s 0, φSn(s) =<br />

don<strong>de</strong> <strong>para</strong> todo i ∈ {1, . . . , n}:<br />

n<br />

i=1<br />

∞<br />

0<br />

⎛<br />

⎜<br />

⎝<br />

∞<br />

t<br />

φ ′′<br />

i (r)<br />

n<br />

k=1<br />

k=i<br />

ψt,s,k(r) dr<br />

⎞<br />

⎟<br />

⎠ dt ,<br />

∀t 0, ∀r t, ψt,s,i(r) = φi(r) + e −s (φi(r − t) − φi(r)) .<br />

Del Teorema 5.2.1, po<strong>de</strong>mos <strong>de</strong>rivar una representación integral <strong>para</strong><br />

los momentos <strong>de</strong> or<strong>de</strong>n 1 y 2 <strong>de</strong>l costo <strong>de</strong> búsqueda estacionario:<br />

Corolario 5.2.3. [7] Para la sucesión ω <strong>de</strong> variables aleatorias i.i.d.,<br />

IE[Sn] = n(n − 1)<br />

∞<br />

0<br />

φ(r) n−2<br />

∞<br />

r<br />

<br />

(φ ′ (t)) 2 <br />

dt dr (5.7)<br />

117


y<br />

IE[S 2 n] = n(n − 1)(2n − 3)<br />

Demostración:<br />

−2n(n − 1)(n − 2)<br />

∞<br />

0<br />

∞<br />

0<br />

φ(r) n−2<br />

∞<br />

φ(r) n−3<br />

(φ ′ (t)) 2 <br />

dt dr<br />

r ∞<br />

φ(t)(φ<br />

r<br />

′ (t)) 2 dt<br />

1. De la ecuación (5.4), obtenemos que, <strong>para</strong> cualquier s 0,<br />

φ ′ Sn (s) = −n(n − 1)<br />

Evaluado esta expresión en s = 0:<br />

φ ′ Sn (0) = −n(n − 1)<br />

= −n(n − 1)<br />

= −n(n − 1)<br />

= −n(n − 1)<br />

= −n(n − 1)<br />

<br />

dr .<br />

(5.8)<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)ψt,s(r) n−2 e −s (φ(r − t) − φ(r)) dr dt . (5.9)<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)φ(r − t) n−2 (φ(r − t) − φ(r)) dr dt<br />

∞ ∞<br />

φ<br />

0 0<br />

′′ (r + t)φ(r) n−2 (φ(r) − φ(r + t)) dr dt<br />

∞<br />

0<br />

−φ(r) n−2<br />

∞<br />

0<br />

∞<br />

0<br />

φ ′ (r)φ(r) n−1<br />

∞<br />

0<br />

φ(r) n−2<br />

φ ′′ <br />

(r + t)φ(r + t) dt dr<br />

∞<br />

0<br />

φ(r) n−2<br />

∞<br />

r<br />

(φ ′ (r + t)) 2 <br />

dt dr<br />

(φ ′ (t)) 2 <br />

dt dr .<br />

Luego obtenemos la ecuación (5.7), pues IE[Sn] = −φ ′ Sn (0).<br />

118


2. Derivando φ ′ una vez más <strong>de</strong> la ecuación (5.9) obtenemos:<br />

Sn<br />

φ ′′ Sn (s) = n(n − 1)(n − 2)<br />

+n(n − 1)<br />

Evaluando en s = 0:<br />

φ ′′ Sn (0) = n(n − 1)(n − 2)<br />

+n(n − 1)<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)ψt,s(r) n−3 e −s (φ(r − t) − φ(r)) 2 dr dt<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)ψt,s(r) n−2 e −s (φ(r − t) − φ(r)) dr dt .<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)φ(r − t) n−3 (φ(r − t) − φ(r)) 2 dr dt<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)φ(r − t) n−2 (φ(r − t) − φ(r)) dr dt .<br />

Notemos por A y B estas dos integrales. Ya hemos calculado B en primera<br />

parte <strong>de</strong> esta <strong>de</strong>mostración. Calculemos A:<br />

A =<br />

=<br />

=<br />

= 2<br />

∞ ∞<br />

φ<br />

0 t<br />

′′ (r)φ(r − t) n−3 (φ(r − t) − φ(r)) 2 dr dt<br />

∞ ∞<br />

φ<br />

0 0<br />

′′ (r + t)φ(r) n−3 (φ(r) − φ(r + t)) 2 dr dt<br />

∞ ∞<br />

φ<br />

0 0<br />

′′ (r + t)φ(r) n−3 (φ(r) 2 − 2φ(r)φ(r + t) + φ(r + t) 2 ) dr dt<br />

∞ ∞<br />

0<br />

φ(r) n−2<br />

−2<br />

∞<br />

0<br />

r<br />

(φ ′ (t)) 2 <br />

dt dr<br />

φ(r) n−3<br />

∞<br />

r<br />

φ(t)(φ ′ (t)) 2 <br />

dt dr .<br />

Combinando las expresiones <strong>de</strong> A y B <strong>de</strong>ducimos la expresión <strong>de</strong> la ecua-<br />

ción (5.8), puesto que IE[S 2 n] = φ ′′ Sn (0).<br />

<br />

119


Cálculos análogos se pue<strong>de</strong>n hacer <strong>para</strong> los momentos <strong>de</strong> or<strong>de</strong>nes mayo-<br />

res <strong>de</strong> Sn. Las expresiones <strong>para</strong> los dos primeros momentos <strong>de</strong> Sn <strong>de</strong>l Corolario 5.2.3<br />

se pue<strong>de</strong>n calcular directamente usando los resultados <strong>de</strong> McCabe en [43]. En el caso<br />

en que los pesos no son idénticamente distribuidos pero siguen siendo in<strong>de</strong>pendien-<br />

tes, uno pue<strong>de</strong> realizar cálculos similares <strong>para</strong> encontrar resultados análogos a los<br />

<strong>de</strong>l Corolario 5.2.3.<br />

Teorema 5.2.4. [7] Para una sucesión ω = (ωi) i∈IN <strong>de</strong> variables aleatorias in<strong>de</strong>-<br />

pendientes,<br />

IE[Sn] =<br />

n<br />

i,j=1<br />

i=j<br />

∞ ∞<br />

0<br />

t<br />

φ ′ i(r)φ ′ <br />

n<br />

j(r) dr<br />

k=1<br />

k=i,j<br />

φk(t) dt . (5.10)<br />

Como ya dijimos uno pue<strong>de</strong> obtener esta expresión <strong>de</strong>l costo <strong>de</strong> bús-<br />

queda esperado ya sea usando el Teorema 5.2.2 o directamente <strong>de</strong> los resultados <strong>de</strong><br />

McCabe.<br />

5.2.2. Fórmula asintótica <strong>para</strong> la transformada <strong>de</strong> Laplace<br />

Nos interesa conocer el comportamiento asintótico <strong>de</strong>l costo <strong>de</strong> bús-<br />

queda cuando el número <strong>de</strong> archivos es creciente. Primero, daremos un equivalente<br />

asintótico puntual <strong>de</strong> la transformada <strong>de</strong> Laplace <strong>de</strong> Sn. Este resultado será usado<br />

<strong>para</strong> obtener los límites <strong>de</strong> los dos primeros momentos <strong>de</strong> Sn.<br />

Teorema 5.2.5. [7] Para una sucesión ω = (ωi) i∈IN variables aleatorias i.i.d.,<br />

∀s 0, φSn(s) ∼ −<br />

∞<br />

0<br />

φ ′′ (r)ψr,s(r) n<br />

ψ ′ r,s(r)<br />

dr , (5.11)<br />

120


cuando n tien<strong>de</strong> a infinito.<br />

Demostración: Sea s 0 fijo:<br />

don<strong>de</strong>:<br />

φSn(s) = n<br />

In(t) =<br />

∞<br />

0<br />

In(t) dt ,<br />

∞<br />

φ<br />

t<br />

′′ (r)ψt,s(r) n−1 dr .<br />

Sea t 0 fijo. Hemos calculado un equivalente asintótico <strong>de</strong> In(t) cuando n tien<strong>de</strong> a<br />

infinito. Primero reformulemos In(t) como:<br />

In(t) =<br />

∞<br />

t<br />

h1(r)e (n−1)h2(r) dr ,<br />

don<strong>de</strong> h1(r) = φ ′′ (r) y h2(r) = log ψt,s(r), <strong>para</strong> r t. Las integrales como In(t) son<br />

llamadas integrales <strong>de</strong> Laplace generalizadas ([9], section 6.4, p. 261-276). Como φ ′<br />

es creciente y negativa, ψt,s es <strong>de</strong>creciente <strong>para</strong> cualquier valor <strong>de</strong> t y s. Luego h2 es<br />

también <strong>de</strong>creciente y alcanza su máximo en r = t. Luego su principal contribución<br />

en In(t) será en una vecindad <strong>de</strong> r = t siempre que h1(t) = 0. Esto último es cierto<br />

pues:<br />

∀t 0, h1(t) = φ ′′ (t) = IE w 2 1e −tw1 > 0 .<br />

Sea ε ∈ (0, 1) fijo. Tenemos la siguiente <strong>de</strong>scomposición:<br />

In(t) =<br />

t+ε<br />

t<br />

⎛<br />

h1(r)e (n−1)h2(r)<br />

⎜<br />

dr × ⎜<br />

⎝1 +<br />

∞<br />

t+ε<br />

t+ε<br />

t<br />

h1(r)e (n−1)h2(r)<br />

dr<br />

h1(r)e (n−1)h2(r)<br />

⎞<br />

⎟<br />

⎠ . (5.12)<br />

dr<br />

121


Cuando h1 es una función no negativa,<br />

∞<br />

t+ε<br />

t+ε<br />

t<br />

h1(r)e (n−1)h2(r) dr<br />

h1(r)e (n−1)h2(r) dr<br />

Luego h2 es <strong>de</strong>creciente, luego tenemos:<br />

∞<br />

t+ε<br />

t+ε/2<br />

t<br />

h1(r)e (n−1)h2(r) dr<br />

h1(r)e (n−1)h2(r) dr<br />

<br />

∞<br />

t+ε<br />

t+ε/2<br />

t<br />

h1(r)e (n−1)h2(r) dr<br />

h1(r)e (n−1)h2(r) dr<br />

e (n−1)(h2(t+ε)−h2(t+ε/2)) ×<br />

∞<br />

t+ε<br />

t+ε/2<br />

t<br />

.<br />

h1(r) dr<br />

h1(r) dr<br />

El lado <strong>de</strong>recho <strong>de</strong> está <strong>de</strong>sigualdad tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito pues que<br />

h2 es <strong>de</strong>creciente implica que h2(t + ε) − h2(t + ε/2) < 0. Luego obtenemos:<br />

In(t) ∼<br />

t+ε<br />

t<br />

h1(r)e (n−1)h2(r) dr ,<br />

cuando n tien<strong>de</strong> a infinito. Usando una expansión <strong>de</strong> Taylor <strong>de</strong> h2 en torno a r = t,<br />

obtenemos el siguiente equivalente asintótico:<br />

In(t) ∼<br />

t+ε<br />

h1(t)e<br />

t<br />

(n−1)(h2(t)+(r−t)h ′ 2 (t)) dr ,<br />

cuando n tien<strong>de</strong> a infinito. Esto es posible <strong>de</strong>bido a que h1(t) = 0. Recor<strong>de</strong>mos que<br />

h1(t) = φ ′′ (t) y h ′ 2(t) = ψ ′ t,s(t)/ψt,s(t) el cual es negativo. Luego obtenemos:<br />

In(t) ∼ φ ′′ (t)ψt,s(t) n−1<br />

t+ε<br />

t<br />

e (n−1)(r−t)ψ′ t,s (t)/ψt,s(t) dr ,<br />

cuando n tien<strong>de</strong> a infinito. Usando el mismo tipo <strong>de</strong> <strong>de</strong>scomposición que en la ecua-<br />

.<br />

122


ción (5.12), obtenemos:<br />

t+ε<br />

t<br />

e (n−1)(r−t)h′ 2 (t) dr =<br />

=<br />

∞<br />

t<br />

∞<br />

t<br />

⎛<br />

e (n−1)(r−t)h′ 2 (t) ⎜<br />

dr × ⎜<br />

⎝1 −<br />

e (n−1)(r−t)h′ 2 (t) dr ×<br />

Finalmente se obtiene la siguiente aproximación:<br />

In(t) ∼ − φ′′ (t)ψt,s(t) n<br />

(n − 1)ψ ′ t,s(t) ,<br />

cuando n tien<strong>de</strong> a infinito. Luego <strong>de</strong>ducimos que:<br />

∞<br />

φ<br />

φSn(s) ∼ −<br />

0<br />

′′ (r)ψr,s(r) n<br />

ψ ′ dr ,<br />

r,s(r)<br />

∞<br />

t+ε ∞<br />

t<br />

<br />

1 − e (n−1)h′ 2 (t)ε<br />

<br />

e (n−1)(r−t)h′ 2 (t) dr<br />

e (n−1)(r−t)h′ 2 (t) ⎞<br />

⎟<br />

⎠<br />

dr<br />

cuando n tien<strong>de</strong> a infinito. <br />

De este expresión po<strong>de</strong>mos calcular expresiones asintóticas <strong>para</strong> los<br />

momentos <strong>de</strong> or<strong>de</strong>n 1 y 2 <strong>de</strong>l costo <strong>de</strong> búsqueda estacionario:<br />

Corolario 5.2.6. [7] Para la sucesión ω <strong>de</strong> variables aleatorias i.i.d.,<br />

y<br />

1<br />

n − 1 IE[Sn] −−−→<br />

n→∞<br />

1<br />

(n − 1) 2 IE[S2 n] −−−→<br />

n→∞<br />

2<br />

µ<br />

1<br />

µ<br />

∞<br />

(φ<br />

0<br />

′ (r)) 2 dr , (5.13)<br />

∞<br />

(1 − φ(r))(φ<br />

0<br />

′ (r)) 2 dr , (5.14)<br />

.<br />

123


Como Sn toma valores en {0, . . . , n − 1}, tiene más sentido poner n − 1<br />

en vez <strong>de</strong> n en el corolario.<br />

Demostración:<br />

1. De la ecuación (5.11) po<strong>de</strong>mos obtener, <strong>para</strong> cualquier s 0,<br />

φ ′ Sn (s) ∼<br />

∞<br />

0<br />

φ ′′ (r)e −s<br />

<br />

n(1 − φ(r))ψr,s(r) n−1<br />

ψ ′ +<br />

r,s(r)<br />

(µ + φ′ (r))ψr,s(r) n<br />

(ψ ′ r,s(r)) 2<br />

<br />

dr .<br />

(5.15)<br />

Evaluando la última expresión en s = 0<br />

φ ′ Sn (0) ∼<br />

∞<br />

0<br />

φ ′′ <br />

−n(1 − φ(r))<br />

(r)<br />

+<br />

µ<br />

(µ + φ′ (r))<br />

µ 2<br />

<br />

dr .<br />

Cuando n tien<strong>de</strong> a infinito, el segundo termino en la integral es <strong>de</strong>spreciable,<br />

ya que:<br />

Luego,<br />

φ ′ Sn (0) ∼ −n<br />

µ<br />

∞<br />

(φ<br />

0<br />

′ (r)) 2 dr = 0 .<br />

∞<br />

Integrando por partes la última expresión:<br />

∞<br />

0<br />

φ ′′ (r)(1 − φ(r)) dr =<br />

Como IE[Sn] = −φ ′ (0) obtenemos (5.13).<br />

Sn<br />

0<br />

φ ′′ (r)(1 − φ(r)) dr .<br />

∞<br />

(φ<br />

0<br />

′ (r)) 2 dr .<br />

124


2. Derivando la expresión <strong>de</strong> la ecuación (5.15):<br />

φ ′′ Sn (s) ∼ −φ′ Sn (s) +<br />

∞<br />

0<br />

φ ′′ (r)e −s<br />

<br />

− n(n − 1)(1 − φ(r))2ψr,s(r) n−2<br />

ψ ′ r,s(r)<br />

− n(1 − φ(r))(µ + φ′ (r))ψr,s(r) n−1<br />

(ψ ′ r,s(r)) 2 (1 + e −s ) + 2e−s (µ + φ ′ (r)) 2ψr,s(r) n<br />

(ψ ′ r,s(r)) 4<br />

Evaluando en s = 0:<br />

φ ′′ Sn (0) ∼ −φ′ Sn (0) +<br />

∞<br />

0<br />

φ ′′ 2<br />

n(n − 1)(1 − φ(r))<br />

(r)<br />

µ<br />

− 2n(1 − φ(r))(µ + φ′ (r))<br />

µ 2<br />

+ 2(µ + φ′ (r)) 2<br />

µ 4<br />

Solo el primer termino <strong>de</strong> la segunda integral domina pues<br />

Luego,<br />

∞<br />

(1 − φ(r))(φ<br />

0<br />

′ (r)) 2 dr = 0 .<br />

φ ′′ n(n − 1)<br />

Sn (0) ∼<br />

µ<br />

∞<br />

φ<br />

0<br />

′′ (r)(1 − φ(r)) 2 dr .<br />

<br />

dr .<br />

<br />

dr .<br />

Integrando por partes la expresión anterior concluimos la aproximación <strong>de</strong><br />

IE(S 2 n) en (5.14).<br />

El resultado presentado en el Corolario 5.2.6 don<strong>de</strong> se dan los valores <strong>de</strong><br />

los límites cuando n tien<strong>de</strong> a infinito <strong>de</strong> los dos primeros momentos <strong>de</strong> Sn/n, sugiere<br />

que quizás el límite cuando n tien<strong>de</strong> a infinito <strong>de</strong> la variable Sn/n pue<strong>de</strong> existir. Este<br />

resultado se exploró en el artículo [4] y es la continuación <strong>de</strong> esta sección.<br />

<br />

125


De el Teorema 5.2.1, po<strong>de</strong>mos obtener la siguiente expresión exacta<br />

<strong>para</strong> la función <strong>de</strong>nsidad <strong>de</strong> la distribución límite <strong>de</strong> Sn/n:<br />

Teorema 5.2.7. [5] Para una sucesión ω = (ωi) i∈IN <strong>de</strong> pesos aleatorios i.i.d. con<br />

media finita µ,<br />

Sn<br />

n<br />

d<br />

−−−→ S ,<br />

n→∞<br />

don<strong>de</strong> S es una variable aleatoria continua con la siguiente función <strong>de</strong>nsidad fS:<br />

fS(x) = − 1 φ<br />

µ<br />

′′ (φ−1 (1 − x))<br />

φ ′ (φ−1 (1 − x)) 1[0,1−p0](x) , (5.16)<br />

Don<strong>de</strong> p0 = IP(ωi = 0) y φ −1 es la función inversa <strong>de</strong> φ.<br />

Observación 5.2.8. El hecho que el intervalo [0, 1 − p0] es el soporte <strong>de</strong> S pue<strong>de</strong><br />

enten<strong>de</strong>rse <strong>de</strong> manera intuitiva: la cantidad p0 es la probabilidad que un ítem nunca<br />

sea requerido. En régimen estacionario, uno esperaría que un ítem que nunca fue<br />

requerido se ubique al final <strong>de</strong> la lista; np0 es el número esperados <strong>de</strong> ítemes jamás<br />

requeridos. Luego no es sorpren<strong>de</strong>nte que el soporte <strong>de</strong> S no sea todo el intervalo<br />

[0, 1]. Notemos que en el caso en que la distribución <strong>de</strong> los pesos es continua p0 = 0.<br />

Demostración: Debemos <strong>de</strong>mostrar que Sn/n converge en distribución, cuando n<br />

tien<strong>de</strong> a infinito, a cierta variable aleatoria que vamos a notar por S. Primero, ob-<br />

servemos que:<br />

∀s 0 , φSn/n(s) = φSn<br />

Luego estamos interesados en el límite <strong>de</strong> φSn(s/n).<br />

<br />

s . n<br />

126


Para cualquier par <strong>de</strong> reales a y b tal que 0 a b ∞, sea:<br />

In(a, b) =<br />

b<br />

a<br />

φ ′′ (r) φ(r) + e −s/n (φ(r − t) − φ(r)) n−1 dr .<br />

Si b = ∞, luego omitiremos este parámetro, i.e. In(a) = In(a, ∞). Usando esta<br />

notación, el Teorema 5.2.1 queda:<br />

φSn<br />

<br />

s = n n<br />

∞<br />

0<br />

In(t) dt . (5.17)<br />

Ahora po<strong>de</strong>mos <strong>de</strong>scomponer In(t) en dos partes: In(t) = In(t, t + ε) + In(t + ε).<br />

Vamos a <strong>de</strong>mostrar que nIn(t + ε) tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito:<br />

nIn(t + ε) = n<br />

n<br />

∞<br />

φ ′′ (r) e −s/n φ(r − t) + (1 − e −s/n )φ(r) n−1 dr ,<br />

t+ε<br />

∞<br />

φ<br />

t+ε<br />

′′ (r)φ(r − t) n−1 dr ,<br />

−nφ(ε) n−1 φ ′ (t + ε) ,<br />

<strong>de</strong>bido a que φ es <strong>de</strong>creciente. Luego límn→∞ nIn(t + ε) = 0, <strong>para</strong> todo ε > 0.<br />

Ahora estimaremos In(t, t + ε). Sea hn(r, t) = φ(r) + e −s/n (φ(r − t) − φ(r)). Para<br />

un valor fijo <strong>de</strong> t, la función hn(·, t) se comporta como φ. En particular ∂hn<br />

∂r<br />

función creciente <strong>para</strong> r ∈ [t, t + ε]. Luego obtenemos la siguiente cota:<br />

y<br />

∂hn<br />

∂r<br />

(t, t) ∂hn<br />

∂r<br />

∂hn<br />

(r, t) (t + ε, t) ,<br />

∂r<br />

φ ′′ (t + ε) φ ′′ (r) φ ′′ (t) .<br />

es una<br />

127


Luego, po<strong>de</strong>mos acotar In(t, t + ε) por:<br />

In(t, t + ε) =<br />

t+ε<br />

φ<br />

t<br />

′′ (r) (hn(r, t)) n−1 ∂hn<br />

(r, t)∂hn<br />

∂r ∂r (r, t)−1 dr<br />

φ ′′ (t) ∂hn<br />

t+ε<br />

(t, t)−1 (hn(r, t))<br />

∂r t<br />

n−1 ∂hn<br />

(r, t) dr<br />

∂r<br />

φ ′′ (t) ∂hn 1<br />

(t, t)−1<br />

∂r n [(hn(t + ε, t)) n − (hn(t, t)) n ] .<br />

Estas cotas son validas <strong>para</strong> cualquier ε > 0; tomando el límite cuando ε tien<strong>de</strong> a 0<br />

<strong>de</strong>ducimos que límite <strong>de</strong> nIn(t) existe y esta dado por:<br />

lím<br />

n→∞ nIn(t) = φ′′ (t)<br />

µ exp (−(1 − φ(t))s) .<br />

Procediendo <strong>de</strong> un modo similar, po<strong>de</strong>mos encontrar una cota inferior:<br />

In(t, t + ε) φ ′′ (t + ε) ∂hn 1<br />

(t + ε, t)−1<br />

∂r n [(hn(t + ε, t)) n − (hn(t, t)) n ] .<br />

Luego, <strong>para</strong> cualquier ε > 0, uno pue<strong>de</strong> probar que se tiene el siguiente límite:<br />

lím<br />

n→∞ (hn(t + ε, t)) n = 0 ,<br />

lím<br />

n→∞ (hn(t, t)) n = exp [−s(1 − φ(t))] ,<br />

∂hn<br />

lím<br />

n→∞ ∂r (t, t) = φ′ (0) ,<br />

∂hn<br />

lím<br />

n→∞ ∂r (t + ε, t) = φ′ (ε) .<br />

Reemplazando estos límites en las ecuaciones previas y recordando que nIn(t + ε) es<br />

0 <strong>para</strong> todo ε > 0, obtenemos que los valores límites <strong>de</strong> nIn(t) cuando n tien<strong>de</strong> a<br />

128


infinito pue<strong>de</strong> ser acotados:<br />

lím inf<br />

n→∞ nIn(t) = lím inf<br />

n→∞ nIn(t, t + ε) − φ′′ (t + ε)<br />

φ ′ exp (−(1 − φ(t))s) ,<br />

(0)<br />

lím sup<br />

n→∞<br />

nIn(t) = lím sup nIn(t, t + ε) −<br />

n→∞<br />

φ′′ (t)<br />

φ ′ exp (−(1 − φ(t))s) .<br />

(ε)<br />

Esto es cierto <strong>para</strong> todo ε > 0; luego tomando ε tendiendo a 0, tenemos:<br />

lím<br />

n→∞ nIn(t) = φ′′ (t)<br />

µ exp (−(1 − φ(t))s) .<br />

Reemplazando este límite en la ecuación (5.17) obtenemos<br />

lím<br />

n→∞ φSn/n(s) = 1<br />

µ<br />

∞<br />

φ<br />

0<br />

′′ (t)e −(1−φ(t))s dt , (5.18)<br />

el cual <strong>de</strong>notaremos por φS(s). Aunque este límite a priori no es necesariamente<br />

la transformada <strong>de</strong> Laplace <strong>de</strong> una variable aleatoria, <strong>de</strong> acuerdo al Teorema <strong>de</strong><br />

Continuidad (pág. 431 Ch. XIII en [24]), será suficiente verificar que líms→0 φS(s) = 1,<br />

lo que pue<strong>de</strong> ser <strong>de</strong>mostrado usando el teorema <strong>de</strong> convergencia dominada.<br />

Realizando el cambio <strong>de</strong> variable apropiado y = 1 − φ(r) en la ecuación (5.18) nos<br />

da:<br />

φS(s) = − 1<br />

1−p0 φ<br />

µ 0<br />

′′ (φ−1 (1 − y))<br />

φ ′ (φ−1 (1 − y)) e−ys dr,<br />

don<strong>de</strong> <strong>para</strong> los límites <strong>de</strong> la integral usamos la propiedad siguiente φ(∞) = p0 (ver<br />

[24] observación en el Teorema 1(a) pág. 439 Ch. XIII). Entonces, tenemos que:<br />

fS(y) = − 1 φ<br />

µ<br />

′′ (φ−1 (1 − y))<br />

φ ′ (φ−1 (1 − y)) 1[0,1−p0](y)<br />

es la función <strong>de</strong>nsidad <strong>de</strong> la variable S. <br />

129


Como corolario <strong>de</strong>l teorema, po<strong>de</strong>mos calcular el q-ésimo momento y<br />

la función <strong>de</strong> distribución <strong>de</strong> S:<br />

Corolario 5.2.9. [5] Para q ∈ IR,<br />

y, <strong>para</strong> todo x ∈ [0, 1],<br />

IP(S x) =<br />

E[S q ] = 1<br />

µ<br />

∞<br />

(1 − φ(t))<br />

0<br />

q φ ′′ (t) dt ,<br />

<br />

1 + 1<br />

µ φ′ (φ −1 <br />

(1 − x)) 1[0,1−p0](x) + 1(1−p0,1](x) .<br />

La función <strong>de</strong> acumulación <strong>de</strong> S <strong>de</strong>spierta un interés particular la regla<br />

<strong>de</strong> MtF está relacionada con la estrategia <strong>de</strong> LRU (ver por ejemplo [28]). Como ya<br />

explicamos en la Subsección 5.1.3 una <strong>de</strong> las estrategias utilizadas <strong>para</strong> <strong>de</strong>cidir que<br />

elementos se almacenan en la memoria Caché es la estrategia LRU. En el contexto <strong>de</strong><br />

esta estrategia <strong>de</strong> organización <strong>de</strong> la memoria Caché una pregunta importante surge:<br />

¿cual es la probabilidad que el archivo requerido no esté en la memoria caché? La<br />

probabilidad <strong>de</strong> este evento es llamada “page <strong>de</strong>faul” y en lo que sigue la notaremos<br />

por πk. A causa <strong>de</strong> la relación existente entre la regla <strong>de</strong> MtF y la estrategia LRU,<br />

como se mencionó, tenemos que πk = IP(Sn k). Luego, si asumimos que el tamaño<br />

<strong>de</strong> la memoria Caché es proporcional al número <strong>de</strong> archivos, digamos k = αn con<br />

α ∈ [0, 1] fijo, <strong>para</strong> un gran número <strong>de</strong> archivos, se tiene la siguiente aproximación:<br />

παn 1 + 1<br />

µ φ′ (φ −1 (1 − α))<br />

130


si α < p0 y παn 1.<br />

5.2.3. Ejemplos y algunas propieda<strong>de</strong>s<br />

En esta sección, estudiamos algunos ejemplos <strong>para</strong> los cuales po<strong>de</strong>-<br />

mos encontrar expresiones explícitas <strong>para</strong> los cálculos. Consi<strong>de</strong>raremos ambos casos,<br />

distribuciones continuas y discretas <strong>para</strong> los pesos aleatorios.<br />

Ejemplo 5.2.10. Supongamos que los pesos tienen una distribución <strong>de</strong> Dirac con<br />

masa en 1 (en otras palabras, los pesos son <strong>de</strong>terministas y son igualmente popula-<br />

res). Entonces φ(r) = e −r , µ = 1 y p0 = 0; <strong>de</strong>ducimos que:<br />

fS1(x) = 1[0,1](x) .<br />

Luego, S1 tiene la distribución uniforme con soporte en [0, 1]: este resultado fue<br />

<strong>de</strong>mostrado por Fill (Teorema 4.2, p. 198 <strong>de</strong> [25]). El k-ésimo momento (con k ∈<br />

IR+) y la función <strong>de</strong> acumulación <strong>de</strong> S1 es:<br />

IE[S k 1 ] = 1<br />

k + 1<br />

y ∀x ∈ [0, 1] , FS1(x) = IP(S1 x) = x .<br />

Ejemplo 5.2.11. Consi<strong>de</strong>remos un ejemplo que difiere poco <strong>de</strong>l anterior. Supon-<br />

gamos que los pesos tiene una distribución <strong>de</strong> Bernoulli con parámetro p ∈ (0, 1].<br />

Luego, φ(r) = pe −r + (1 − p), la esperanza vale µ = p y p0 = 1 − p. Para una<br />

gran cantidad <strong>de</strong> archivos, la proporción p <strong>de</strong> archivo que será requerida con la mis-<br />

ma frecuencia, los restantes nunca serán requeridos. Luego, uno pue<strong>de</strong> pensar que<br />

uno tendrá una distribución límite <strong>para</strong> S no muy distinta que aquella <strong>de</strong>l ejemplo<br />

131


anterior. En efecto, un calculo simple nos muestra que:<br />

fS2(x) = 1<br />

p 1[0,p](x) .<br />

Luego, S2 tiene una distribución uniforme en el intervalo [0, p]. Obviamente, tenemos<br />

que S2 st S1 (don<strong>de</strong> st <strong>de</strong>nota el or<strong>de</strong>n estocástico usual).<br />

Ejemplo 5.2.12. Supongamos que los pesos tienen una distribución Gamma <strong>de</strong><br />

parámetro α > 0. En este ejemplo, el vector aleatorio (p1, . . . , pn) tiene una distri-<br />

bución <strong>de</strong> Dirichlet simétrica Dn(α) (ver Sección 4). En este caso, µ = α, p0 = 0 y<br />

φ(r) = (1 + r) −α . Nuestros cálculos dan:<br />

fS3(x) =<br />

<br />

1 + 1<br />

<br />

(1 − x)<br />

α<br />

1/α 1[0,1](x) ,<br />

la cual es la función <strong>de</strong>nsidad <strong>de</strong> una variable Beta <strong>de</strong> parámetros (1, 1 + 1/α).<br />

Notemos que este resultado ya fue <strong>de</strong>mostrado en la Sección 4.3 Teorema 4.3.8 [4]<br />

usando las propieda<strong>de</strong>s <strong>de</strong> la distribución <strong>de</strong> Dirichlet (en este caso calculamos la<br />

distribución <strong>de</strong>l costo <strong>de</strong> búsqueda estacionario <strong>para</strong> cualquier n finito). El k-ésimo<br />

momento (con k ∈ IR+) <strong>de</strong> S3 es:<br />

IE[S k 3 ] =<br />

Γ(k + 1)Γ(2 + 1<br />

α )<br />

Γ(2 + k + 1<br />

α )<br />

En particular IE[S3] = α/(2α + 1) y Var[S3] = ((α + 1)α 2 )/((3α + 1)(2α + 1) 2 ). Uno<br />

pue<strong>de</strong> calcular también la función <strong>de</strong> acumulación <strong>de</strong> la variable S3, <strong>para</strong> cualquier<br />

x ∈ [0, 1]:<br />

FS3(x) = 1 − (1 − x) 1+1/α .<br />

Fácilmente po<strong>de</strong>mos <strong>de</strong>ducir que, <strong>para</strong> cualquier x ∈ [0, 1], ¯ FS3(x) ¯ FS1(x). Luego<br />

132<br />

.


encontramos la siguiente <strong>de</strong>sigualdad S3 st S1.<br />

Observemos que si el parámetro α tien<strong>de</strong> a infinito, luego el vector aleatorio <strong>de</strong> las<br />

popularida<strong>de</strong>s aleatorias (p1, . . . , pn) converge en distribución a ( 1 1 , . . . , ): mientras<br />

n n<br />

más gran<strong>de</strong> el valor <strong>de</strong> α, más se concentran (p1, . . . , pn) en torno a su esperanza.<br />

Luego es razonable que S3 converja en distribución a S1 cuando α tien<strong>de</strong> a infinito.<br />

De hecho, uno pue<strong>de</strong> probar fácilmente que este resultado es cierto en el caso general:<br />

Proposición 5.2.13. [5] Sea ω(α) = (wi(α)) i∈IN ∗ una secuencia <strong>de</strong> pesos aleatorios<br />

i.i.d. tal que w1(α) converge en distribución a w cuando α tien<strong>de</strong> a infinito. Luego,<br />

S(α) converge en distribución a S.<br />

Ejemplo 5.2.14. Supongamos que los pesos tienen una distribución Geométrica<br />

en IN <strong>de</strong> parámetro p ∈ (0, 1). En este caso µ = (1 − p)/p, p0 = p y φ(r) =<br />

p/(1 − (1 − p)e −r ). Un simple cálculo nos da:<br />

fS4(x) =<br />

2(1 − x) − p<br />

1 − p<br />

El k-ésimo momento (con k ∈ IR+) <strong>de</strong> S3 es:<br />

IE[S k 4 ] =<br />

En particular, tenemos IE[S4] = (2+p)(1−p)<br />

6<br />

1[0,1−p](x) .<br />

(2 + pk)(1 − p)k<br />

(k + 1)(k + 2)<br />

.<br />

y Var[S4] = (1−p)2 (2+2p−p2 )<br />

. Uno pue<strong>de</strong><br />

36<br />

también calcular la función <strong>de</strong> acumulación <strong>de</strong> S4, <strong>para</strong> cualquier x ∈ [0, 1], tenemos:<br />

FS4(x) =<br />

x(2 − p − x)<br />

1 − p<br />

1[0,1−p](x) + 1(1−p,1](x) .<br />

De esta última expresión po<strong>de</strong>mos verificar la <strong>de</strong>sigualdad S4 st S1.<br />

Ejemplo 5.2.15. Supongamos que los pesos siguen una distribución <strong>de</strong> Poisson <strong>de</strong><br />

133


parámetro λ. En este caso, µ = λ, p0 = e −λ y φ(r) = exp (λe −r − 1). Un sencillo<br />

cálculo muestra que:<br />

fS5(x) =<br />

ln(1 − x) + λ + 1<br />

λ<br />

1 [0,1−e −λ ](x) .<br />

Usando las formula 1.6.5.3 <strong>de</strong> [50] (pág. 244), uno pue<strong>de</strong> calcular el k-ésimo mo-<br />

mento (con k ∈ IN) <strong>de</strong> S5:<br />

IE[S k 5 ] =<br />

<br />

1<br />

λ + (1 − e<br />

λ(k + 1)<br />

−λ ) k+1 k+1<br />

−<br />

i=1<br />

(1 − e −λ ) i<br />

En particular, tenemos IE[S5] = 1 1−e−2λ − . Uno también pue<strong>de</strong> calcular la función<br />

2 4λ<br />

<strong>de</strong> acumulación <strong>de</strong> S5, <strong>para</strong> cualquier x ∈ [0, 1], obtenemos:<br />

FS5(x) = (x − 1<br />

λ (1 − x) ln(1 − x)) 1 [0,1−e −λ ](x) + 1 (1−e −λ ,1](x) .<br />

Luego <strong>de</strong> esta última expresión uno pue<strong>de</strong> <strong>de</strong>ducir que S5 st S1.<br />

Ejemplo 5.2.16. Como se comentó en la introducción <strong>de</strong> esta sección, Fill [25]<br />

consi<strong>de</strong>ró el problema <strong>de</strong> calcular el límite <strong>de</strong>l costo <strong>de</strong> búsqueda lineal Sn <strong>para</strong> dife-<br />

rentes popularida<strong>de</strong>s <strong>de</strong>terministas. Entre los casos que analizó, Fill estudió los dos<br />

siguientes:<br />

1. ωi ∼ i −α , con α ∈ (0, 1). Él encontró:<br />

Sn<br />

n<br />

d<br />

−−−→ A(α) ,<br />

n→∞<br />

don<strong>de</strong> A(α) es una variable aleatoria cuya distribución está <strong>de</strong>scrita en el Apén-<br />

dice A <strong>de</strong> [25].<br />

i<br />

<br />

.<br />

134


2. ωi ∼ i s , con s > 0. Él encontró:<br />

Sn<br />

n<br />

d<br />

−−−→ B(s) ,<br />

n→∞<br />

don<strong>de</strong> B(s) es una variable aleatoria cuya distribución está también <strong>de</strong>scrita<br />

en el Apéndice A <strong>de</strong> [25].<br />

Consi<strong>de</strong>remos ahora el problema <strong>de</strong> calcular la distribución <strong>de</strong>l costo <strong>de</strong><br />

búsqueda límite usando el mo<strong>de</strong>lo <strong>de</strong> popularida<strong>de</strong>s aleatorias. Trataremos dos casos,<br />

una ley <strong>de</strong> Pareto y una ley Beta:<br />

1. Asumamos que la distribución que genera la partición es una Pareto <strong>de</strong> pará-<br />

metro 1/α, con <strong>de</strong>nsidad:<br />

fω(x) = 1<br />

α x−(1/α+1) 1(1,∞)(x) .<br />

En este caso, nuestros cálculo usando la ecuación (5.18) dan que la trans-<br />

formada <strong>de</strong> Laplace la <strong>de</strong>nsidad <strong>de</strong>l fS6 es precisamente la <strong>de</strong> A(α) como fue<br />

caracterizada por Fill en el Lema 4.5, ecuación (4.4).<br />

2. Asumiendo que la distribución que genera la partición es una Beta <strong>de</strong> paráme-<br />

tros (1/s, 1). En esto caso, nuestro resultado <strong>de</strong> la ecuación (5.16) nos da la<br />

<strong>de</strong>nsidad fS7 la cual es precisamente el <strong>de</strong> la <strong>de</strong>nsidad B(s) dado en el Coro-<br />

lario A.2, <strong>de</strong> la ecuación (A.7).<br />

Al menos <strong>de</strong> <strong>para</strong> estos dos ejemplos es posible encontrar una mo<strong>de</strong>lo <strong>de</strong> popularida<strong>de</strong>s<br />

<strong>de</strong>terminista y uno <strong>de</strong> popularida<strong>de</strong>s aleatorias don<strong>de</strong> el límite <strong>de</strong>l costo <strong>de</strong> búsqueda<br />

135


normalizado tiene la misma distribución.<br />

Del análisis hecho <strong>de</strong> estos cinco ejemplos, po<strong>de</strong>mos observar que S2,<br />

S3, S4 y S5 son estocásticamente menores que S1. Po<strong>de</strong>mos intuir que el caso en que<br />

los pesos se distribuyen como una Dirac correspon<strong>de</strong> al peor caso, dado que todos<br />

los ítemes tienen la misma popularidad. Po<strong>de</strong>mos probar que esto es cierto en el caso<br />

general:<br />

Proposición 5.2.17. [5] Sea S la distribución límite <strong>de</strong>l costo <strong>de</strong> búsqueda asociado<br />

a la sucesión ω <strong>de</strong> variables aleatorias positivas i.i.d. con media finita µ. Luego,<br />

S st S1.<br />

Demostración: Sea w una variable aleatoria positiva con <strong>de</strong>nsidad f y esperanza µ.<br />

Sea w otra variable positiva con <strong>de</strong>nsidad g <strong>de</strong>finida como g(x) = xf(x)/µ. Sea<br />

φ (t) = IE[e −tw ] (respectivamente ˆ φ) la transformada <strong>de</strong> Laplace <strong>de</strong> w (respectiva-<br />

mente ˆw). Con un cálculo sencillo se pue<strong>de</strong> verificar que w st w, luego por ser e −tx<br />

una función <strong>de</strong>creciente <strong>de</strong> x se tiene que ˆ φ(t) ≤ φ(t). Como la transformada <strong>de</strong><br />

Laplace <strong>de</strong> ˆw vale<br />

se tiene que − φ′ (t)<br />

µ φ (t) <strong>para</strong> todo t 0.<br />

φ (t) = − φ′ (t)<br />

µ ,<br />

Aplicando está <strong>de</strong>sigualdad en este contexto, tenemos que <strong>para</strong> cualquier x ∈ [0, 1 −<br />

p0],<br />

IP(S x) = 1 + 1<br />

µ φ′ (φ −1 (1 − x)) x .<br />

Luego, <strong>para</strong> cualquier x ∈ [0, 1], tenemos IP(S x) IP(S1 x), don<strong>de</strong> S1 es<br />

una variable aleatoria <strong>de</strong> distribución uniforme en el intervalo unitario. Entonces,<br />

S st S1. <br />

136


Como corolario <strong>de</strong> este resultado uno pue<strong>de</strong> <strong>de</strong>ducir que IE[S] IE[S1] = 1<br />

2 .<br />

5.3. Move-to-root con popularida<strong>de</strong>s aleatorias<br />

5.3.1. Los dos primeros momentos <strong>de</strong> or<strong>de</strong>n <strong>de</strong>l costo <strong>de</strong> bús-<br />

queda estacionario<br />

En esta subsección, <strong>de</strong>ducimos <strong>de</strong> los resultados <strong>de</strong> Allen y Munro [2] los<br />

dos primeros momentos <strong>de</strong>l costo estacionario <strong>de</strong> búsqueda cuando los ítemes tienen<br />

pesos aleatorios i.i.d. <strong>para</strong> la estrategia. Notemos por BSn el costo <strong>de</strong> búsqueda<br />

estacionario cuando utilizamos la estructura <strong>de</strong> árbol binario <strong>para</strong> almacenar los<br />

datos.<br />

Teorema 5.3.1. [8] Para una sucesión ω = (ωi) i∈IN <strong>de</strong> pesos aleatorios i.i.d. se<br />

tiene:<br />

n−1<br />

IE[BSn] = 2<br />

IE[BS 2 n−2<br />

n] = IE[BSn] − 8<br />

Demostración:<br />

∞ ∞<br />

(n − i)φ<br />

i=1 0 t<br />

′ (u) 2 φ(u) i−1 φ(t) n−i−1 dudt . (5.19)<br />

<br />

(n − i − j)×<br />

n−i−1<br />

i=1<br />

∞ ∞ ∞<br />

j=1<br />

φ<br />

0 t u<br />

′ (v) 2 φ ′ (u)φ(v) i−1 φ(u) j−1 φ(t) n−i−j−1 dvdudt .<br />

(5.20)<br />

De la expresión <strong>de</strong> la esperanza <strong>de</strong> BSn <strong>para</strong> el caso <strong>de</strong> popularida<strong>de</strong>s<br />

<strong>de</strong>terministas en la ecuación 5.2 po<strong>de</strong>mos calcular la esperanza <strong>de</strong>l costo <strong>de</strong> búsqueda<br />

137


BSn en función <strong>de</strong> ω<br />

IE[BSn] = IE[IE[BSn | ω]]<br />

= 2 <br />

1i


tenemos:<br />

n−1<br />

IE[Sn] = 2<br />

∞ ∞<br />

(n − a)φ<br />

a=1 0 t<br />

′ (u) 2 φ(u) a−1 φ(t) n−a−1 dudt .<br />

De en [2] o también en [11], tenemos que el segundo momento condicional a la<br />

partición vale:<br />

don<strong>de</strong> V está dada por:<br />

V =<br />

<br />

1i


integral <strong>para</strong> V1:<br />

V1(a, b) = −<br />

∞ ∞ ∞<br />

φ<br />

0 t u<br />

′ (v) 2 φ ′ (u)φ(v) a−1 φ(u) b−1 φ(t) n−a−b−1 dvdudt .<br />

Reemplazando esta V1 en la expresión <strong>de</strong> V y, a su vez, V en la ecuación (5.21)<br />

obtenemos el segundo momento <strong>de</strong>l costo <strong>de</strong> búsqueda BSn. <br />

5.3.2. Ejemplos<br />

En esta subsección ilustraremos el comportamiento <strong>de</strong>l costo <strong>de</strong> bús-<br />

queda cuando los pesos son generados <strong>de</strong> acuerdo a diferentes distribuciones <strong>de</strong> pro-<br />

babilidad. Estudiaremos los casos <strong>de</strong> pesos <strong>de</strong>terministas y exponenciales. Para estas<br />

dos distribuciones estimaremos los dos primeros momentos <strong>de</strong> BSn.<br />

En los ejemplos que presentaremos, usaremos los números armónicos<br />

(ver [37], p. 73-76). Por lo que, antes <strong>de</strong> abordar los ejemplos, recordaremos su<br />

<strong>de</strong>finición y algunas propieda<strong>de</strong>s:<br />

Definición 5.3.2. Para cualquier n ∈ IN ∗ , el n-ésimo número armónico Hn es:<br />

Hn =<br />

n<br />

k=1<br />

1<br />

k .<br />

Cuando n tien<strong>de</strong> a infinito es sabido que Hn se comporta como log n,<br />

140


más precisamente se pue<strong>de</strong> aproximar Hn por:<br />

don<strong>de</strong>:<br />

y C <strong>de</strong>nota la constante <strong>de</strong> Euler.<br />

armónicos:<br />

don<strong>de</strong>:<br />

Hn = log n + C + 1 1 1<br />

− + − ɛ ,<br />

2n 12n2 120n4 0 < ɛ < 1<br />

,<br />

252n6 Recor<strong>de</strong>mos las siguientes dos relaciones que involucran los números<br />

n<br />

Hk = (n + 1)Hn − n .<br />

k=1<br />

n<br />

k=1<br />

1<br />

k Hk = 1<br />

2 (H2 n + H (2)<br />

n ) ,<br />

H (2)<br />

n =<br />

n<br />

k=1<br />

1<br />

.<br />

k2 La expresión H (2)<br />

n satisface el siguiente límite:<br />

lím<br />

n→∞ H(2) n−1 = π2<br />

6 .<br />

Finalmente, se pue<strong>de</strong> probar fácilmente el siguiente resultado:<br />

Lema 5.3.3. Para todo n ∈ IN ∗ y c ∈ ZZ,<br />

n<br />

k=1<br />

k<br />

k + c = n − c(Hn+c − Hc) .<br />

141


Si c = 1, la expresión se reduce a:<br />

n<br />

k=1<br />

k<br />

k + 1 = (n + 1) − Hn+1 .<br />

Con las propieda<strong>de</strong>s aquí expuestas po<strong>de</strong>mos abordar los ejemplos.<br />

Ejemplo 5.3.4. Consi<strong>de</strong>remos una sucesión <strong>de</strong> pesos <strong>de</strong>terministas: <strong>para</strong> cualquier<br />

i ∈ {1, . . . , n}, wi = 1. La transformada <strong>de</strong> Laplace φ vale:<br />

Luego uno obtiene:<br />

IE[BSn] =<br />

φ(s) = e −s .<br />

2(n + 1)Hn<br />

n<br />

− 4 . (5.22)<br />

Cuando el número n <strong>de</strong> ítemes tien<strong>de</strong> al infinito, obtenemos la fórmula asintótica<br />

siguiente:<br />

IE[BSn] ∼ 2 log n , (5.23)<br />

pues Hn ∼ log n. Luego encontramos las expresiones (5.22) y (5.23) que ya habían<br />

sido encontradas por por Allen y Munro en ([2], pág. 529).<br />

Calculemos el segundo momento <strong>de</strong> BSn. Obtenemos:<br />

IE[(BSn) 2 <br />

] = 8 1 + 1<br />

<br />

<br />

HnHn−1 − 4 1 +<br />

n<br />

2<br />

<br />

H2 n−1 + H<br />

n<br />

(2)<br />

<br />

<br />

n − 14 − 10<br />

<br />

Hn<br />

n<br />

+20 − 16<br />

n .<br />

Usando las propieda<strong>de</strong>s <strong>de</strong> los números armónicos obtenemos el siguiente equivalente<br />

142


asintótico <strong>para</strong> el momento <strong>de</strong> or<strong>de</strong>n 2:<br />

IE[(BSn) 2 ] ∼ 4 log 2 n .<br />

Ejemplo 5.3.5. Consi<strong>de</strong>remos la sucesión <strong>de</strong> variables aleatorias i.i.d. distribuidas<br />

como una Gamma <strong>de</strong> parámetros α y λ. Sin perdida <strong>de</strong> generalidad, po<strong>de</strong>mos asumir<br />

λ = 1. La transformada <strong>de</strong> Laplace φ <strong>de</strong>l peso aleatorio vale:<br />

Luego obtenemos:<br />

IE[BSn] = 2α<br />

n<br />

n−1<br />

i=1<br />

<br />

= 2 α +<br />

φ(s) = (1 + s) −α .<br />

n − i<br />

(i + 1)α + 1<br />

<br />

α + 1 n−1<br />

n<br />

i=1<br />

Utilizando el siguiente equivalente asintótico:<br />

n−1<br />

a=1<br />

1<br />

(a + 1)α + 1<br />

Obtenemos la siguiente aproximación:<br />

1 2(n − 1)<br />

−<br />

(i + 1)α + 1 n<br />

∼ 1<br />

α<br />

IE[BSn] ∼ 2 log n .<br />

n<br />

a=2<br />

1<br />

a .<br />

.<br />

(5.24)<br />

Para α = 1, los pesos están distribuidos como una variable exponencial<br />

143


<strong>de</strong> parámetro 1 y <strong>de</strong> la ecuación (5.24) obtenemos:<br />

<br />

IE[BSn] = 2 1 + 2<br />

<br />

Hn+1 − 5 −<br />

n<br />

4<br />

n .<br />

Cuando el número <strong>de</strong> ítemes n tien<strong>de</strong> a infinito, obtenemos la siguiente aproximación<br />

asintótica:<br />

IE[BSn] ∼ 2 log n ,<br />

Calculamos ahora el momento <strong>de</strong> or<strong>de</strong>n 2 y obtenemos:<br />

IE[(BSn) 2 ] = IE[BSn] + 8α2<br />

n<br />

n−2<br />

a=1<br />

n−a−1 <br />

b=1<br />

n − a − b<br />

(α(a + b + 1) + 1)(α(a + 1) + 1) .<br />

En el caso α = 1 (distribución exponencial), esta expresión se reduce a:<br />

IE[(BSn) 2 <br />

] = 8 1 + 2<br />

<br />

<br />

Hn+1Hn − 4 1 +<br />

n<br />

3<br />

<br />

H<br />

n<br />

2 <br />

1<br />

n − 14<br />

3<br />

−<br />

8(n + 1)<br />

n<br />

Hn − 4<br />

<br />

1 + 3<br />

n<br />

<br />

1<br />

+ Hn+1<br />

n<br />

<br />

H (2)<br />

n − 29 − 52<br />

3n .<br />

Luego obtenemos el siguiente equivalente asintótico <strong>para</strong> el segundo momento:<br />

IE[(BSn) 2 ] ∼ 4 log 2 n .<br />

Tanto <strong>para</strong> el ejemplo 5.3.4 como <strong>para</strong> el ejemplo 5.3.5 en el caso α = 1<br />

que presentamos tenemos que:<br />

BSn<br />

IE[BSn]<br />

P r<br />

−−−→ 1 .<br />

n→∞<br />

144


pues por la <strong>de</strong>sigualdad <strong>de</strong> Chebychev (ver p. 233 [23]) es suficiente <strong>de</strong>mostrar:<br />

Var[BSn]<br />

−−−→ 0 .<br />

IE[BSn] 2 n→∞<br />

No <strong>de</strong>ja <strong>de</strong> ser sorpren<strong>de</strong>nte que los dos ejemplos tengan el mismo comportamiento<br />

asintótico <strong>para</strong> la estrategia MtR y un comportamiento absolutamente diferente en<br />

el caso <strong>de</strong> MtF.<br />

Ejemplo 5.3.6. Consi<strong>de</strong>remos una secuencia <strong>de</strong> variables aleatoria i.i.d. distribuidas<br />

como una Poisson <strong>de</strong> parámetro λ. La transformada <strong>de</strong> Laplace φ <strong>de</strong>l peso vale:<br />

φ(s) = e λ(e−t −1) .<br />

Luego uno pue<strong>de</strong> calcular el siguiente equivalente asintótico:<br />

IE[BSn] ∼ 2 log n .<br />

El comportamiento asintótico <strong>de</strong>l costo esperado es igual en el caso <strong>de</strong>terminista y<br />

exponencial.<br />

145


Conclusiones<br />

Los resultados presentes en esta tesis sobre <strong>Cutoff</strong> <strong>para</strong> n-tuplas <strong>de</strong><br />

<strong>procesos</strong> se diferencian <strong>de</strong> los resultados anteriores en tres aspectos: en que <strong>de</strong> ma-<br />

nera general toma espacios no necesariamente finitos, consi<strong>de</strong>ra diferentes distancias<br />

y permite que los <strong>procesos</strong> converjan a distintas tasas exponenciales. En el Teore-<br />

ma 3.3.1 damos condiciones muy generales <strong>para</strong> que un n-tupla <strong>de</strong> <strong>procesos</strong> que<br />

convergen exponencialmente a tasas ρi tengan un <strong>Cutoff</strong> en el instante<br />

<br />

log i<br />

tn = máx , i = 1, . . . , n<br />

2ρ(i,n)<br />

don<strong>de</strong> ρ(1,n), . . . , ρ(n,n) son los valores ρ1, . . . , ρn or<strong>de</strong>nados <strong>de</strong> manera creciente. En<br />

la Proposición 3.3.2 se agregan algunas condiciones <strong>para</strong> encontrar un instante <strong>de</strong><br />

<strong>Cutoff</strong> <strong>de</strong> la forma misma forma que en los resultados previos <strong>de</strong> n-tuplas <strong>de</strong> Ycart<br />

[63] t ′ n = log n/2ρ. La <strong>de</strong>mostración <strong>de</strong>l teorema principal se basa en el Lema 3.2.4<br />

y po<strong>de</strong>mos <strong>de</strong>cir que es una combinación entre como las distancias dan cuenta <strong>de</strong>l<br />

fenómeno <strong>de</strong> concentración <strong>de</strong> la medida y la convergencia a tasa exponencial <strong>de</strong> los<br />

<strong>procesos</strong> al régimen estacionario. En consecuencia, se podría exten<strong>de</strong>r este resultado<br />

a n-tuplas <strong>de</strong> <strong>procesos</strong> no in<strong>de</strong>pendientes pero don<strong>de</strong> siga habiendo concentración <strong>de</strong><br />

la medida.<br />

Parte <strong>de</strong> los resultados <strong>de</strong> esta tesis se centran en las particiones aleato-<br />

rias que son un mo<strong>de</strong>lo que como ya mencionamos tiene diversas aplicaciones en eco-<br />

logía, genética, estadística bayesiana y teoría <strong>de</strong> números. Entre las particiones más<br />

utilizadas están las particiones GEM y PD; relacionadas a través <strong>de</strong> las operaciones<br />

,<br />

146


<strong>de</strong> S-BP y <strong>de</strong> reor<strong>de</strong>namiento <strong>de</strong> manera <strong>de</strong>creciente. Estudiamos las características<br />

<strong>de</strong> la partición <strong>de</strong> D que <strong>de</strong>spués <strong>de</strong> una S-BP es una aproximación <strong>de</strong> GEM y <strong>de</strong> la<br />

partición <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> fragmentación <strong>de</strong> la vara que aproxima una partición GEM<br />

<strong>de</strong> parámetro 1. Ambos análisis se basan principalmente en la función generadora <strong>de</strong><br />

momentos conjunta <strong>de</strong> las particiones Teorema 4.3.5 y Lema 4.4.1.<br />

Los resultados <strong>de</strong> este trabajo en torno a las estrategias <strong>de</strong> organización<br />

MtF y MtR se centran en el análisis <strong>de</strong>l costo <strong>de</strong> búsqueda en régimen estacionario<br />

Sn <strong>para</strong> MtF y BSn <strong>para</strong> MtR con n el numero <strong>de</strong> ítemes a or<strong>de</strong>nar. Este trabajo<br />

se diferencia <strong>de</strong> los anteriores en que estudia ambas reglas <strong>de</strong> auto-organización en<br />

el contexto <strong>de</strong> particiones aleatorias y es similar al <strong>de</strong>sarrollado por [44] quien es-<br />

tudia en una partición aleatoria el problema <strong>de</strong>l coleccionista <strong>de</strong> cupones. Para el<br />

estudio se consi<strong>de</strong>raron las particiones generadas por renormalización y se estudia-<br />

ron ambos costos <strong>de</strong> búsqueda en régimen estacionario. El resultado principal <strong>para</strong><br />

la regla MtF es la distribución asintótica <strong>de</strong>l costo <strong>de</strong> búsqueda normalizado por<br />

el numero <strong>de</strong> ítemes Sn/n en el Teorema 5.2.7. En la estrategia MtR se encontró<br />

<strong>para</strong> dos particiones particulares que el costo <strong>de</strong> búsqueda estacionario se comporta<br />

como 2 log n, lo que propone la interesante pregunta <strong>de</strong> saber cuan general es este<br />

comportamiento. Se pue<strong>de</strong>n plantear aquí diversas i<strong>de</strong>as <strong>para</strong> exten<strong>de</strong>r este trabajo:<br />

podría hacerse el mismo análisis <strong>para</strong> el régimen no estacionario al menos <strong>para</strong> la<br />

estrategia <strong>de</strong> MtF, también podría analizarse otras estrategias <strong>de</strong> organización y/o<br />

otras particiones aleatorias.<br />

147


Referencias<br />

[1] D. Aldous and P. Diaconis, Shuffling cards and stopping times, Amer. Math.<br />

Monthly 93 (1986), no. 5, 333–348. MR 841111 (88a:60021)<br />

[2] B. Allen and I. Munro, Self-organizing binary search trees, J. Assoc. Comput.<br />

Mach. 25 (1978), no. 4, 526–535. MR 508699 (80a:68034)<br />

[3] J. Barrera and T. Huillet, On random splitting of the interval, Statist. Probab.<br />

Lett. 66 (2004), no. 3, 237–250. MR 2044909 (2005c:60063)<br />

[4] J. Barrera, T. Huillet, and C. Paroissin, Size-biased permutation of Dirichlet<br />

partitions and search-cost distribution, Probab. Engrg. Inform. Sci. 19 (2005),<br />

no. 1, 83–97. MR 2104552 (2005h:60029)<br />

[5] J. Barrera, T. Huillet, and Ch. Paroissin, Limiting search cost distribution for<br />

move-to-front rule with random request probabilities, Accepted, 2005.<br />

[6] J. Barrera, B. Lachaud, and B. Ycart, <strong>Cutoff</strong> for exponentially converging pro-<br />

cesses, Submited, 2005.<br />

[7] J. Barrera and C. Paroissin, On the distribution of the search cost for the move-<br />

to-front rule with random weights, J. Appl. Probab. 41 (2004), no. 1, 250–262.<br />

MR 2036286 (2004k:68034)<br />

148


[8] , On the stationary search cost for the move-to-root rule with random<br />

weights, Mathematics and computer science. III, Trends Math., Birkhäuser, Ba-<br />

sel, 2004, pp. 147–148. MR 2090503<br />

[9] C.M. Ben<strong>de</strong>r and S.A. Orszag, Advanced mathematical methods for scientists<br />

and engineers: Asymptotic methods and perturbation theory, Springer, New-<br />

York, 1999.<br />

[10] U.N. Bhat, Elements of applied stochastic processes, John Wiley & Sons Inc.,<br />

New York, 1972, Wiley Series in Probability and Mathematical Statistics. MR<br />

0322976 (48 #1334)<br />

[11] J. Bo<strong>de</strong>ll, Cost of searching - probablistic analysis of the self organizing Move-to-<br />

Front and Move-to-Root sorting rules, Ph.D. thesis, Mathematics Department,<br />

Royal Institute of Technology, Swe<strong>de</strong>n., 1997.<br />

[12] J-L. Bon and E. Păltănea, Convergence of the number of failed components in<br />

a Markov system with noni<strong>de</strong>ntical components, J. Appl. Probab. 38 (2001),<br />

no. 4, 882–897. MR 1876546 (2003a:60116)<br />

[13] M-F. Chen, Equivalence of exponential ergodicity and L 2 -exponential convergen-<br />

ce for Markov chains, Stochastic Process. Appl. 87 (2000), no. 2, 281–297. MR<br />

1757116 (2002a:60120)<br />

[14] , From Markov chains to non-equilibrium particle systems, second ed.,<br />

World Scientific Publishing Co. Inc., River Edge, NJ, 2004. MR 2091955<br />

[15] P. Collet, T. Huillet, and S. Martínez, Size-bias picking for finite random parti-<br />

tions of the interval, 2003 Preprint CMM-B-04/11-116.<br />

149


[16] P. Diaconis, The cutoff phenomenon in finite Markov chains, Proc. Natl. Acad.<br />

Sci. USA 93 (1996), 1659–1664.<br />

[17] P. Diaconis, R.L. Graham, and J.A. Morrison, Asymptotic analysis of a random<br />

walk on a hypercube with many dimensions, Random Structures Algorithms 1<br />

(1990), no. 1, 51–72. MR 1068491 (91g:60078)<br />

[18] P. Diaconis and M. Shahshahani, Time to reach stationarity in the Bernoulli-<br />

Laplace diffusion mo<strong>de</strong>l, SIAM J. Math. Anal. 18 (1987), no. 1, 208–218. MR<br />

871832 (88e:60014)<br />

[19] R.P. Dobrow, The move-to-root rule for self-organizing trees with Markov <strong>de</strong>-<br />

pen<strong>de</strong>nt requests, Stochastic Anal. Appl. 14 (1996), no. 1, 73–87. MR 1373410<br />

(96j:68041)<br />

[20] R.P. Dobrow and J.A. Fill, On the Markov chain for the move-to-root rule for<br />

binary search trees, Ann. Appl. Probab. 5 (1995), no. 1, 1–19. MR 1325037<br />

(96d:60100)<br />

[21] , Rates of convergence for the move-to-root Markov chain for binary sear-<br />

ch trees, Ann. Appl. Probab. 5 (1995), no. 1, 20–36. MR 1325038 (96d:60101)<br />

[22] P. Donnelly, The heaps process, libraries, and size-biased permutations, J. Appl.<br />

Probab. 28 (1991), no. 2, 321–335. MR 1104569 (92f:60116)<br />

[23] W. Feller, An introduction to probability theory and its applications. Vol. I, Third<br />

edition, John Wiley & Sons Inc., New York, 1968. MR 0228020 (37 #3604)<br />

[24] , An introduction to probability theory and its applications. Vol. II., Se-<br />

cond edition, John Wiley & Sons Inc., New York, 1971. MR 0270403 (42 #5292)<br />

150


[25] J.A. Fill, Limits and rates of convergence for the distribution of search cost un<strong>de</strong>r<br />

the move-to-front rule, Theoret. Comput. Sci. 164 (1996), no. 1-2, 185–206. MR<br />

1411204 (97f:68023)<br />

[26] J.A. Fill and L. Holst, On the distribution of search cost for the move-to-front<br />

rule, Random Structures Algorithms 8 (1996), no. 3, 179–186. MR 1603279<br />

(99b:60118)<br />

[27] G.S. Fishman, Monte Carlo, Springer Series in Operations Research, Springer-<br />

Verlag, New York, 1996, Concepts, algorithms, and applications. MR 1392474<br />

(97g:65019)<br />

[28] P. Flajolet, D. Gardy, and L. Thimonier, Birthday <strong>para</strong>dox, coupon collectors,<br />

caching algorithms and self-organizing search, Discrete Appl. Math. 39 (1992),<br />

no. 3, 207–229. MR 1189469 (93i:68107)<br />

[29] A.L. Gibbs and F.E. Su, On choosing and bounding probability metrics, Int.<br />

Statist. Review 70 (2002), no. 3, 419–435.<br />

[30] J. Hawkes, On the asymptotic behaviour of sample spacings, Math. Proc. Cam-<br />

bridge Philos. Soc. 90 (1981), no. 2, 293–303. MR 620739 (82h:60026)<br />

[31] W.J. Hendricks, The stationary distribution of an interesting Markov chain, J.<br />

Appl. Probability 9 (1972), 231–233. MR 0292178 (45 #1265)<br />

[32] W. Hoeffding, The collected works of Wassily Hoeffding, Springer Series in Sta-<br />

tistics: Perspectives in Statistics, Springer-Verlag, New York, 1994, Edited and<br />

with a preface by N. I. Fisher and P. K. Sen. MR MR1307621 (96c:62003)<br />

[33] L. Holst, The Poisson-Dirichlet distribution and its relatives revisited, Preprint<br />

of the Royal Institute of Technology, Swe<strong>de</strong>n., 2001.<br />

151


[34] J.F.C. Kingman, Random partitions in population genetics, Proc. Roy. Soc. Lon-<br />

don Ser. A 361 (1978), no. 1704, 1–20. MR 0526801 (58 #26167)<br />

[35] , Poisson processes, Oxford Studies in Probability, vol. 3, The Clarendon<br />

Press Oxford University Press, New York, 1993, Oxford Science Publications.<br />

MR 1207584 (94a:60052)<br />

[36] D.E. Knuth, The art of computer programming, vol. 3: Sorting and Searching,<br />

Addison-Wesley Publishing Co., Reading, Massachusetts, 1973.<br />

[37] , The art of computer programming, second ed., Addison-Wesley Publis-<br />

hing Co., Reading, Mass.-London-Amsterdam, 1975, Volume 1: Fundamental<br />

algorithms, Addison-Wesley Series in Computer Science and Information Pro-<br />

cessing. MR 0378456 (51 #14624)<br />

[38] A.P. Korostelëv and A.B. Tsybakov, Minimax theory of image reconstruction,<br />

Lecture Notes in Statistics, vol. 82, Springer-Verlag, New York, 1993. MR<br />

1226450 (95a:62028)<br />

[39] B. Lachaud, <strong>Cutoff</strong> and hitting times for a sample of Ornstein-Uhlenbeck pro-<br />

cesses and its average, J. Appl. Probab. (2005), no. 4, to appear.<br />

[40] T. Lindvall, Lectures on the coupling method, Dover Publications Inc., Mineola,<br />

NY, 2002, Corrected reprint of the 1992 original. MR 1924231<br />

[41] F. Martinelli, Relaxation times of Markov chains in statistical mechanics<br />

and combinatorial structures, Probability on discrete structures, Encyclopae-<br />

dia Math. Sci., vol. 110, Springer, Berlin, 2004, pp. 175–262. MR 2023653<br />

(2005b:60260)<br />

152


[42] S. Martínez and B. Ycart, Decay rates and cutoff for convergence and hitting<br />

times of Markov chains with countably infinite state space, Adv. in Appl. Probab.<br />

33 (2001), no. 1, 188–205. MR 1825322 (2002e:60117)<br />

[43] J. McCabe, On serial files with relocatable records, Operations Res. 13 (1965),<br />

609–618. MR 0182458 (31 #6681)<br />

[44] V. G. Papanicolaou, G. E. Kokolakis, and S. Boneh, Asymptotics for the random<br />

coupon collector problem, J. Comput. Appl. Math. 93 (1998), no. 2, 95–105. MR<br />

MR1638006<br />

[45] J. Pitman, Random discrete distributions invariant un<strong>de</strong>r size-biased permuta-<br />

tion, Adv. in Appl. Probab. 28 (1996), no. 2, 525–539. MR 1387889 (97d:62020)<br />

[46] , Poisson-Dirichlet and GEM invariant distributions for split-and-merge<br />

transformation of an interval partition, Combin. Probab. Comput. 11 (2002),<br />

no. 5, 501–514. MR 1930355 (2004d:60253)<br />

[47] J. Pitman and M. Yor, The two-<strong>para</strong>meter Poisson-Dirichlet distribution <strong>de</strong>rived<br />

from a stable subordinator, Ann. Probab. 25 (1997), no. 2, 855–900. MR 1434129<br />

(98f:60147)<br />

[48] D. Pollard, A user’s gui<strong>de</strong> to measure theoretic probability, Cambridge Series in<br />

Statistical and Probabilistic Mathematics, vol. 8, Cambridge University Press,<br />

Cambridge, 2002. MR 1873379 (2002k:60003)<br />

[49] U. Porod, The cut-off phenomenon for random reflections, Ann. Probab. 24<br />

(1996), no. 1, 74–96. MR 1387627 (97e:60012)<br />

[50] A. P. Prudnikov, Yu. A. Brychkov, and O. I. Marichev, Integrals and series. Vol.<br />

1, Gordon & Breach Science Publishers, New York, 1986, Elementary functions,<br />

153


Translated from the Russian and with a preface by N. M. Queen. MR MR874986<br />

(88f:00013)<br />

[51] R.-D. Reiss, Approximate distributions of or<strong>de</strong>r statistics, Springer Series in<br />

Statistics, Springer-Verlag, New York, 1989, With applications to non<strong>para</strong>metric<br />

statistics. MR 988164 (90e:62001)<br />

[52] G.O. Roberts and J.S. Rosenthal, Geometric ergodicity and hybrid Markov<br />

chains, Electron. Comm. Probab. 2 (1997), no. 2, 13–25 (electronic). MR<br />

1448322 (99b:60122)<br />

[53] G.O. Roberts and R.L. Tweedie, Geometric L 2 and L 1 convergence are equivalent<br />

for reversible Markov chains, J. Appl. Probab. 38A (2001), 37–41, Probability,<br />

statistics and seismology. MR 1915532 (2003g:60122)<br />

[54] J.S. Rosenthal, On generalizing the cut-off phenomenon for random walks on<br />

groups, Adv. in Appl. Math. 16 (1995), no. 3, 306–320. MR 1342831 (96j:60007)<br />

[55] L. Saloff-Coste, Lectures on finite Markov chains, Lectures on probability theory<br />

and statistics (Saint-Flour,1996) (Berlin), Lecture Notes in Math., vol. 1665,<br />

Springer, 1997, pp. 301–413. MR 1490046 (99b:60119)<br />

[56] , Random walks on finite groups, Probability on discrete structures,<br />

Encyclopaedia Math. Sci., vol. 110, Springer, Berlin, 2004, pp. 263–346. MR<br />

2023654 (2004k:60133)<br />

[57] M. Sibuya and H. Yamato, Or<strong>de</strong>red and unor<strong>de</strong>red random partitions of an<br />

integer and the GEM distribution, Statist. Probab. Lett. 25 (1995), no. 2, 177–<br />

183. MR 1365035 (97k:62021)<br />

154


[58] F.E. Su, Methods for quantifying rates of convergence for random walks on<br />

groups, Ph.D. thesis, Harvard University, 1995.<br />

[59] S. Tavaré and W.J. Ewens, Multivariate ewens distribution, Discrete multivaria-<br />

te distributions, Wiley Series in Probability and Statistics: Applied Probability<br />

and Statistics, John Wiley & Sons Inc., New York, 1997, pp. 232–246. MR<br />

1429617 (99h:62014)<br />

[60] M.L. Tsetlin, Finite automata and the simulation of the simplest forms of beha-<br />

vior, Uspehi Mat. Nauk 18 (1963), no. 4 (112), 3–28. MR 0159734 (28 #2951)<br />

[61] E.A. Van Doorn, Representations for the rate of convergence of birth-<strong>de</strong>ath pro-<br />

cesses, Teor. Ĭmovīr. Mat. Stat. (2001), no. 65, 33–38. MR 1936126 (2003i:60145)<br />

[62] H. Yamato, M. Sibuya, and T.Ñomachi, Or<strong>de</strong>red sample from two-<strong>para</strong>meter<br />

GEM distribution, Statist. Probab. Lett. 55 (2001), no. 1, 19–27. MR 1860188<br />

(2002k:62030)<br />

[63] B. Ycart, <strong>Cutoff</strong> for samples of Markov chains, ESAIM Probab. Statist. 3 (1999),<br />

89–106 (electronic). MR 1716128 (2000j:60085)<br />

[64] , Stopping tests for Markov chain Monte-Carlo methods, Methodol. Com-<br />

put. Appl. Probab. 2 (2000), no. 1, 23–36. MR 1783151 (2001h:60125)<br />

[65] , <strong>Cutoff</strong> for Markov chains: some examples and applications, Complex<br />

systems (Santiago, 1998) (Dordrecht), Nonlinear Phenom. Complex Systems,<br />

vol. 6, Kluwer Acad. Publ., 2001, pp. 261–300. MR 1886358 (2004a:60126)<br />

155

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!