Analisis Lexico - GIAA

Análisis Léxico 

Componente léxico 

Programa 

Fuente 

Analizador 

Léxico 

Obtén otro 

componente léxico 

Analizador 

Sintáctico 

Tabla de 

Símbolos 

Análisis Léxico. Procesadores de Lenguaje I 

Definiciones 

Tokens: 

• Símbolos terminales de una gramática 

• Identificadores, palabras reservadas, operadores, ... 

• Varios signos pueden forman el mismo token 

Lexema: 

• Secuencia de caracteres del código fuente que son 

identificados como un token específico 

• a1, acumulador, s_total con lexemas del token 

identificador 

Atributos: 

• Información adicional que tiene el token, de 

utilidad para el análisis sintáctico y semántico


Funciones del Análisis Léxico 

Manejar el fichero fuente 

Leer los caracteres de la entrada 

Generar una secuencia de componentes léxicos 

(TOKENS) 

Eliminar comentarios, delimitadores (espacios, 

símbolos de puntación, fin de línea) 

Relacionar los mensajes de error con las líneas del 

programa fuente 

Introducir los identificadores en la tabla de símbolos 

Manejar macros 

Controlar si es de formato libre o no 

• Libre: PASCAL, ALGOL 

• No libre: FORTRAN, BASIC 


Aspectos del Análisis Léxico 

Diseño más sencillo 

• Los símbolos que trata el scanner se describe con una 

gramática más simple que la del parser, gramática regular 

Mejora la eficiencia 

• Gran parte del tiempo de compilación se consume en la 

lectura y exploración de caracteres 

Mejora la portabilidad 

• Se pueden tener varias versiones del scanner una para 

distintos códigos (EBCDID, ASCII, ...), con el mismo parser 

Descarga el análisis sintáctico 

• Ejemplo; no puedo distinguir en FORTRAN hasta después del 

1 

• DO 5 I=1.25 

• DO 5 I=1,25


Tokens, patrones y lexemas, I 

Dos cuestiones: 

• ¿Cómo especificar tokens? 

• ¿Cómo reconocer los tokens dada una 

especificación de tokens? 

Especificar tokens 

• Todos los elementos básicos en un lenguaje 

deben ser tokens por lo tanto deben reconocerse 

Main() { 

int I, j; 

for (I=0; I3 then a:=b+x1 

Tokens 

relación 

asign 

Lexemas 

if 

x1,a,b 

> 

+ 

:= 

then 

3 

• Los atributos de los identificadores se pueden guardar en la 

tabla de símbolos 

• Los otros se pueden guardar en otra tabla o devolverlos 

junto al token 

if 

id 

op 

then 

num


Tokens, patrones y lexemas, IV 

Componente 

Léxico 

Const 

If 

Relación 

Identificador 

Número 

Literal 

Lexemas de 

Ejemplo 

Const 

If 

 

Pi, cuenta, D2 

3.1416, 0 

“el resultado:” 

Descripción del 

Patrón 

Const 

If 

< O = o > 

[a-zA-z]+ 

[0-9]+(\.[0-9]+)? 

Cualquier carácter 

entre “” menos \“ 


Análisis Léxico, representación 

Expresión Regular 

• [a-zA-Z][a-zA-Z0-9]* 

Autómata finito (diagrama o tabla de transición) 

(no exactamente) 

a ... z A ... Z 0 ... 9 

→q 0 

q 1 ... q 1 

*q 1 ... 

q 1 

q 1 

q 1 

q 1 

... 

... 

q 1 

q 1 

φ 

q 1 

... 

... 

φ 

q 1 

Gramática Lineal (regular) 

• S::= aR | ... | zR | AR | ... | ZR 

• R::= aR | ... | zR | AR | ... | ZR | 0R | ... | 9R | λ


Diagrama de Transiciones (DT) 

Para especificar el funcionamiento de un AL 

• Lee caracteres hasta completar un token 

(alcanzado un estado de aceptación) entonces: 

• Devuelve el token leído 

• Deja el buffer de entrada listo para la siguiente llamada 

• No tiene estados de error 

• Las entradas para las que no hay transición se 

consideran de error 

• De los estados de aceptación no salen transiciones 

• Para cadenas no específicas, se realiza una 

transición más (delimitador), que no pertenece al 

token 


Reconocedor de números enteros 

[0-9] + q 0 

[0-9] 

q 1 

[0-9] 

AFD: el estado q 1 

reconoce números 

enteros 

[0-9] 

[0-9] 

q 0 q 1 

otro 

q 2 

DT: el estado q 2 

devuelve el token 

num_entero 

* 

El asterisco significa que el carácter 

debe ser devuelto a la entrada


Analizador de relaciones matemáticas 

q 2 

q 0 

< 

q 1 

= 

q Devuelve 

q 8 

9 

> 

= 

> 

q 3 

> 

otro 

otro 

q 5 

q 4 

q 6 

= 

Devuelve 

q 7 => 

otro 

Devuelve 


Paso de una ER a un AFND 

1. Reconocer {λ}: 

λ 

i f 

2. Reconocer un símbolo {a} en Σ: 

3. Dadas las ER s y t 

Para s|t: 

Para s•t: 

i 

i 

i 

λ 

λ 

λ 

a 

f 

s 

t 

s 

t 

λ 

λ 

f 

λ 

f 

4. Dada la ER s, para s* 

λ 

i 

λ 

s 

λ 

λ 

f 


Ejemplo: identificador 

ER: letra (letra|dígito)* 

λ 

i 

letra 

λ 

λ 

λ 

letra 

dígito 

λ 

λ 

λ 

f 

λ


Paso del AFND al AFD 

Construcción por subconjuntos del AFD D que pasa por los 

estados del AFND N “en paralelo” 

Para s∈N, cierre(s) ={t∈N, hay transición λ de s a t} 

Para T en N, cierre(T)=U cierre(s i ) 

s i ∈T 

Para T en N, mover(T,a)=U {estados en N a los que llega 

s i ∈T transición en a desde s i } 

Algoritmo: construcción de estados D E , tabla D T 

1. Inicializar D E 

con cierre(s 0 

) 

2. Mientras haya estado T en D E 

sin marcar 

1. Marcar T 

2. Para cada símbolo a∈Σ : 

1. U=cierre(mover(T,a)) 

2. Si U no está en D E : 

3. Fin 

1. Añadir U a D E 

2. DT(T,a)=U 

3. Fin 



ER: letra (letra|dígito)* 

λ 

1 

letra 

2 

λ 

letra 

λ 4 

3 

5 λ 

dígito 

λ 6 7 λ 

8 

λ 

9 

λ 

{5,8,3,4,9} 

letra 

{1} 

letra 

{2,3,4,6,9} 

letra 

dígito 

dígito 

dígito 

{7,8,3,6,9}


Minimización de estados de un AFD 

Construcción del AFD M’ equivalente a M con 

mínimo nestados (proceso divisivo) 

1. Dividir estados en partición Π dos grupos: F (acp), S (no) 

2. Construcción de Π n : 

1. Para cada grupo G en Π, dividir G en subgrupos hasta que 

cualquier par de estados s, t que estén en el mismo subgrupo, 

los estados s,t tienen transiciones en a a estados en el mismo 

subgrupo para cualquier a∈Σ 

3. Si Π n =Π, pasar a 4; si no: hacer Π ←Π n y volver a 3. 

4. Los grupos en Π son los estados de M’ 

1. Construir tabla de transiciones 

2. Eliminar estados no alcanzados 



ER identificador: letra (letra|dígito)* 

letra 

I 

letra 

F 

dígito 

ER: a* 

F 

a


Implementación de un AL 

Utilizando un generador de Analizadores Léxicos 

(LEX) 

• Ventajas 

• Comodidad 

• Rapidez de desarrollo 

• Inconvenientes 

• Ineficiencia 

• Dificultad de mantenimiento del código generado 

• Consejo: Ordenar las reglas/transiciones de acuerdo a la 

frecuencia de utilización 

Utilizando ensamblador 

• Ventajas 

• Más eficiente y compacto 

• Inconvenientes 

• Más difícil de desarrollar 


Implementación de un AL 

Utilizando un lenguaje de alto nivel 

• Ventajas 

• Eficiente 

• Compacto 

• Inconveniente 

• Realizar todo a mano 

• Técnicas 

• Programación 

• Tabla compacta 

• Hasing 

• DT programado


Tabla de Transiciones del DT 

[0-9] 

[0-9] 

q 0 q 1 

otro 

q 2 * 

Entradas 

estado 0-9 Otro token Retroceso 

q 0 q 1 Error - - 

q 1 q 1 q 2 - - 

q 2 - - Num_entero 1 

El AL recorre la tabla con un bucle ejecutando 

la sentencia: 

Estado := TablaTransiciones [ Estado , Entrada ]; 


Programación de un AL 

Dos punteros de lectura: 

• Puntero actual (PA, “current pointer”): El último carácter aceptado 

• Puntero de búsqueda (PB, “lookahead pointer”): El último carácter 

leído 

Funciones de lectura: 

• GetChar: mueve el PB hacia delante y devuelve el siguiente 

carácter 

• Fail: mueve el PB a donde está el PA 

• Retract: mueve el PB un carácter hacia atrás 

• Accept: mueve el PA a donde está el PB 

Predicados: 

• IsLetter(x):= x∈ [A..Za..z] 

• IsDigit(x):= x∈ [0..9] 

• IsDelimiter(x):= x∈ [.,;] 

Acciones: 

• InstallName(id): introduce un nombre en la tabla de símbolos


Ejemplo con Identificador 

Identificador::= letra·(letra+dígito)* 

Pseudocódigo 

c:= GetChar 

If IsLetter(c) Then 

identificador:=“” 

Repeat 

identificador:=identificador+c 

c:=GetChar 

Until not(IsLetter(c) OR IsDigit(c)) 

Retract 

token:=(Id, Install(identificador)) 

Accept 

Return (token) 

Else Fail 

¿Qué ocurre con? x1, temp, 102 


Ejemplo con Constante Entera 

Entero::= dígito + 

Pseudocódigo c:= GetChar 

If IsDigit(c) Then 

Valor:=Convertir(c) 

c:=GetChar 

While IsDigit(c) do 

Valor:=10 * Valor + Convertir(c) 

c:=GetChar 

EndWhile 

Retract 

token:=(Entero, Valor) 

Accept 

Return (token) 

Else Fail 

¿Qué ocurre con? x1, 102, 10.3


Implementación con tabla compacta I 

q 6 

b 

L={dda$, ab * ca$|n>=0} 

q 1 

a 

q 2 

c 

q 3 

a 

q 4 

$ 

q 

a b c d $ 

5 

M 

1 2 - - 5 - 

d d 

2 - 2 3 - - 

3 4 - - - - 

4 - - - - 6 

5 - - - 3 - 

6 - - - - - 


Implementación con tabla compacta II 

Para ahorrar memoria se guardan los elementos no nulos en 

una matriz VALOR de dos valores y con tantos elementos como 

posiciones no nulas de M 

Se crea otra tabla, PRIFIL, con el primer VALOR de cada línea 

Número de elementos (no nulos) de VALOR para esa línea 

1 

2 

3 

4 

5 

VALOR 

2 

5 

2 

3 

4 

COL 

1 

4 

2 

3 

1 

1 

2 

3 

4 

5 

PRIFIL 

1 

3 

5 

6 

7 

FIL 

2 

2 

1 

1 

1 

•M(2,3)? 

•PRIFIL(2)=3 

•FIL=2, esto significa que los 

elementos 3 y 4 de VALOR contienen 

las transiciones del estado 2, de los 

dos el que tiene valor COL=3 tiene 

una transición a 3 

6 

6 

5 

6 

0 

0 

7 

3 

4


Programación con Tabla Hash 

Otra forma de programar un analizador léxico es creando una 

tabla hash con el DT 

a ... z A ... Z 0 ... 9 < = ... 

→q 0 

q 1 ... q 1 q 1 ... q 1 φ ... φ q 2 q 6 ... 

*q 1 q 1 ... q 1 q 1 ... q 1 q 1 ... q 1 q 0 q 0 ... 

*q 2 q 0 ... q 0 q 0 ... q 0 q 0 ... q 0 q 0 q 0 ... 

En cada iteración, se lee un carácter de la entrada y se transita 

a un estado dependiendo de la tabla de transiciones 

Si el DT es determinista, sólo habrá una transición posible para 

cada símbolo de entrada y no hace falta retroceso 


Autómata programado 

Representa directamente con un programa al DT 

en cuestión 

estado:=1 

while estado6 do 

Leecar {devuelve en car el siguiente carácter leído} 

case estado of 

1: if car=“a” then estado:=2 else 

if car=“d” then estado:=5 else error 

2: if car=“c” then estado:=3 else 

if car=“b” then estado:=2 else error 

3: if car=“a” then estado:=4 else error 

4: if car=“$” then estado:=6 else error 

5: if car=“d” then estado:=3 else error 

3: error 

end case 

end while


Programación con LEX 

Lex: Lexical Analyzer Generator 

Lex programa fuente 

{definición} 

%% 

{reglas} 

%% 

{subrutinas de usuario} 

Reglas: acción 

Cada expresión regular especifica un token 

Acción: fragmentos de código C que especifican que 

hacer cuando un token es reconocido 


Errores Léxicos 

Hay pocos detectables por el analizador léxico 

• then::=3+x1 (¿=if..then?. ¿=identificador?) 

Detectables 

• Número de caracteres de los identificadores 

• Caracteres ilegales 

• Otros (si el lenguaje no admite .5 en lugar de 

0.5)... 

• Utilizar caracteres que no pertenecen al alfabeto 

del lenguaje 

• Cadena que no concuerda con ningún token


Tratamiento de errores 

! 

En caso de error: 

• Anotar el error 

• Recuperarse 

• Ignorar 

• Borrar 

• Insertar 

• Reemplazar 

• Conmutar 

• Seguir 

¡¡¡ATENCIÓN PRECAUCIÓN!!! 

Programa con K errores: hacen falta K cambios para poder ser 

correcto 

No se suelen utilizar las acciones de corrección de errores por 

ser muy costosas 


AL y Lenguajes de Programación 

El AL agrupa caracteres para formar tokens, por tanto es importante definir 

el “delimitador” 

• Carácter que delimita el token sin pertenecer a él 

Otro concepto importante es el de “palabra reservada” 

• El lenguaje prohíbe el uso libre al programador de determinadas 

palabras que tienen un significado específico y único en el lenguaje 

Se pueden clasificar los lenguajes de programación por el uso de los 

delimitadores y palabras reservadas: 

• Delimitadores blancos con palabras reservadas 

• Caso más sencillo de lenguaje (PASCAL, COBOL) 

• Delimitadores blancos sin palabras resevadas 

• PL/I 

• Blancos se ignoran sin palabras reservadas 

• El tipo más difícil de lenguaje, aparecen ambigüedades (FORTRAN) 

• Blancos se ignoran con palabras reservadas 

• Indeterminado


Identificación de palabras reservadas 

if P.reserv 

int P.reserv 

... P.reserv 

real Identif 

... Identif 

¿Cómo reconocer las palabras reservadas de 

identificadores que concuerdan con el mismo 

patrón pero son tokens distintos? 

• Resolución implícita: 

• En principio, todas son identificadores, antes de devolver 

el token “identificador” la comprueba en una lista de 

palabras reservadas 

• En la tabla de símbolos aparecen al principio las palabras 

reservadas 

• Resolución explícita: 

• Se integran los DT correspondiente a las palabras 

reservadas en la máquina reconocedora 


Prioridad de los tokens 

Criterios 

• Dar prioridad al token que concuerda con el 

lexema más largo 

• Ejemplo: “>” o “>=” se quedaría con el segundo 

• En el caso que un lexema se pueda concordar a 

varios tokens se asocia al que esté definido en 

primer lugar

Analisis Lexico - GIAA

Create successful ePaper yourself

Delete template?

Save as template?