Un Modelo de Calidad de Datos para Portales Web - Grupo Alarcos
Un Modelo de Calidad de Datos para Portales Web - Grupo Alarcos
Un Modelo de Calidad de Datos para Portales Web - Grupo Alarcos
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Un</strong> <strong>Mo<strong>de</strong>lo</strong> <strong>de</strong> <strong>Calidad</strong> <strong>de</strong> <strong>Datos</strong><br />
<strong>para</strong> <strong>Portales</strong> <strong>Web</strong><br />
Ciudad Real, 14 <strong>de</strong> noviembre <strong>de</strong> 2008<br />
Angélica Caro Gutiérrez<br />
Departamento <strong>de</strong> Ciencias <strong>de</strong> la Computación y<br />
Tecnologías <strong>de</strong> Información<br />
<strong>Un</strong>iversidad <strong>de</strong>l Bío-Bío<br />
Chile<br />
Contenido<br />
1. Motivación<br />
2. Métodos <strong>de</strong> Investigación usados<br />
3. PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
4. PoDQA (Portal Data Quality Assessment Tool)<br />
5. Conclusiones<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
2<br />
78<br />
1
¿Qué es <strong>Calidad</strong> <strong>de</strong> <strong>Datos</strong>?<br />
• La calidad <strong>de</strong> datos (DQ) es <strong>de</strong>finida como: “apropiada <strong>para</strong> el<br />
uso”, i.e., la capacidad <strong>de</strong> una colección <strong>de</strong> datos <strong>de</strong> reunir los<br />
requisitos <strong>de</strong> los usuarios (Strong et al,1997).<br />
• Esto implica que los datos <strong>de</strong>ben estar <strong>de</strong> acuerdo con las<br />
necesida<strong>de</strong>s <strong>de</strong> quienes los van a usar, incluso si estos son muy<br />
diferentes y con necesida<strong>de</strong>s muy variadas.<br />
• A<strong>de</strong>más, la <strong>de</strong>finición <strong>de</strong> DQ sugiere que la calidad <strong>de</strong> datos no<br />
pue<strong>de</strong> ser evaluada in<strong>de</strong>pendientemente <strong>de</strong> las personas que<br />
usan los datos (consumidores <strong>de</strong> datos).<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
¿Cómo sabemos si tenemos DQ?<br />
Las personas normalmente asociamos la calidad <strong>de</strong> los<br />
datos con exactitud<br />
Sabattini<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Sabatini,<br />
Zabatini<br />
ZAbattini ?<br />
Zavatini, …<br />
3<br />
78<br />
4<br />
78<br />
2
Error <strong>de</strong><br />
escritura<br />
que afecta<br />
la Exactitud<br />
Id<br />
1<br />
2<br />
3<br />
4<br />
¿Cómo sabemos si tenemos DQ?<br />
Sin embargo la DQ es más que sólo datos exactos…<br />
Titulo<br />
Casablanca<br />
La sociedad <strong>de</strong> poetas<br />
muertos<br />
Harry Potter y el<br />
prisionero <strong>de</strong> Azaban<br />
101 dálmatas<br />
Director<br />
Weir<br />
Curtiz<br />
Alfonso<br />
Cuarón<br />
Nulo<br />
Intercambio<br />
<strong>de</strong> directores<br />
que afecta la<br />
Exactitud<br />
Año<br />
1942<br />
1989<br />
2004<br />
1961<br />
Número<br />
remakes<br />
1999<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
3<br />
0<br />
0<br />
0<br />
La ausencia<br />
<strong>de</strong> valor es un<br />
problema <strong>de</strong><br />
Completitud<br />
Año último<br />
remake<br />
1940<br />
Nulo<br />
Nulo<br />
Este valor no es<br />
verda<strong>de</strong>ro ya que la<br />
película tiene remakes,<br />
esto es un problema <strong>de</strong><br />
Actualidad<br />
¿Cómo sabemos si tenemos DQ?<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Este año no pue<strong>de</strong><br />
ser menor que el<br />
año <strong>de</strong> estreno, esto<br />
afecta la<br />
Consistencia<br />
Este año <strong>de</strong>be ser<br />
nulo porque el<br />
número <strong>de</strong> remakes<br />
es 0, esto afecta la<br />
Consistencia<br />
5<br />
78<br />
6<br />
78<br />
3
PDQM : Motivación<br />
Hoy en día muchas organizaciones han establecido portales <strong>Web</strong><br />
<strong>para</strong> complementar, sustituir o ampliar sus servicios.<br />
<strong>Un</strong> portal <strong>Web</strong> es un sitio que reúne información <strong>de</strong> múltiples<br />
fuentes <strong>de</strong>l World Wi<strong>de</strong> <strong>Web</strong> y que organiza este material en<br />
forma simple y amigable <strong>para</strong> el usuario.<br />
En general, los portales <strong>Web</strong> proveen a los usuarios con:<br />
Acceso a diferentes fuentes (proveedores).<br />
Información on-line y servicios relacionados con la información.<br />
<strong>Un</strong> ambiente <strong>de</strong> trabajo.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : Motivación<br />
Los usuarios (consumidores <strong>de</strong> datos) en portales <strong>Web</strong> necesitan<br />
asegurarse que los datos que obtienen son los apropiados <strong>para</strong> el<br />
uso que ellos <strong>de</strong>sean darle.<br />
Las organizaciones propietarias <strong>de</strong> portales <strong>Web</strong> necesitan<br />
entregar datos que reúnan los requisitos <strong>de</strong> los usuarios.<br />
Entonces, la <strong>Calidad</strong> <strong>de</strong> los <strong>Datos</strong> es <strong>de</strong> gran interés tanto <strong>para</strong><br />
los consumidores <strong>de</strong> datos como <strong>para</strong> los propietarios <strong>de</strong> portales.<br />
Propuestas específicas <strong>para</strong> abordar la DQ en los portales <strong>Web</strong><br />
no hay.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
7<br />
78<br />
8<br />
78<br />
4
PDQM : Motivación<br />
Por lo tanto, lo anterior nos motiva a la <strong>de</strong>finición <strong>de</strong> PDQM.<br />
PDQM un <strong>Mo<strong>de</strong>lo</strong> <strong>de</strong> <strong>Calidad</strong> <strong>de</strong> <strong>Datos</strong> <strong>para</strong><br />
portales <strong>Web</strong>, centrado en la perspectiva <strong>de</strong><br />
los consumidores <strong>de</strong> datos.<br />
Contenido<br />
1. Motivación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
2. Métodos <strong>de</strong> Investigación usados<br />
3. PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
4. PoDQA (Portal Data Quality Assessment Tool)<br />
5. Conclusiones<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
9<br />
78<br />
10<br />
78<br />
5
Métodos <strong>de</strong> Investigación usados<br />
Investigación Acción<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación (Kitchenham y<br />
Pflegeer, 2001-2003)<br />
Revisión Sistemática (Kitchenham, 2004)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Investigación Acción, como marco <strong>de</strong> referencia <strong>para</strong> el<br />
<strong>de</strong>sarrollo global <strong>de</strong> la tesis<br />
<strong>Mo<strong>de</strong>lo</strong> <strong>de</strong> <strong>Calidad</strong><br />
<strong>de</strong> <strong>Datos</strong> <strong>para</strong> <strong>Portales</strong> <strong>Web</strong><br />
Propuestas<br />
Consumidores <strong>de</strong><br />
<strong>Datos</strong> <strong>de</strong> <strong>Portales</strong><br />
<strong>Web</strong> (Beneficiarios)<br />
Resultados<br />
<strong>de</strong> Aplicación<br />
Comunidad científica, miembros<br />
<strong>de</strong> los proyectos Calipo, Calipso<br />
y Competisoft, Consumidores<br />
<strong>de</strong> datos (<strong>Grupo</strong> Crítico)<br />
<strong>Grupo</strong> <strong>Alarcos</strong><br />
(Investigador)<br />
Resultados<br />
Refinados<br />
Entorno<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
<strong>Mo<strong>de</strong>lo</strong> <strong>de</strong> <strong>Calidad</strong><br />
<strong>de</strong> <strong>Datos</strong> <strong>para</strong><br />
<strong>Portales</strong> <strong>Web</strong><br />
(objeto investigado)<br />
11<br />
78<br />
12<br />
78<br />
6
Métodos <strong>de</strong> Investigación usados<br />
Investigación Acción<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación (Kitchenham y<br />
Pflegeer, 2001-2003)<br />
Revisión Sistemática (Kitchenham, 2004)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación<br />
“<strong>Un</strong>a encuesta no es sólo el instrumento <strong>para</strong> reunir<br />
información, es un sistema completo <strong>para</strong> coleccionar<br />
información <strong>para</strong> <strong>de</strong>scribir, com<strong>para</strong>r o explicar<br />
conocimiento, actitu<strong>de</strong>s y conductas ”<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
(Kitchenham y Pflegeer, 2001)<br />
13<br />
78<br />
14<br />
78<br />
7
Métodos <strong>de</strong> Investigación usados<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación:<br />
Objetivos Básicos<br />
Tipos <strong>de</strong> encuestas<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Intentar <strong>de</strong>scribir un<br />
fenómeno <strong>de</strong> interés<br />
Evaluar el impacto <strong>de</strong><br />
alguna intervención<br />
Supervisadas<br />
No-supervisadas<br />
Semi-supervisadas<br />
Métodos <strong>de</strong> Investigación usados<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación:<br />
Activida<strong>de</strong>s<br />
Básicas<br />
Establecer objetivos medibles,<br />
específicos<br />
Diseñar la encuesta<br />
Seleccionar a los participantes<br />
Pre<strong>para</strong>r el instrumento <strong>de</strong><br />
colección <strong>de</strong> datos<br />
Evaluar el instrumento <strong>de</strong><br />
encuesta<br />
Documentar la encuesta<br />
Analizar los datos<br />
Informar los resultados<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
15<br />
78<br />
16<br />
78<br />
8
Métodos <strong>de</strong> Investigación usados<br />
Investigación Acción<br />
Principios <strong>de</strong> encuestas <strong>de</strong> investigación (Kitchenham y<br />
Pflegeer, 2001-2003)<br />
Revisión Sistemática (Kitchenham, 2004)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática <strong>de</strong> la literatura<br />
“<strong>Un</strong>a revisión sistemática es una manera <strong>de</strong> evaluar e<br />
interpretar toda la investigación disponible, que sea<br />
relevante respecto <strong>de</strong> una interrogante <strong>de</strong><br />
investigación particular, en un área temática o<br />
fenómeno <strong>de</strong> interés”.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
(Kitchenham,2004)<br />
Adaptación <strong>de</strong>l método propuesto por Kitchenham <strong>para</strong> su<br />
utilización por parte <strong>de</strong> un investigador/estudiante <strong>de</strong> doctorado<br />
y su director <strong>de</strong> tesis.<br />
17<br />
78<br />
18<br />
78<br />
9
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática <strong>de</strong> la literatura<br />
Etapa 1<br />
Etapa 2<br />
Etapa 3<br />
Planificación <strong>de</strong> la Revisión<br />
I<strong>de</strong>ntificación <strong>de</strong> la necesidad <strong>de</strong> revisión<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> búsqueda<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> revisión<br />
Evaluación <strong>de</strong> la planificación<br />
Desarrollo <strong>de</strong> la Revisión<br />
Búsqueda <strong>de</strong> estudios primarios<br />
Selección <strong>de</strong> estudios primarios<br />
Extracción y gestión <strong>de</strong> los datos<br />
Síntesis <strong>de</strong> datos<br />
Publicación <strong>de</strong> los resultados<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Etapa 1: Planificación <strong>de</strong> la Revisión<br />
I<strong>de</strong>ntificación <strong>de</strong> la necesidad <strong>de</strong> la revisión<br />
Objetivo<br />
Interrogantes <strong>de</strong><br />
Investigación<br />
Resumir la evi<strong>de</strong>ncia existente respecto<br />
<strong>de</strong> cómo se ha abordado la DQ en los<br />
<strong>Portales</strong> <strong>Web</strong> o aplicaciones afines<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Revisión sistemática<br />
¿Cuáles son los problemas asociados a<br />
la DQ en los <strong>Portales</strong> <strong>Web</strong>?<br />
¿Cuáles son los atributos <strong>de</strong> calidad<br />
asociados a los datos en los <strong>Portales</strong><br />
<strong>Web</strong>?<br />
¿ Cómo se pue<strong>de</strong> mejorar la DQ en los<br />
<strong>Portales</strong> <strong>Web</strong>?<br />
19<br />
78<br />
20<br />
78<br />
10
Métodos <strong>de</strong> Investigación usados<br />
Etapa 1: Planificación <strong>de</strong> la Revisión<br />
I<strong>de</strong>ntificación <strong>de</strong> la necesidad <strong>de</strong> la revisión<br />
Recursos<br />
Disponibles<br />
Actas ICIQ 1996-2005<br />
Revistas electrónicas: ACM, IEEE, etc.<br />
Libros Biblioteca UCLM<br />
Biblioteca digital <strong>de</strong> literatura científica<br />
(Citeseer)<br />
Tesis y TI <strong>de</strong>sarrolladas en <strong>Alarcos</strong><br />
Textos y revistas disponibles en<br />
<strong>Alarcos</strong><br />
Internet<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Etapa 1: Planificación <strong>de</strong> la Revisión :<br />
Definición <strong>de</strong>l Protocolo <strong>de</strong> Búsqueda<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Revisión sistemática<br />
Métodos <strong>de</strong> Investigación usados<br />
Términos<br />
Combinaciones<br />
Revisión sistemática<br />
Data, “Data Estrategias Information, Quality” <strong>de</strong> Búsqueda <strong>Web</strong>, www, Internet, Quality,<br />
Portal, “Information Registro<br />
Dato,<br />
<strong>de</strong><br />
Información, Quality” Resultados<br />
<strong>Calidad</strong><br />
Revisar las referencias<br />
“Data CD’s Recursos Quality” <strong>de</strong> Si Se + Revisar En los (<strong>Web</strong>/Portal/ <strong>de</strong>berá algunos resultados los consi<strong>de</strong>rar índices /Internet/www)<br />
casos <strong>de</strong> una don<strong>de</strong> la búsqueda se posibilidad aparecen pue<strong>de</strong>n<br />
bibliográficas que incluyen. En<br />
“Information Texto actas con función no <strong>de</strong> Quality”+(<strong>Web</strong>/Portal/<br />
<strong>Un</strong>a nos <strong>de</strong> los ingresar la llevan revisión títulos aparición en a sitios <strong>de</strong> manual forma <strong>de</strong> cada don<strong>de</strong> nuevos <strong>de</strong>: artículo escalada título, el términos y los el<br />
/Internet/www)<br />
electrónico Autores Otros Internet<br />
estos casos, se proce<strong>de</strong>rá a buscar<br />
congresos <strong>de</strong> resumen, documento resumen, términos índice los que necesitamos cuales <strong>de</strong> términos, <strong>de</strong>berán búsqueda, está etc. ser<br />
Los resultados<br />
o conceptos<br />
directamente <strong>de</strong> las búsquedas<br />
que nos<br />
el documento y el<br />
ayu<strong>de</strong>n<br />
origen citado <strong>de</strong><br />
a<br />
búsqueda restringido, leídos restringiéndola en busca buscar a <strong>de</strong> los en los las resultados términos páginas <strong>de</strong> y<br />
los mismos,<br />
encontrar<br />
usando <strong>de</strong>ben<br />
trabajos <strong>de</strong> nuestro<br />
los ser antece<strong>de</strong>ntes registrados por que escrito.<br />
personales interés. sus una combinaciones.<br />
búsqueda <strong>de</strong> los anterior. autores.<br />
aparecen en la referencia.<br />
21<br />
78<br />
22<br />
78<br />
11
Métodos <strong>de</strong> Investigación usados<br />
Etapa 1: Planificación <strong>de</strong> la Revisión :<br />
Definición <strong>de</strong>l Protocolo <strong>de</strong> Revisión<br />
Artículos en<br />
formato<br />
científico,<br />
distribución<br />
<strong>de</strong>l contenido<br />
(Srba, 2004)<br />
Resumen<br />
2,5%<br />
Trabajos Relacionados<br />
2,5%<br />
Cuerpo <strong>de</strong>l Artículo<br />
50%<br />
Referencias<br />
10%<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Etapa 1: Planificación <strong>de</strong> la Revisión :<br />
Definición <strong>de</strong>l Protocolo <strong>de</strong> Revisión<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Revisión sistemática<br />
Introducción 10%<br />
Preliminares 20%<br />
Conclusión 5%<br />
Métodos <strong>de</strong> Investigación usados<br />
Normas <strong>de</strong> Revisión<br />
Criterios <strong>de</strong> Inclusión<br />
Revisión sistemática<br />
Es Criterios el momento <strong>de</strong> Exclusión <strong>para</strong> conseguir el trabajo completo, ya que<br />
<strong>de</strong>bemos Se Estrategia incluirán asegurarnos<br />
<strong>de</strong> todos extracción aquellos <strong>de</strong> su<br />
<strong>de</strong><br />
relevancia trabajos datos o <strong>para</strong> estudios nuestra que revisión. abor<strong>de</strong>n Se el<br />
leerá tema al menos el resumen e introducción y se <strong>de</strong>cidirá si<br />
incluimos<br />
Se <strong>de</strong> DQ en la <strong>Web</strong> y que se enmarquen en algunos <strong>de</strong> los<br />
•Comunidad Estrategia excluirán<br />
o no<br />
<strong>de</strong> a aquellos que síntesis<br />
el está estudio, orientado <strong>de</strong> estudios datos<br />
en el base<br />
que artículo a pesar<br />
los [Introducción, criterios<br />
<strong>de</strong> contener<br />
<strong>de</strong> Trabajos este<br />
los<br />
siguientes<br />
protocolo.<br />
términos relacionados, <strong>de</strong> tópicos: Planteamiento/Análisis <strong>de</strong>l problema <strong>de</strong> DQ<br />
en la <strong>Web</strong>, En<br />
búsqueda Referencias]<br />
Propuesta la copia<br />
o combinaciones<br />
<strong>de</strong> un completa marco <strong>de</strong> trabajo <strong>de</strong>l<br />
<strong>de</strong><br />
trabajo,<br />
ellos, no<br />
y Propuestas adjuntar<br />
contienen<br />
<strong>para</strong><br />
comentarios<br />
información •Contribuciones Los datos<br />
evaluación y/o sobre<br />
relevante serán [Resumen, sintetizados<br />
mejora el mismo<br />
sobre Introducción,<br />
<strong>de</strong> la DQ. documento<br />
el tema. <strong>de</strong> acuerdo Conclusión] a los siguientes<br />
en un lugar visible. Se<br />
•Posibles temas: consecuencias <strong>de</strong> las contribuciones (Aplicaciones directas,<br />
llevará nuevas un técnicas, control nuevas acerca áreas <strong>de</strong> los <strong>de</strong> investigación, estudios primarios etc.).[Introducción] aceptados y<br />
rechazados, •Información - Problemas<br />
registrando <strong>de</strong>tallada <strong>de</strong> DQ que el<br />
en<br />
motivo necesitemos la <strong>Web</strong><br />
<strong>de</strong> exclusión. <strong>para</strong> nuestra revisión y<br />
Comprensión - Propuestas <strong>de</strong> un <strong>de</strong> experimento, marcos <strong>de</strong> trabajo los fundamentos <strong>de</strong> un marco <strong>de</strong><br />
trabajo, las características <strong>de</strong> un mo<strong>de</strong>lo, etc. [Preliminares, Cuerpo<br />
- Propuestas <strong>para</strong> evaluación y/o mejora<br />
<strong>de</strong>l Artículo]<br />
23<br />
78<br />
24<br />
78<br />
12
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática<br />
Etapa 1: Planificación <strong>de</strong> la Revisión :<br />
Evaluación <strong>de</strong> la planificación<br />
La planificación <strong>de</strong>finida <strong>de</strong>be ser evaluada con el fin <strong>de</strong><br />
corroborar las estrategias a emplear.<br />
En este caso, por tratarse <strong>de</strong>l<br />
<strong>de</strong>sarrollo <strong>de</strong> una tesis doctoral, la<br />
planificación <strong>de</strong>bió ser evaluada por el<br />
director <strong>de</strong> Tesis.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática <strong>de</strong> la literatura<br />
Etapa 1<br />
Etapa 2<br />
Etapa 3<br />
Planificación <strong>de</strong> la Revisión<br />
I<strong>de</strong>ntificación <strong>de</strong> la necesidad <strong>de</strong> revisión<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> búsqueda<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> revisión<br />
Evaluación <strong>de</strong> la planificación<br />
Desarrollo <strong>de</strong> la Revisión<br />
Búsqueda <strong>de</strong> estudios primarios<br />
Selección <strong>de</strong> estudios primarios<br />
Extracción y gestión <strong>de</strong> los datos<br />
Síntesis <strong>de</strong> datos<br />
Publicación <strong>de</strong> los resultados<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
25<br />
78<br />
26<br />
78<br />
13
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática<br />
Etapa 2: Desarrollo <strong>de</strong> la Revisión :<br />
Desarrollo <strong>de</strong> la búsqueda, sobre las fuentes <strong>de</strong><br />
información <strong>de</strong>finidas y aplicando un protocolo <strong>de</strong> búsqueda.<br />
Se <strong>de</strong>sarrolla en base al protocolo <strong>de</strong> revisión, consi<strong>de</strong>rando los<br />
criterios <strong>de</strong> inclusión y exclusión. Se pue<strong>de</strong> registrar<br />
información acerca <strong>de</strong>l proceso que pueda ser útil más<br />
a<strong>de</strong>lante.<br />
Extracción <strong>de</strong> la información <strong>de</strong> interés en los estudios, ya sean<br />
extractos <strong>de</strong> los documentos, i<strong>de</strong>as, resúmenes, etc. A<strong>de</strong>más<br />
<strong>de</strong>be registrarse la información necesaria <strong>para</strong> gestión, como la<br />
relativa a la bibliografía y otra que los investigadores consi<strong>de</strong>ren<br />
pertinente.<br />
Aplicación <strong>de</strong> la estrategia <strong>de</strong> síntesis <strong>de</strong>finida en el protocolo<br />
<strong>de</strong> revisión.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática <strong>de</strong> la literatura<br />
Etapa 1<br />
Etapa 2<br />
Etapa 3<br />
Planificación <strong>de</strong> la Revisión<br />
I<strong>de</strong>ntificación <strong>de</strong> la necesidad <strong>de</strong> revisión<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> búsqueda<br />
Definición <strong>de</strong> un protocolo <strong>de</strong> revisión<br />
Evaluación <strong>de</strong> la planificación<br />
Desarrollo <strong>de</strong> la Revisión<br />
Búsqueda <strong>de</strong> estudios primarios<br />
Selección <strong>de</strong> estudios primarios<br />
Extracción y gestión <strong>de</strong> los datos<br />
Síntesis <strong>de</strong> datos<br />
Publicación <strong>de</strong> los resultados<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
27<br />
78<br />
28<br />
78<br />
14
Métodos <strong>de</strong> Investigación usados<br />
Revisión sistemática<br />
Etapa 3: Publicación <strong>de</strong> los resultados:<br />
Uso dado a los resultados obtenidos<br />
Artículos <strong>de</strong> conferencias<br />
Capítulo <strong>de</strong> la tesis doctoral, estado <strong>de</strong>l arte<br />
Contenido<br />
1. Motivación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
2. Métodos <strong>de</strong> Investigación utilizados<br />
3. PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
4. PoDQA (Portal Data Quality Assessment Tool)<br />
5. Conclusiones<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
29<br />
78<br />
30<br />
78<br />
15
Primera Parte:<br />
<strong>Mo<strong>de</strong>lo</strong> Teórico<br />
1.- I<strong>de</strong>ntificación <strong>de</strong><br />
atributos <strong>de</strong> DQ <strong>Web</strong><br />
PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
1. Proceso <strong>de</strong> Desarrollo<br />
2. PDQM (Teórico)<br />
3. PDQM (Operacional)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : Proceso <strong>de</strong> Desarrollo<br />
3.- Clasificación <strong>de</strong><br />
atributos <strong>de</strong> DQ en la<br />
Matriz<br />
4.- Validación<br />
PDQM’<br />
2.- Definición <strong>de</strong> una<br />
Matriz <strong>de</strong> Clasificación<br />
PDQM’<br />
1.- Definición <strong>de</strong> un criterio <strong>para</strong><br />
organizar los atributos <strong>de</strong> PDQM<br />
2.- Definición <strong>de</strong> la<br />
estructura <strong>de</strong> PDQM<br />
3.- Pre<strong>para</strong>ción <strong>de</strong> PDQM<br />
<strong>para</strong> la evaluación <strong>de</strong> la DQ<br />
4.- Validación<br />
PDQM<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Segunda parte:<br />
<strong>Mo<strong>de</strong>lo</strong> Operacional<br />
31<br />
78<br />
32<br />
78<br />
16
PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
1. Proceso <strong>de</strong> Desarrollo<br />
2. PDQM (Teórico)<br />
3. PDQM (Operacional)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
Componentes básicos <strong>de</strong> PDQM:<br />
Funcionalida<strong>de</strong>s <strong>de</strong><br />
un Portal <strong>Web</strong><br />
PDQM<br />
Perspectiva <strong>de</strong>l<br />
Consumidor <strong>de</strong> <strong>Datos</strong><br />
Atributos <strong>de</strong> DQ<br />
<strong>Web</strong><br />
Funcionalida<strong>de</strong>s Expectativas Set <strong>de</strong> atributos <strong>de</strong><br />
básicas <strong>de</strong> un DQ <strong>de</strong> los DQ propuestos<br />
portal <strong>Web</strong> consumidores <strong>para</strong> <strong>de</strong> el contexto<br />
(Collins, 2001) datos en Internet <strong>de</strong> la <strong>Web</strong><br />
(Redman, 2001)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
33<br />
78<br />
34<br />
78<br />
17
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
1.- I<strong>de</strong>ntificación <strong>de</strong><br />
atributos <strong>de</strong> DQ <strong>Web</strong><br />
3.- Classificación <strong>de</strong> los<br />
atributos <strong>de</strong> DQ en la Matriz<br />
4.- Validación<br />
PDQM<br />
Teórico<br />
2.- Definición <strong>de</strong> una<br />
matriz <strong>de</strong> clasificación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
1. I<strong>de</strong>ntificación <strong>de</strong> atributos <strong>de</strong> DQ <strong>Web</strong>.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
: mismo nombre y significado<br />
: sólo el significado es el mismo<br />
35<br />
78<br />
36<br />
78<br />
18
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
1.- I<strong>de</strong>ntificación <strong>de</strong><br />
atributos <strong>de</strong> DQ <strong>Web</strong><br />
3.- Classificación <strong>de</strong> los<br />
atributos <strong>de</strong> DQ en la Matriz<br />
4.- Validación<br />
PDQM<br />
Teórico<br />
2.- Definición <strong>de</strong> una<br />
matriz <strong>de</strong> clasificación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
2. Definición <strong>de</strong> una Matriz <strong>de</strong> Clasificación.<br />
3. Clasificación <strong>de</strong> los atributos <strong>de</strong> DQ en la matriz.<br />
They provi<strong>de</strong> the ability to access information<br />
from a wi<strong>de</strong> range of internal<br />
and external information sources<br />
and display the resulting information<br />
at the single point-of-access <strong>de</strong>sktop.<br />
Data consumers need a<br />
<strong>de</strong>scription of portal<br />
areas covered, use of<br />
published data, etc.),<br />
Accessibility<br />
Currency<br />
Amount of data<br />
<strong>Un</strong><strong>de</strong>rstandability<br />
Relevancy<br />
Concise Representation<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
37<br />
78<br />
38<br />
78<br />
19
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
3. Clasificación <strong>de</strong> los atributos <strong>de</strong> DQ en la matriz.<br />
Como resultado se i<strong>de</strong>ntificaron 34 atributos <strong>de</strong> DQ <strong>para</strong> PDQM.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
1.- I<strong>de</strong>ntificación <strong>de</strong><br />
atributos <strong>de</strong> DQ <strong>Web</strong><br />
3.- Classificación <strong>de</strong> los<br />
atributos <strong>de</strong> DQ en la Matriz<br />
4.- Validación<br />
PDQM<br />
Teórico<br />
2.- Definición <strong>de</strong> una<br />
matriz <strong>de</strong> clasificación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
39<br />
78<br />
40<br />
78<br />
20
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
¿Hay coinci<strong>de</strong>ncia con<br />
los consumidores <strong>de</strong><br />
datos?<br />
¿Hemos consi<strong>de</strong>rado todos<br />
los atributos importantes<br />
<strong>para</strong> los usuarios?<br />
¿Los atributos <strong>de</strong><br />
PDQM son relevantes<br />
<strong>para</strong> los usuarios?<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
Objetivo<br />
Planificación y<br />
Programación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Encuesta<br />
Obtener la opinión <strong>de</strong> los consumidores<br />
<strong>de</strong> datos <strong>de</strong> un Portal <strong>Web</strong> respecto a la<br />
importancia <strong>para</strong> ellos <strong>de</strong> cada uno <strong>de</strong> los<br />
atributos <strong>de</strong> DQ seleccionados <strong>para</strong> la<br />
versión teórica <strong>de</strong> PDQM<br />
Población objetivo: los consumidores <strong>de</strong><br />
datos <strong>de</strong> <strong>Portales</strong> <strong>Web</strong>.<br />
Muestra utilizada: estudiantes <strong>de</strong> que<br />
cursaban la asignatura Ingeniería <strong>de</strong><br />
Software.<br />
Tamaño <strong>de</strong> la muestra: 70 sujetos.<br />
41<br />
78<br />
42<br />
78<br />
21
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
Constatar la<br />
disponibilidad <strong>de</strong><br />
recursos<br />
Diseño <strong>de</strong> la<br />
encuesta<br />
Se obtuvieron todos los recursos<br />
necesarios <strong>para</strong> crear el instrumento <strong>de</strong><br />
la encuesta, <strong>para</strong> tener acceso a un grupo<br />
<strong>de</strong> sujetos que se ajustaran al perfil<br />
<strong>de</strong>finido, <strong>para</strong> administrar la encuesta y<br />
<strong>para</strong> analizar los resultados.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
Pre<strong>para</strong>ción <strong>de</strong>l<br />
instrumento <strong>de</strong><br />
la encuesta<br />
Diseño <strong>de</strong>scriptivo, (apropiado cuando se<br />
<strong>de</strong>sea <strong>de</strong>scribir algún fenómeno <strong>de</strong><br />
interés)<br />
Selección <strong>de</strong> preguntas <strong>de</strong> acuerdo con el<br />
propósito y objetivo <strong>de</strong> la encuesta:<br />
<strong>Un</strong>a pregunta cerrada <strong>para</strong> consultar la<br />
importancia <strong>de</strong> cada atributo <strong>de</strong> DQ (34 preguntas<br />
en total), incluyendo la <strong>de</strong>f. <strong>de</strong>l atributo.<br />
<strong>Un</strong>a pregunta abierta <strong>para</strong> consultar por<br />
cualquier otro atributo importante no consi<strong>de</strong>rado<br />
en PDQM.<br />
Las preguntas fueron creadas usando un<br />
lenguaje convencional y expresando i<strong>de</strong>as<br />
simples, sin incluir preguntas negativas.<br />
Para reducir el tiempo <strong>de</strong> la encuesta, se<br />
estandarizó el formato <strong>de</strong> las respuestas usando<br />
una escala <strong>de</strong> Likert <strong>de</strong> cinco puntos: ``1" (No<br />
importante) hasta ``5" (Muy importante).<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
43<br />
78<br />
44<br />
78<br />
22
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
Validar el<br />
instrumento <strong>de</strong><br />
la encuesta<br />
Selección <strong>de</strong> los<br />
participantes<br />
Aplicación <strong>de</strong>l<br />
Cuestionario<br />
Experiencia <strong>de</strong> estudio piloto.<br />
Validación <strong>de</strong>l instrumento con 10 sujetos,<br />
se modificó la redacción <strong>de</strong> 2 preguntas-<br />
Método no probabilístico <strong>de</strong> ``muestreo<br />
por conveniencia“.<br />
La muestra <strong>de</strong> 70 sujetos.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación<br />
Análisis <strong>de</strong> los<br />
resultados<br />
Se entregó directamente a los sujetos, en<br />
formato impreso.<br />
Se explicó la naturaleza, objetivo y la<br />
importancia <strong>de</strong>l estudio.<br />
Utilizaron menos <strong>de</strong> 25 minutos.<br />
La encuesta fue contestada por 54 sujetos,<br />
con una tasa <strong>de</strong> respuesta <strong>de</strong>l 77% .<br />
Después <strong>de</strong> una primera revisión se <strong>de</strong>tectó<br />
que uno <strong>de</strong> los cuestionarios tenía una<br />
pregunta sin respon<strong>de</strong>r. Tomando en<br />
cuenta la in<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> cada pregunta,<br />
se <strong>de</strong>cidió no eliminar el cuestionario pero<br />
<strong>de</strong>scartar la respuesta <strong>de</strong> esa pregunta en<br />
los resultados finales.<br />
Se hizo un análisis estadístico <strong>de</strong> los datos.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
45<br />
78<br />
46<br />
78<br />
23
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
4. Validación : Encuesta a Consumidores <strong>de</strong> <strong>Datos</strong><br />
Attribute<br />
Attractiveness<br />
Accessibility<br />
Accuracy<br />
Amount of Data<br />
Applicability<br />
Availability<br />
Believability<br />
Completeness<br />
Concise Representation<br />
Consistent Representation<br />
Currency<br />
Customer Support<br />
Documentation<br />
Duplicates<br />
Ease of Operation<br />
Expiration<br />
Flexibility<br />
Mean<br />
4,06<br />
4,52<br />
4,28<br />
3,96<br />
4,00<br />
4,60<br />
4,15<br />
3,85<br />
3,63<br />
3,63<br />
4,54<br />
3,54<br />
3,31<br />
3,00<br />
3,72<br />
3,28<br />
3,26<br />
2<br />
3<br />
2<br />
2<br />
2<br />
3<br />
2<br />
2<br />
2<br />
2<br />
3<br />
1<br />
1<br />
1<br />
2<br />
1<br />
2<br />
Max<br />
Value ad<strong>de</strong>d<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
Attribute<br />
Interactivity<br />
Interpretability<br />
Objectivity<br />
Organization<br />
Relevancy<br />
Reliability<br />
Reputation<br />
Response Time<br />
Security<br />
Source's Information<br />
Specialization<br />
Timeliness<br />
Traceability<br />
<strong>Un</strong><strong>de</strong>rstandability<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Teórico<br />
Novelty<br />
Validity<br />
4. Validación : Encuesta a Consumidores <strong>de</strong> <strong>Datos</strong><br />
Como resultado PDQM está compuesto por 33 atributos <strong>de</strong> DQ:<br />
Accesabilidad<br />
Actualidad<br />
Aplicabilidad<br />
Atractivo<br />
Cantidad <strong>de</strong> <strong>Datos</strong><br />
Completitud<br />
Credibilidad<br />
Disponibilidad<br />
Documentación<br />
Duplicidad<br />
Entendibilidad<br />
Min<br />
Especialización<br />
Exactitud<br />
Expiración<br />
Facilidad <strong>de</strong> operación<br />
Flexibilidad<br />
Fiabilidad<br />
Interactividad<br />
Interpretabilidad<br />
Novedad<br />
Objetividad<br />
Oportunidad<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Mean<br />
3,19<br />
3,87<br />
3,67<br />
3,50<br />
3,94<br />
4,09<br />
4,15<br />
3,46<br />
4,30<br />
4,22<br />
2,56<br />
3,61<br />
4,06<br />
3,63<br />
4,02<br />
3,57<br />
3,98<br />
Organización<br />
Relevancia<br />
Min<br />
Represent. Concisa<br />
Represent. Consistente<br />
Reputación<br />
Seguridad<br />
Soporte <strong>de</strong> Usuario<br />
Tiempo <strong>de</strong> Respuesta<br />
Trazabilidad<br />
Vali<strong>de</strong>z<br />
Valor agregado<br />
1<br />
2<br />
2<br />
1<br />
2<br />
2<br />
2<br />
2<br />
2<br />
2<br />
1<br />
2<br />
2<br />
1<br />
2<br />
1<br />
1<br />
Max<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
5<br />
47<br />
78<br />
48<br />
78<br />
24
PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
1. Proceso <strong>de</strong> Desarrollo<br />
2. PDQM (Teórico)<br />
3. PDQM (Operacional)<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
Uso <strong>de</strong> re<strong>de</strong>s bayesianas (BN), con lo cual es posible:<br />
– Representar las relaciones entre los atributos <strong>de</strong> DQ <strong>de</strong> una<br />
manera explícita e intuitiva. Facilitar la comprensión <strong>de</strong>l mo<strong>de</strong>lo,<br />
su validación, evolución y explotación.<br />
– Evitar los problemas <strong>de</strong> incertidumbre <strong>de</strong> la subjetividad.<br />
– Usar la red obtenida <strong>para</strong> pre<strong>de</strong>cir/estimar la DQ <strong>de</strong> un portal.<br />
– Aislar factores responsables, en el caso <strong>de</strong> un bajo nivel <strong>de</strong> DQ.<br />
Construcción <strong>de</strong> una BN <strong>para</strong> un mo<strong>de</strong>lo <strong>de</strong> calidad<br />
(Malak, 2006):<br />
– Construcción <strong>de</strong> la estructura gráfica<br />
– Definición <strong>de</strong> las tablas <strong>de</strong> probabilida<strong>de</strong>s<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
49<br />
78<br />
50<br />
78<br />
25
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
PDQM<br />
Teórico<br />
1.- Definición <strong>de</strong> un criterio <strong>para</strong><br />
organizar los atributos <strong>de</strong><br />
PDQM<br />
2.- Definición <strong>de</strong> una<br />
estructura <strong>para</strong> PDQM<br />
3.- Pre<strong>para</strong>ción <strong>de</strong> PDQM<br />
<strong>para</strong> evaluar la DQ<br />
4.- Validación<br />
PDQM<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
1. Criterio <strong>para</strong> organizar los atributos <strong>de</strong> PDQM<br />
Categorías <strong>de</strong><br />
DQ (Wang &<br />
Strong, 1996)<br />
Intrínseca<br />
Accesibilidad<br />
Contextual<br />
Representacional<br />
DQ Category<br />
Intrinsic<br />
Operational<br />
Contextual<br />
Representational<br />
Data Quality Attributes<br />
Applicability, Completeness, Flexibility, Novelty,<br />
Reliability, Relevancy, Specialization, Timeliness,<br />
Validity, Value-Ad<strong>de</strong>d<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Accuracy, Objectivity, Believability, Reputation,<br />
Currency, Duplicates, Expiration, Source’s information,<br />
Traceability<br />
Accessibility, Security, Interactivity, Availability,<br />
Customer support, Ease of operation, Response time<br />
Interpretability, <strong>Un</strong><strong>de</strong>rstandability, Concise<br />
Representation, Consistent Representation, Amount of<br />
Information, Attractiveness, Documentation, Organization<br />
Generación <strong>de</strong> cuatro fragmentos <strong>de</strong> BN, (Neil et al. 2000)<br />
51<br />
78<br />
52<br />
78<br />
26
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
PDQM<br />
Teórico<br />
1.- Definición <strong>de</strong> un criterio <strong>para</strong><br />
organizar los atributos <strong>de</strong><br />
PDQM<br />
2.- Definición <strong>de</strong> una<br />
estructura <strong>para</strong> PDQM<br />
3.- Pre<strong>para</strong>ción <strong>de</strong> PDQM<br />
<strong>para</strong> evaluar la DQ<br />
4.- Validación<br />
PDQM<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Categorias <strong>de</strong> DQ<br />
Wang & Strong<br />
Atributos <strong>de</strong> DQ<br />
clasificados<br />
2. Generación <strong>de</strong> la estructura global <strong>de</strong> PDQM<br />
DQ Representacional (Nivel 1)<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
Relaciones <strong>de</strong> Influencia Directa<br />
Nivel 2<br />
Representación<br />
Concisa<br />
Representación<br />
Consistente<br />
Entendibilidad<br />
Atractivo<br />
Nivel 3<br />
-<br />
-<br />
Interpretabilidad<br />
Cantidad <strong>de</strong><br />
datos<br />
Documentación<br />
Organización<br />
Organización<br />
Premisa que soporta la relación<br />
Si los datos son representados en forma compacta, sin<br />
elementos superfluos, entonces estarán mejor representados.<br />
Si los datos se presentan siempre con el mismo formato,<br />
compatible con los datos previos y consistente con otras<br />
fuentes, entonces estarán mejor representados.<br />
Si los datos son presentados en un lenguaje y en unida<strong>de</strong>s<br />
apropiados <strong>para</strong> la capacidad <strong>de</strong>l usuario, entonces serán<br />
más entendibles.<br />
Si la cantidad <strong>de</strong> datos entregados por el portal es apropiada<br />
entonces serán más entendibles.<br />
Si los datos poseen metainformación útil serán más<br />
entendibles.<br />
Si los datos están organizados con una combinación<br />
consistente <strong>de</strong> características visuales serán más entendibles.<br />
Si los datos están organizados con una combinación<br />
consistente <strong>de</strong> características visuales serán más atractivos.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
53<br />
78<br />
54<br />
78<br />
27
Objetividad<br />
Duplicados<br />
Exactitud<br />
Reputación<br />
Credibilidad<br />
DQ_Intriniseca<br />
Trazabilidad<br />
Actualidad<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
2. Generación <strong>de</strong> la estructura global <strong>de</strong> PDQM<br />
Expiración<br />
Tiempo <strong>de</strong><br />
respuesta<br />
Interactividad<br />
Facilidad <strong>de</strong><br />
operación<br />
Soporte<br />
<strong>de</strong> usuario<br />
Accesibilidad<br />
Seguridad<br />
Disponibilidad<br />
Confiabilidad<br />
Aplicabilidad<br />
Completitud<br />
Vali<strong>de</strong>z<br />
DQ_Operacional DQ_Contextual DQ_Representación<br />
PDQ<br />
Flexibilidad<br />
Valor<br />
Agregado<br />
Novedad<br />
Oportunidad<br />
Relevancia<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Especialización<br />
Representación<br />
Concisa<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
PDQM<br />
Teórico<br />
1.- Definición <strong>de</strong> un criterio <strong>para</strong><br />
organizar los atributos <strong>de</strong><br />
PDQM<br />
2.- Definición <strong>de</strong> una<br />
estructura <strong>para</strong> PDQM<br />
3.- Pre<strong>para</strong>ción <strong>de</strong> PDQM<br />
<strong>para</strong> evaluar la DQ<br />
4.- Validación<br />
PDQM<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Categorias <strong>de</strong> DQ<br />
Wang & Strong<br />
Atributos <strong>de</strong> DQ<br />
clasificados<br />
Gráfico <strong>de</strong> la red<br />
Bayesiana<br />
Interpretabilidad<br />
Representación<br />
Consistente<br />
Cantidad <strong>de</strong><br />
<strong>Datos</strong><br />
Documentación<br />
Entendibilidad<br />
Organización<br />
Atractivo<br />
55<br />
78<br />
56<br />
78<br />
28
Objetividad<br />
Duplicados<br />
Exactitud<br />
Reputación<br />
Credibilidad<br />
DQ_Intriniseca<br />
Trazabilidad<br />
Actualidad<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
3. Pre<strong>para</strong>ción <strong>de</strong> PDQM <strong>para</strong> evaluar la DQ:<br />
Expiración<br />
Tiempo <strong>de</strong><br />
respuesta<br />
Interactividad<br />
Facilidad <strong>de</strong><br />
operación<br />
Soporte<br />
<strong>de</strong> usuario<br />
Accesibilidad<br />
Seguridad<br />
Disponibilidad<br />
Confiabilidad<br />
Aplicabilidad<br />
Completitud<br />
Vali<strong>de</strong>z<br />
DQ_Operacional DQ_Contextual DQ_Representación<br />
PDQ<br />
Flexibilidad<br />
Valor<br />
Agregado<br />
Novedad<br />
Oportunidad<br />
Relevancia<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Especialización<br />
Representación<br />
Concisa<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
3. Pre<strong>para</strong>ción <strong>de</strong> PDQM <strong>para</strong> evaluar la DQ:<br />
Método:<br />
Interpretabilidad<br />
Representación<br />
Consistente<br />
Cantidad <strong>de</strong><br />
<strong>Datos</strong><br />
Documentación<br />
Entendibilidad<br />
– Selección <strong>de</strong> uno <strong>de</strong> los fragmentos <strong>de</strong> red<br />
– Si fuera necesario, crear nodos artificiales <strong>para</strong> simplificar el<br />
fragmento, esto es, reducir el número <strong>de</strong> padres por nodo.<br />
– Definir variables cuantificables por cada nodo <strong>de</strong> entrada en<br />
el fragmento.<br />
– Definir la tablas <strong>de</strong> probabilidad <strong>de</strong> cada nodo. En esta etapa<br />
se tomará en consi<strong>de</strong>ración el contexto a evaluar. Esto es,<br />
las probabilida<strong>de</strong>s serán ajustadas <strong>de</strong> acuerdo al dominio que<br />
se <strong>de</strong>sea evaluar.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Organización<br />
Atractivo<br />
57<br />
78<br />
58<br />
78<br />
29
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
3. Pre<strong>para</strong>ción <strong>de</strong>l fragmento DQ_Representacional:<br />
– Creación <strong>de</strong> nodos artificiales <strong>para</strong> simplificar la red<br />
Representación<br />
Concisa<br />
Interpretabilidad<br />
Cantidad <strong>de</strong> <strong>Datos</strong><br />
Representación<br />
Consistente<br />
DQ_Representación<br />
Documentación<br />
Entendibilidad<br />
Organización<br />
Atractivo<br />
Representación<br />
Concisa<br />
Representación<br />
Consistente<br />
Subred Original Subred Final<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Documentación<br />
Representación<br />
Cantidad <strong>de</strong> <strong>Datos</strong><br />
Volumen <strong>de</strong> <strong>Datos</strong><br />
Entendibilidad<br />
DQ_Representación<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
3. Pre<strong>para</strong>ción <strong>de</strong> Sub-red DQ_Representacional:<br />
– Definición <strong>de</strong> variables cuantificables<br />
– Definición <strong>de</strong> tablas <strong>de</strong> probabilida<strong>de</strong>s<br />
LCcR<br />
LCsR<br />
Representación<br />
Concisa<br />
Representación<br />
Consistente<br />
LD LAD<br />
Documentación<br />
Representación<br />
Volumen <strong>de</strong><br />
<strong>Datos</strong><br />
Cantidad <strong>de</strong><br />
<strong>Datos</strong><br />
Entendibilidad<br />
DQ_Representación<br />
Interpretabilidad<br />
Organización<br />
Atractivo<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
LI<br />
LO<br />
Interpretabilidad<br />
Organización<br />
Atractivo<br />
LCsR = PSSD*0.5 + SDCD*0.5<br />
Medidas <strong>de</strong>rivadas:<br />
PSSD: Páginas con el mismo estilo.<br />
SDCD: Correspon<strong>de</strong>ncia entre fuente y <strong>de</strong>stino<br />
1<br />
0<br />
LCsR<br />
Bad<br />
Medium<br />
Good<br />
Fórmula<br />
Criterio <strong>de</strong> Decisión<br />
Low Medium<br />
High<br />
Low<br />
0.8<br />
0.12<br />
0.08<br />
0.3 0.45 0.6<br />
Medium<br />
0.08<br />
0.8<br />
0.12<br />
High<br />
0.04<br />
0.14<br />
0.82<br />
59<br />
78<br />
60<br />
78<br />
30
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
PDQM<br />
Teórico<br />
1.- Definición <strong>de</strong> un criterio <strong>para</strong><br />
organizar los atributos <strong>de</strong><br />
PDQM<br />
2.- Definición <strong>de</strong> una<br />
estructura <strong>para</strong> PDQM<br />
3.- Pre<strong>para</strong>ción <strong>de</strong> PDQM<br />
<strong>para</strong> evaluar la DQ<br />
4.- Validación<br />
PDQM<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Categorias <strong>de</strong> DQ<br />
Wang & Strong<br />
Atributos <strong>de</strong> DQ<br />
clasificados<br />
Gráfico <strong>de</strong> la red<br />
Bayesiana<br />
Red<br />
Bayesiana<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validación:<br />
Com<strong>para</strong>r las evaluaciones <strong>de</strong> DQ <strong>de</strong> los mismos portales<br />
usando PDQM y valoraciones <strong>de</strong> consumidores <strong>de</strong> datos,<br />
hasta verificar la estabilidad <strong>de</strong> PDQM.<br />
Primer<br />
Experimento<br />
1 portal<br />
Muestreo por<br />
Conveniencia ( 79<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos.<br />
Segundo<br />
Experimento<br />
4 portales<br />
Muestreo por<br />
Conveniencia( 54<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Tercer<br />
Experimento<br />
17 portales<br />
Muestreo por<br />
Conveniencia( 51<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
61<br />
78<br />
62<br />
78<br />
31
4. Validation: primer experimento<br />
Attribute<br />
Evaluated<br />
Attractiveness<br />
Organization<br />
Amount of Data<br />
<strong>Un</strong><strong>de</strong>rstandability<br />
Interpretability<br />
Documentation<br />
Consistent Representation<br />
Concise Representation<br />
Portal<br />
Organization<br />
Portal<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
Subj<br />
30%<br />
37%<br />
18%<br />
32%<br />
6%<br />
16%<br />
18%<br />
16%<br />
17%<br />
Low/Bad<br />
PDQM<br />
34%<br />
26%<br />
6%<br />
52%<br />
43%<br />
9%<br />
81%<br />
6%<br />
20%<br />
Subj<br />
61%<br />
44%<br />
49%<br />
47%<br />
45%<br />
49%<br />
53%<br />
52%<br />
68%<br />
Medium<br />
PDQM<br />
44%<br />
66%<br />
13%<br />
23%<br />
49%<br />
82%<br />
13%<br />
13%<br />
40%<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validation: primer experimento<br />
Attribute<br />
Evaluated<br />
Attractiveness<br />
Amount of Data<br />
<strong>Un</strong><strong>de</strong>rstandability<br />
Interpretability<br />
Documentation<br />
Consistent Representation<br />
Concise Representation<br />
Subj<br />
30%<br />
37%<br />
18%<br />
32%<br />
6%<br />
16%<br />
18%<br />
16%<br />
17%<br />
Low/Bad<br />
PDQM<br />
26%<br />
26%<br />
8%<br />
32%<br />
40%<br />
11%<br />
73%<br />
8%<br />
18%<br />
Subj<br />
61%<br />
44%<br />
49%<br />
47%<br />
45%<br />
49%<br />
53%<br />
52%<br />
68%<br />
Medium<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM<br />
58%<br />
60%<br />
17%<br />
48%<br />
46%<br />
73%<br />
15%<br />
17%<br />
58%<br />
Subj<br />
9%<br />
19%<br />
33%<br />
21%<br />
48%<br />
34%<br />
29%<br />
32%<br />
16%<br />
High/Good<br />
9%<br />
19%<br />
33%<br />
21%<br />
48%<br />
34%<br />
29%<br />
32%<br />
16%<br />
PDQM<br />
22%<br />
8%<br />
81%<br />
25%<br />
7%<br />
9%<br />
6%<br />
81%<br />
40%<br />
High/Good<br />
Subj<br />
PDQM<br />
16%<br />
14%<br />
75%<br />
20%<br />
14%<br />
15%<br />
12%<br />
75%<br />
24%<br />
63<br />
78<br />
64<br />
78<br />
32
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validación:<br />
Com<strong>para</strong>r las evaluaciones <strong>de</strong> DQ <strong>de</strong> los mismos portales<br />
usando PDQM y valoraciones <strong>de</strong> consumidores <strong>de</strong> datos,<br />
hasta verificar la estabilidad <strong>de</strong> PDQM.<br />
Primer<br />
Experimento<br />
1 portal<br />
Muestreo por<br />
Conveniencia ( 79<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos.<br />
Probability tables<br />
adjustment<br />
Segundo<br />
Experimento<br />
4 portales<br />
Muestreo por<br />
Conveniencia( 54<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Tercer<br />
Experimento<br />
17 portales<br />
Muestreo por<br />
Conveniencia( 51<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validation: segundo experimento<br />
Portal<br />
Evaluated<br />
www.uam.es<br />
www.ujaen.es<br />
www.us.es<br />
www.ua.es<br />
Subj<br />
12,00%<br />
32,00%<br />
21,15%<br />
10,00%<br />
Low<br />
PDQM<br />
28,13%<br />
27,13%<br />
17,34%<br />
35,63%<br />
Representational DQ Level<br />
Subj<br />
44,00%<br />
46,00%<br />
48,05%<br />
42,00%<br />
Medium<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PDQM<br />
51,27%<br />
51,25%<br />
50,27%<br />
47,24%<br />
Subj<br />
44,00%<br />
22,00%<br />
30,77%<br />
48,00%<br />
Las evaluaciones <strong>de</strong> PDQM coinci<strong>de</strong>n en un 75% con las<br />
evaluaciones <strong>de</strong> los sujetos<br />
High<br />
PDQM<br />
20,59%<br />
21,60%<br />
32,35%<br />
17,11%<br />
65<br />
78<br />
66<br />
78<br />
33
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validación:<br />
Com<strong>para</strong>r las evaluaciones <strong>de</strong> DQ <strong>de</strong> los mismos portales<br />
usando PDQM y valoraciones <strong>de</strong> consumidores <strong>de</strong> datos,<br />
hasta verificar la estabilidad <strong>de</strong> PDQM.<br />
Primer<br />
Experimento<br />
1 portal<br />
Muestreo por<br />
Conveniencia ( 79<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos.<br />
Probability tables<br />
adjustment<br />
Segundo<br />
Experimento<br />
4 portales<br />
Muestreo por<br />
Conveniencia( 54<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
Ajuste <strong>de</strong><br />
Indicadores<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Tercer<br />
Experimento<br />
17 portales<br />
Muestreo por<br />
Conveniencia( 51<br />
sujetos)<br />
1 cuestionario <strong>para</strong><br />
todos los sujetos<br />
PDQM : <strong>Mo<strong>de</strong>lo</strong> Operacional<br />
4. Validación: tercer experimento<br />
Resultados <strong>de</strong> la correlación <strong>de</strong> Spearman:<br />
Srep()<br />
Sund()<br />
Satt()<br />
Spearman<br />
Correlation Coefficient<br />
Sig. (2-tailed)<br />
Correlation Coefficient<br />
Sig. (2-tailed)<br />
Correlation Coefficient<br />
Sig. (2-tailed)<br />
Prob_Rep_H<br />
0,414<br />
0,099<br />
0,298<br />
0,245<br />
0,297<br />
0,248<br />
Prob_<strong>Un</strong>d_H<br />
0,015<br />
0,955<br />
0,501<br />
0,04<br />
0,305<br />
0,233<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Prob_Att_H<br />
0,32<br />
0,211<br />
0,514<br />
0,035<br />
0,424<br />
0,09<br />
<strong>Un</strong><strong>de</strong>rstandability es estadísticamente valida con un 95% <strong>de</strong> confianza<br />
Las tres variables son estadísticamente válidas con un 90% <strong>de</strong> confianza.<br />
67<br />
78<br />
68<br />
78<br />
34
Contenido<br />
1. Motivación<br />
2. Métodos <strong>de</strong> Investigación utilizados<br />
3. PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
4. PoDQA (Portal Data Quality Assessment Tool)<br />
5. Conclusiones<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
PoDQA: Portal DQ Assessment Tool<br />
Motivación:<br />
1. Automatizar PDQM a través <strong>de</strong> una aplicación <strong>Web</strong><br />
2. Demostrar la aplicabilidad <strong>de</strong> PDQM en la evaluación <strong>de</strong> la<br />
DQ en portales <strong>Web</strong><br />
3. Dejar PDQM accesible a los consumidores <strong>de</strong> datos <strong>de</strong><br />
portales <strong>Web</strong>. (http://podqa.webqualityportal.com )<br />
4. Adicionalmente, crear una funcionalidad <strong>de</strong> uso <strong>para</strong><br />
<strong>de</strong>sarrolladores <strong>de</strong> portales <strong>Web</strong><br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
69<br />
78<br />
70<br />
78<br />
35
PoDQA: Portal DQ Assessment Tool<br />
Características Generales:<br />
Users<br />
<strong>Web</strong>site application<br />
ASP.NET<br />
INTERFACE<br />
Console application VB<br />
Measurements<br />
Bayesian<br />
Network<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
DataBase<br />
Presentation Application Storage<br />
PoDQA: Portal DQ Assessment Tool<br />
Características Generales:<br />
User<br />
PODQA<br />
Console<br />
URL<br />
Calculus of Measures<br />
User<br />
Valuations<br />
Automatic<br />
Values<br />
between<br />
0 and 1<br />
Fuzzy Logic<br />
Probabilistic<br />
classifier<br />
Probabilities<br />
for<br />
entry no<strong>de</strong>s<br />
Bayesian Network<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Probabilistic<br />
Calculus<br />
e-mail<br />
DQ<br />
scores<br />
71<br />
78<br />
72<br />
78<br />
36
PoDQA: Portal DQ Assessment Tool<br />
• Futuras Mejoras:<br />
1. Implementar la evaluación <strong>de</strong> las otras Categorías <strong>de</strong> DQ<br />
2. Implementar la generación <strong>de</strong> recomendaciones <strong>de</strong> mejora<br />
<strong>para</strong> las otras Categorías <strong>de</strong> DQ<br />
3. Incluir más dominios <strong>de</strong> portales <strong>Web</strong>, incluyendo un dominio<br />
general.<br />
4. Implementar los ranking <strong>de</strong> DQ <strong>para</strong> los nuevos dominios <strong>de</strong><br />
portales <strong>Web</strong><br />
Contenido<br />
1. Motivación<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
2. Métodos <strong>de</strong> Investigación utilizados<br />
3. PDQM (Portal Data Quality Mo<strong>de</strong>l)<br />
4. PoDQA (Portal Data Quality Assessment Tool)<br />
5. Conclusiones y comentarios finales<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
73<br />
78<br />
74<br />
78<br />
37
Conclusiones y comentarios finales<br />
PDQM ha sido validado en la comunidad <strong>de</strong> investigadores<br />
Journals (JCR)<br />
International Journals<br />
Book Chapters<br />
Iberoamerican Journals<br />
International Conferences<br />
Iberoamerican Conferences<br />
National Conferences<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Conclusiones y comentarios finales<br />
PDQM es un mo<strong>de</strong>lo que permite evaluar la DQ en portales<br />
<strong>Web</strong> usando la perspectiva <strong>de</strong>l consumidor <strong>de</strong> datos.<br />
PDQM se ha creado primero generando un mo<strong>de</strong>lo teórico y<br />
a partir <strong>de</strong> éste un mo<strong>de</strong>lo operacional usando un enfoque<br />
probabilístico. Con todo esto preten<strong>de</strong>mos obtener un<br />
mo<strong>de</strong>lo:<br />
Genérico, aplicable en cualquier tipo <strong>de</strong> PW<br />
A<strong>de</strong>cuado, orientado al punto <strong>de</strong> vista <strong>de</strong>l consumidor <strong>de</strong><br />
datos<br />
Flexible, aplicable en diferentes situaciones<br />
Completo, que represente todas las relaciones entre los<br />
atributos<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
2<br />
2<br />
3<br />
1<br />
12<br />
2<br />
3<br />
75<br />
78<br />
76<br />
78<br />
38
Conclusiones y comentarios finales<br />
Trabajo futuro:<br />
Completar el resto <strong>de</strong> los fragmentos <strong>de</strong>l mo<strong>de</strong>lo<br />
Nuevas validaciones con un mayor número <strong>de</strong> portales.<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
Conclusiones y comentarios finales<br />
El método científico, facilita el <strong>de</strong>sarrollo <strong>de</strong> la<br />
investigación y la generación <strong>de</strong> nuevo<br />
conocimiento<br />
Es importante tener presente y seguir los métodos<br />
<strong>de</strong> investigación que se utilizarán <strong>para</strong> el <strong>de</strong>sarrollo<br />
<strong>de</strong> la investigación<br />
El rigor científico es muy útil a la hora <strong>de</strong> publicar los<br />
resultados<br />
Angélica Caro Gutiérrez, 2008 – mcaro@ubiobio.cl<br />
77<br />
78<br />
78<br />
78<br />
39
<strong>Un</strong> mo<strong>de</strong>lo <strong>de</strong> <strong>Calidad</strong> <strong>de</strong> <strong>Datos</strong><br />
<strong>para</strong> <strong>Portales</strong> <strong>Web</strong><br />
Angélica Caro Gutiérrez<br />
Departamento <strong>de</strong> Ciencias <strong>de</strong> la Computación y<br />
Tecnologías <strong>de</strong> Información<br />
<strong>Un</strong>iversidad <strong>de</strong>l Bío-Bío<br />
Chile<br />
40