"Los errores de muestreo en las encuestas complejas: usos y ...

decon.edu.uy

"Los errores de muestreo en las encuestas complejas: usos y ...

LOS ERRORES DEMUESTREO EN LASENCUESTASCOMPLEJAS: USOS YABUSOS DE LAINFORMACIÓNFernando Medina H. 1Resumen 2Las investigaciones por muestreo hanlogrado gran aceptación en las últimasdécadas y actualmente su uso se hageneralizado a empresas públicas yprivadas, así como a centros de investigacióny organismos internacionales.Sin embargo, esto ha propiciado suuso irracional ya que son pocas laspersonas que conocen las restriccionesque imponen a los datos los procedimientosaplicados para la selecciónde la muestra. De hecho, toda vezque los resultados han sido difundidosy la base de datos se pone a disposiciónde los investigadores y tomadoresde decisiones, la mayor parte deéstos hacen caso omiso de las limitacionesde la información y se dedicana formular hipótesis de comportamientoy a diseñar opciones de política, sincorrobar si las afirmaciones que realizantienen validez estadística. Asimismo,existen restricciones en el uso delos métodos clásicos de inferencia yanálisis estadístico ya que estas técnicasse basan en el supuesto de quelas observaciones provienen de unamuestra aleatoria simple extraída sinreemplazo y con igual probabilidad, locual no coincide con la forma en quese seleccionan las observaciones enlas encuestas complejas. En este trabajose analizan algunas de las limitacionesque imponen a los datos losdiseños de muestras complejas y secalculan los errores de muestreo utilizandoinformación generada a partirde encuestas realizadas por países deHispanoamérica.Palabras Clave: Diseños de muestrascomplejas; encuestas; ponderadores;errores de muestreo; varianza; estratificación;conglomerados; efecto de diseño;estimadores.1. IntroducciónLa utilización de las encuestas pormuestreo como una herramienta útilpara generar información ha cobradogran relevancia en las últimas décadas.De hecho, parecería que la credibilidadde las afirmaciones que sehacen sobre el comportamiento de undeterminado fenómeno aumentan enla medida en que al público se le hacesaber que la información se generó pormedio de una investigación por muestreola cual se argumenta que es “representativay confiable al 95%”.1Asesor Regional en Estadísticas Sociales.División de Estadística y Proyecciones Económicasde la Comisión Económica para AméricaLatina y el Caribe (CEPAL).Las opiniones expresadas, son responsabilidaddel autor y no corresponden necesariamentecon las de la institución en donde colabora.(fmedina@eclac.cl)2Este trabajo se presentará en la reunión dela Asociación Internacional de Estadísticos deEncuestas(IASS) y la Asociación Internacionalde Estadísticas Oficiales(IAOS), organizadapor el Instituto Internacional deEstadística(ISI), Statistics Canada y el InstitutoNacional de Estadística, Geografía e Informáticade México(INEGI), en la ciudad deAguascalientes, México del 1 al 4 de septiembrede 1998.


A pesar de ser práctica común quediversas organizaciones nacionales einternacionales participen en la planeacióny apoyen el desarrollo de encuestas,se considera pertinente evaluarla manera en que éstas se proyectany analizan planteando las siguientespreguntas:i) Se diseñan las encuestas en formaadecuada?Se determina el tamaño de muestraóptimo, se aplican procedimientos robustosde estratificación, se asigna lamuestra de manera adecuada en losestratos;ii) Los resultados obtenidos se interpretande manera correcta?La inferencia estadística está basadaen el diseño muestral); yiii) Las relaciones de causalidad quese prueban y las recomendacionesde política que se formulan tienenvalidez estadística?Es estadísticamente válida la inferenciabasada en modelos de comportamiento.Tratando de contribuir a dar respuestaa estas preguntas, el objetivo deeste trabajo se centra en evaluar losaspectos técnicos que se consideranmás importantes y que debieran serel foco de atención de los estadísticosde encuestas, pero sobre todo paralos usuarios de la información en lafase de interpretación y utilización delos resultados para la formulación dehipótesis de comportamiento y el diseñode políticas en el ámbito social yeconómico.2. Determinación del tamaño demustra óptimoPara determinar el número de unidadesque formarán parte de la muestralas expresiones propuestas suponenque la unidad ejecutora de la encuestacuenta con antecedentes acerca dela(s) varianza(s) de la(s) variable(s)que se desean estudiar 3 . Así, cuandointeresa estimar una proporción binomialbajo un esquema de selecciónaleatorio simple (MAS) Cochran(1953),suponiendo normalidad en ladistribución del parámetro, propusouna expresión para calcular el tamañode muestra (n=t 2 pq/d 2 ) que se utilizacon mucha frecuencia y tambiéncon alguna ligereza 4 . En el caso deque no se tenga ninguna informaciónacerca de la varianza del parámetrode interés -lo cual sucede frecuentemente-la práctica aconseja asumir unvalor de p=.5 (“worts case”) el cualmaximiza la variabilidad del estimador(pq=.25) y genera un tamaño de muestraque en apariencia garantiza la precisióndeseada 5 .Como dan cuenta diversas investigaciones(Tortota,1978; Angers,1979;Thompson,1987 y Medina,1998) estamanera de proceder no es del todo3Esta forma de proceder llevaría a suponerque la encuesta sólo desea obtener estimacionesde una variable sin considerar que prácticamentetodas las encuestas son de propósitosmúltiples.4En los diseños poliétapicos y multipropósitos,el tamaño de muestra obtenido se multiplicapor un factor que se analizará más delantey que se denomina comúnmente comoefecto de diseño(efd).


apropiada, ya que en la realidad eshabitual que la variable de interés tengauna distribución multinomial. Eneste sentido, además de que el procedimientosugerido por Cochran puedesubestimar en forma importante eltamaño de la muestra, tampoco permitefijar en forma simultánea un coeficientede confianza para todas lascategorías en que se distribuye la variablede estudio lo cual inhibe al investigadorsobre la posibilidad de controlarla precisión deseada de las estimaciones.Es evidente que en la práctica cotidianalas encuestas que se realizan sonde propósitos múltiples. De esta forma,para determinar el tamaño demuestra óptimo se deben considerartodas las variables de interés de talsuerte que el número de observacionesseleccionadas garantice que seminimice la varianza de los estimadoresen forma simultánea o se puedaconocer el nivel de la variabilidad paraun monto de presupuesto asignado.Para resolver este problema en la literaturase han propuesto algunos algoritmosde optimización no lineal quepermiten calcular el tamaño de muestraóptimo (Kokan,1963, Kokan yKhan,1967 y Medina, op.cit. para ejemplificarsu uso).Cuando la selección de las unidadesde observación y análisis se realiza envarias etapas es necesario aplicar técnicasde estratificación y conglomeraciónadecuadas que permitan identificara las unidades de estudio, lo cualincrementa la varianza del estimadorasí como el número de seleccionesque se deben obtener para garantizarla eficiencia del diseño en términos devarianza mínima 6 .En este sentido, decidir sobre el totalde observaciones a seleccionar sedebe apoyar en criterios objetivos quefijen prioridades sobre las variables deinterés, la precisión y confiabilidaddeseada, los dominios analíticos quese formarán, el método para la selecciónde la muestra, los indicadoresderivados que se desean calcular, asícomo los costos que involucra la identificaciónde las unidades de marco.Para encuestas de propósitos múltiplesse sugiere utilizar algoritmos quepermitan encontrar el tamaño óptimode la muestra por estrato que minimicela variabilidad de los estimadoresen forma simultánea (Kokan y Khan,op.cit.).Es muy usual que no se disponga deinformación sobre la varianza de lasvariables de estudio, ya que la mayoríade las Oficinas Nacionales de Estadísticano la calculan ni publican deforma rutinaria. Asimismo, tampoco es5Para los casos en que se desean obtenerestimadores de medias y totales es necesarioconocer la variabilidad asociada a la variablede interés, por lo que proceder como si se tratarade estimar una proporción es incorrecto.Así, si se decide estimar el tamaño de muestrautilizando la expresión para proporciones,se debe estar consciente que el error de muestreose incrementará sin que exista la posibilidadde evaluar su repercusión en la varianzade los estimadores.6Es importante recordar que la muestra nodepende del tamaño de la población a excepciónde su efecto en el factor de correcciónpor finitud(CPF) en el caso de que este seconsidere. Además, hay que recordar que eltamaño de la muestra es inversamente proporcionalal cuadrado del error estándar , porlo que para lograr una reducción de k vecessu nivel se requiere incrementar la muestra enun factor k2.


habitual que se realicen estudios pilotoa gran escala que generen informaciónconfiable que pueda ser utilizadacomo insumo para determinar el tamañode muestra óptimo. De esta manera,se deben buscar alternativas desolución que permitan planear encuestascon información limitada.2.1. El efecto de diseño y el errorestándar del estimadorPara tratar de resolver la situación quese presenta en el cálculo del tamañode muestra en encuestas complejas,en donde no se cuenta con informaciónsobre la varianza de la(s)variable(s) de interés, Kish (1979pp.302-309) propuso una manera desolucionar el problema definiendo unfactor de ajuste que a partir de unamuestra aleatoria simple MAS permiteaproximarse al número de seleccionesnecesarias para que un diseño deconglomerados proporcione la mismavarianza. El factor se conoce como elefecto de diseño (efd k) y se define pormedio de:efd k= Var c(y) / (1-f) S 2 /n (1)en donde Var c(y) representa la varianzade la variable de interés en el diseñode conglomerados y (1-f) S 2 /n ladel esquema de selección aleatoria,de tal forma que:Var c(y)= (1-f) S 2 /n * efd k(2)Según Kish (op.cit.), “este extenso factorapunta a resumir las diversas complejidadesen el diseño de una muestra,sobre todo los de conglomeracióny estratificación”. Asimismo, este autorseñala que una mejor aproximacióna la varianza S 2 del estimador se lograpor medio de:S 2 = s 2 [1+(efd k-1)/n] (3)De (3) se observa que s 2 será unabuena aproximación a S 2 cuandoefd k=1. Es común que en los diseñosestratificados el efd k1,lo cual estaría indicando que el efectode conglomeración tiende a incrementarla varianza y por lo tanto es necesarioaumentar el tamaño de muestraobtenido bajo un esquema aleatoriosimple a fin de lograr la precisión deseada7 .En caso de que los conglomeradossean en promedio de igual tamaño elefecto de diseño se puede expresarpor medio de:efd k=[1+r (M-1)] (4)efd k=[1+r (M-1)] (5)en donde M y M representan el tamañodel conglomerado y el tamaño promediorespectivamente, y r se interpretacomo el coeficiente de correla-7Una interpretación adecuada del factor propuestopor Kish sería la siguiente. Cuando nose conoce la varianza de la variable de interésen un diseño complejo, pero si se dispone deuna aproximación bajo un esquema aleatoriosimple, entonces se calcula el tamaño demuestra bajo este esquema y luego se ajustamultiplicándolo por el efecto de diseño. De estaforma, el nuevo número de observaciones garantizala misma varianza que un esquema deselección MAS.


ción intraconglomerados y se puedecalcular por medio de 8 :r = [å m i åM j ¹ j (X ij - X)(X ij - X)] / [m(M- 1) M s2 ] (6)y m y ‘M representan el número deconglomerados en la población y eltamaño medio del conglomerado respectivamente,mientras ques 2 = (M M -1)S 2 / M M.La varianza del estimador se puedeescribir en términos del efd kcomo semuestra a continuación:V c(x) = (1-f) S 2 [1 + (M -1) r] nM (7)lo cual permite comparar la varianzade un diseño aleatorio simple sin reemplazo(MASSR) con la que se obtienede un esquema de selección porconglomerados (DC), lo que se puedeinterpretar como una medida de laeficiencia relativa del diseño.Es evidente que se desea que los conglomeradosmantengan baja correlaciónentre sus elementos lo cual selogra cuando r = - 1/(M- 1), por lo queen este caso tanto la varianza del estimadorcomo el efd kson iguales acero. Por otra parte, el caso más desfavorablese presenta cuando r ® +1lo cual induce a un incremento sitemáticoen la varianza y en esta situacióntodos los elementos son igualespor lo que el efecto de diseño asumiríaun valor igual al tamaño promediodel conglomerado, de modo que lavarianza será tan grande como la delas unidades elementales (efd k= M).En el caso de que r = 0 significaríaque la variable está completamentedistribuida al azar, por lo que el efectode diseño es igual a uno (efd k=1) ytanto el esquema de selección MAScomo el de conglomerados DC generaríanla misma varianza 9 .El término (M - 1)r debe interpretarsecomo el aumento que se genera en lavarianza del estimador por haber seleccionadon conglomerados de tamañoM en lugar de nM unidades elementales10 . Con esta información seestá en condiciones de analizar cuáles el efecto de un diseño de muestracomplejo en el error estándar delestimador ^q.Una manera de responder esta preguntase logra al comparar las varianzasobtenidas por los dos diseños: elverdadero, que para una encuestahabitual corresponde a un esquemade selección estratificado y de conglomerados(DC), y uno hipotético generadopor una selección MASSR (Skinner,1989).8La expresión (5) es la que se utiliza con mayorfrecuencia ya que en la práctica es usualque los conglomerado sean en promedio delmismo tamaño y el coeficiente de correlaciónde derive de la siguiente expresión r = [(efd k- 1)] / (M -1).9A pesar de que los conglomerados estén bienmezclados en las situaciones prácticas el coeficientede correlación intraconglomerados (r)tiende a ser mayor que cero, por lo que el valordel efd kpuede ser considerable en la medidade que el tamaño del conglomerado seamuy grande.10Es normal que al interior de los conglomeradoslas unidades tengan un cierto parecido(r>0), por lo que se espera que el diseño deconglomerados genere menor precisión. Sinembargo, es posible encontrar situaciones enque la correlación entre los elementos seanegativa (r


Como fue señalado, Kish (op. cit.) propusocomparar la eficiencia relativa deldiseño complejo DC respecto a la varianzadel MASSR definiendo el factorconocido como efecto de diseño:efd k(^q)= Var DC(^q) / Var MAS( ^q) (8)Skinner (op. cit.), señala que esta medidaes apropiada cuando se deseancomparar dos diseños alternativos; sinembargo, toda vez que se realizó laencuesta y si se aplicó un esquemadiferente al MASSR resulta irrelevantehacer la comparación propuesta porKish (efd k), ya que los datos fuerongenerados por un mecanismo de seleccióncompleja y poco o nada tienenque ver con un proceso de selecciónaleatorio y sin reemplazo.La intención de Kish al proponer el efd kfue medir el efecto de la varianza sobreel valor del estimador del parámetro^q; sin embargo, para los fines deuna encuesta compleja es más importanteconocer cuál es el efecto del diseñode muestra sobre el estimadorde la varianza. Siguiendo a Skinner(op.cit.), seav 0= ^var MAS(^q) un estimador de lavarianza del estimador del parámetrobajo un esquema de selección MAS(asumiendo que las observacionesson independientes e idénticamentedistribuidas iid) 11 . De esta manera, elefecto de un diseño complejo sobre elestimador de la varianza se puedeevaluar al comparar la distribución dev 0con la varianza del diseño v DClo cualse interpreta como el sesgo de estimación.sesgo(v 0) = E DC(v 0) - Var DC(^q) (9)A fin de lograr congruencia con la propuestade Kish, (9) se puede expresaren términos relativos lo cual dalugar a la definición del factor efmeque se refiere al efecto en la varianzadel estimador debido a una mala especificaciónen el diseño de la muestra(“misspecification effect, meff”) propuestoen Skinner (op. cit.):efme(^q , v 0)= Var DC(^q) / E DC(v 0) (10)En este caso, Var DC(^q) representa lavarianza observada en el diseño,mientras que E DC(v 0) es el valor esperadode la varianza de un diseño MAS-SR y el efme(^q,v 0) se interpreta comoun factor que evalúa qué tanto v 0tiendea subestimar o sobreestimar la varianzaverdadera var(^q) tal que;< 1 si el sesgo(v 0) > 0efme(^q , v 0) = 1 si el sesgo(v 0) = 0> 1 si el sesgo(v 0) < 0(11)En los diseños estratificados y de conglomeradoscon tamaños de muestraapropiados se tiene que la E DC(v 0) »Var MAS(^q) por lo que se puede estableceruna relación entre los factoresde ajuste mencionados 12 ;efd k(^q) = efme(^q, v 0)= var DC(^q) / E DC(v 0) (12)11Por ejemplo, para el caso de una proporciónv 0= p (1-p).12En Skinner (op.cit.) se presentan expresionespara el cálculo del efd para diseños polietápicosy multivariados que llevan a la definiciónde una matriz V 0de efectos de diseño deun vector de parámetros q.


2.2. El tamaño de muestra efectivoDeterminar el error de muestreo de unestimador es importante por las siguientesrazones: i) Es necesario conocerla precisión y confiabilidad estadísticade los datos generados; ii) Sedebe evaluar la eficiencia estadísticadel diseño de muestra aplicado; y iii)Para generar información útil que puedaser aprovechada para planear futurasinvestigaciones por muestreo.A pesar de que la mayor parte de losestadísticos de encuestas ponen granénfasis en minimizar los errores demuestreo, no hay que olvidar que tambiénexisten errores de no muestreoque afectan la calidad de los datos loscuales deben ser reducidos a partir dela supervisión y control de las actividadesde diseño conceptual y del trabajode campo.A partir del efecto de diseño es posiblederivar otras expresiones que sonde gran utilidad práctica: el denominadofactor de diseño fdd y el tamañoefectivo de muestra n e. El factor de diseñose define como;fdd = efd k 1/2 (13)y es muy importante para la interpretaciónde la precisión de los estimadoresy se utiliza fundamentalmentecomo un factor de ajuste para corregirel error estándar del estimador y lalongitud de los intervalos de confianza(Verma et. al., 1980).Por su parte, Kish (1965) definió eltamaño efectivo de muestra como;n e= n 0/efd k(14)el cual puede ser interpretado comola cantidad de información contenidaen una muestra. Por ejemplo, para unefd k=1.30 en una muestra de conglomeradosde tamaño n DC=10,000 hogares,el tamaño efectivo indica quesólo se requeriría de n e=7,692 hogarespara estimar el parámetro q con lamisma precisión deseada a partir deun esquema aleatorio simple 13 .Es bien sabido que los errores de estimacióny las pruebas de significanciajuegan un papel fundamental enel análisis de los resultados de unaencuesta ya que permiten, entre otrascosas, contrastar las hipótesis delcomportamiento de una poblaciónante un determinado fenómeno de interés.Los errores de muestreo son muy diferentescuando se trata de estimarestadísticas descriptivas a nivel poblacionalque cuando éstas se calculanpara dominios de estudio específicos.Asimismo, la pruebas de significanciapermiten establecer relaciones de causalidady formular recomendacionesde política, por lo que su validaciónestadística es fundamental para determinarla confiabilidad y precisión delas aseveraciones que se realizan sobreuna variable de interés.A pesar de que esto es muy importante,es muy frecuente que investigadoresy analistas pasen por alto estehecho y utilicen la información sin pre-13El concepto de tamaño efectivo de muestrano debe ser confundido con el mismo términoque se utiliza para señalar al número de unidadesdiferentes que se eligen en una muestracon reemplazo.


guntarse si los supuestos en que sebasan los modelos que aplican secumplen con la muestra observada.Los paquetes de cómputo más utilizadosy convencionales (SAS, SPSS,entre otros) no consideran esta situación,y las rutinas de cálculo que tienendisponibles para efectuar inferenciaestadística y estimar modelos decausalidad, asumen que las observacionesprovienen de una muestra aleatoriasimple extraída sin reemplazo,situación que no se cumple en el casode los diseños de muestra complejos.En este sentido, el efecto de diseñoedf kdebe tenerse presente al momentode interpretar los resultados de lasencuestas, y de manera especialcuando se calculan los errores demuestreo de los estimadores. A continuaciónse presentan dos fases tradicionalesde la inferencia estadística endonde el diseño de una muestra complejatiene incidencia en la precisiónde los resultados de la encuesta.Suponga que se han procesado losresultados de la investigación y sedesea calcular un intervalo de confianzapara un conjunto de estimadoresde interés. Se utiliza un paquete decómputo convencional el cual asumeque la muestra se extrajo en formaaleatoria y sin reemplazo, por lo quese considera una muestra de n observacionesindependientes e idénticamentedistribuidas (iid).La expresión tradicional para calcularintervalos de confianza para un parámetro^q parte de suponer que;t 0= (^q - q)/v 01/2~ N(0,1) (15)de tal suerte que un intervalo al 95%de confianza se obtiene por medio de;C 0= {q ê t 0ê < 1.96} = (^q - 1.96 v 01/2, ^q + 1.96 v 01/2)(16)La pregunta que se debe responderes: cuál es el efecto del diseño demuestra sobre los supuestos enque se basa la construcción del intervalode confianza propuesto en(16). Bajo un diseño de conglomeradosse puede asumir que ^q es insesgadoy tiene una distribución normal;es decir^q DC~ N [q, var DC(^q)] (17)Para muestras grandes el valor de v 0se aproxima a E DC(v 0) de tal forma quela distribución de t 0~ (^q - q)/ E DC(v 0) 1/2,por lo que de la ecuación (16) se tieneque:t 0DC~ N [0, var DC(^q)/ E DC(v 0)] = N [0, efd k(^q,v 0)](18)En esta situación el efecto de diseñose puede interpretar como un factor quemide los cambios en la varianza delestimador basados en el valor del estadísticot 0. De esta manera, cuando= 1 C 0es correctoedf k> 1 C 0es muy pequeño< 1 C 0es muy amplio(19)En términos prácticos cuando se disponede un estimador del efd kun intervalode confianza al 95% se puedecalcular por medio de 14 :C 0*= (^q - 1.96 (v 0efd k) 1/2 , ^q +1.96(v 0efd k) 1/2 )(20)


Por otra parte, en caso de que se deseecomprobar la significancia de algúnparámetro de interés(^q), la teoríaestadística convencional estableceque bajo el supuesto de normalidadla hipótesis simple H 0:q=0 se rechazasi T 0=(^q - q)/v 01/2se ubica en laregión crítica (de rechazo) de una distribuciónnormal estandarizada. Parauna prueba de dos colas a un 95% deconfianza se tiene que:H 0se rechaza si ê T 0ê > 1.96 bajo H 0(21)Sin embargo, bajo un diseño de muestracomplejo;T’ 0= T 0/ efd k1/2= (^q - q) /( v 0efd k) 1/22.3. Un ejemplo real 15(22)A continuación se evalúan los resultadosde una encuesta a fin de tratar decumplir los siguientes objetivos: i) Evidenciarla manera en que se altera elerror de estimación cuando se considerael diseño de la muestra; ii) Mostrarcomo se incrementan los erroresde muestreo cuando se ajustan por elefecto de diseño(efd k); iii) Indicar comocrecen los errores en los estimadoresa consecuencia de que en el diseñode muestra no se tuvieron las precaucionespara determinar el número deobservaciones necesarias. iv) Evidenciarlos riesgos de mala interpretaciónque se enfrentan por el hecho de quelos usuarios no validan la confiabilidadestadística de la información en losdominios de estudio que se forman.En términos generales se puede señalarque la información utilizada correspondea una encuesta realizadapor algún país de la región y se planeócon el objetivo central de estimarla tasa de desocupación abierta(TDA),pero que tiene como objetivo secundario-y tal vez esto es lo más importante-caracterizar el ámbito laboral dediferentes regiones del país utilizandoun modelo teórico que supone laexistencia de un mercado laboral segmentado.Para el cálculo del tamañode muestra se utilizó la expresión propuestapor Cochran (op. cit.) suponiendouna distribución binomial del parámetrode interés y se fijó la precisión yun error máximo esperado.Se deseaban generar estimacionespara el área urbana de la capital delpaís, así como para cada una de laszonas urbanas de las cabeceras municipalesde los departamentos másimportantes; y por agregación se podríanobtener estimaciones para elconjunto urbano. Además de la clasificacióntradicional que permite identificara los desocupados abiertos, elmarco conceptual utilizado establecey define diversas modalidades de desocupacióny subutilización de la fuerzade trabajo, por lo que se consideró14En Kish (1979) se ejemplifica que calcularun intervalo de confianza conforme a la expresión(16) equivale a utilizar la siguiente expresión:y ± ( t’ / Ö efd k) ( s Ö efd k/ n). Para una t=2y un Ö efd k=1.5, entonces t’= 2/ 1.5=1.34, y enconsecuencia se tendría un incremento en larazón del error del 5% al 9%.15Los resultados presentados correspondena una encuesta real efectuada en algún paísde Hispanoamérica, y el único objetivo de presentarresultados es con el ánimo de ejemplificarlos errores que se pueden cometer por elmal uso de la información y la utilización delos datos para efectos distintos a los que motivaronla realización de la investigación.


de interés disponer de una caracterizaciónde la población económicamenteactiva ubicada en las diversascategorías de estudio 16 , así como delas variables socieodemográficas yeconómicas que condicionan la utilizaciónde la mano de obra 17 .Para la elaboración del diseño de lamuestra se definieron como unidadesprimarias de muestreo (UPM’s) lascabeceras municipales de los departamentosdel país, mientras que lasunidades de segunda etapa (USM’s)se formaron a partir de segmentos deviviendas. En ambos casos, la selecciónde las observaciones que formaronparte de la muestra se hizo asignandoigual probabilidad a todas lasunidades ya que aparentemente nohabía diferencias considerables en sutamaño.Se trata de una encuesta que se realizaen forma continua y que permite generarinformación para estudiar la evolucióndel mercado de trabajo en la zonaurbana del país, y de manera particularsobre los niveles de desocupación ysubutilización de la fuerza de trabajo.En la tabla 1 se presentan resultadosde los totales expandidos para distintasvariables interés, los cuales fueronestimados utilizando el paquetePC CARP el cual considera en susrutinas de cálculo la estructura del diseñode la muestra (efecto de estratificacióny conglomeración) y las diferentesprobabilidades de selección delas observaciones 18 .En todos los casos los coeficientes devariación(CV) estimados son menoresal 10%. Sin embargo, se aprecia queen la medida que las categorías enque se distribuye la población ocupadapresentan frecuencias más bajas,el error del estimador se incrementapasando el CV de 1.24% para el totalde población, al 8.31% que correspondeal caso de los aspirantes a obtenerun empleo.Asimismo, se debe observar que losmayores valores en el efecto de diseñose presentaron en las subclases endonde la homogeneidad de las observacioneses mayor. Por ejemplo, correspondióun efd k= 9.8 en la categoríade aspirantes a conseguir un em-pleo lo que indicaría un valor alto enel coeficiente de correlación intraconglomeradosy conlleva a que se incrementela varianza del diseño de muestrarespecto a una selección aleatoria.En este caso, el valor del coeficientede correlación intraconglomeradosestimado fue r = 0.1086 lo cual evidenciala relación que existe entre lasobservaciones 19 .16La clasificación utilizada corresponde a laque recomienda la Organización Internacionaldel Trabajo(OIT) para el estudio de la desocupacióny el comportamiento del mercado laboral.17Además, y ante falta de información actualizada,es frecuente que estas encuestas seutilicen para realizar estimaciones de pobrezalo cual le impone restricciones adicionales alos objetivos de la investigación, tamaños demuestra y precisión de los estimadores.18Es importante señalar que el PC CARP utilizapara los cálculos de la varianza el métododel conglomerado último propuesto por Hansenet. al.(1963), por lo que es necesario identificarla unidades primarias de muestreo ydefinir un ponderador para cada una de lasobservaciones. Por las características del diseñomuestral, el factor de expansión se calculóa partir del cociente entre una estimación depoblación proyectada para un año determinado,entre el total de observaciones en muestra.


Tabla 1Coeficiente de Variación y Efecto de Diseño para Estimadores de TotalesArea Urbana del PaísVARIABLE ESTIMADOR ERROR COEF. DE EFECTO DE COEF. DEDEL TOTAL ESTÁNDAR VARIACIÓN DISEÑO VARIAC.*AJUSTADOPoblación Total 1’352,960 16,733.20 1.2368 **** ****Activos 639,703 9,271.82 1.4494 3.3852 2.6667Ocupados 572,802 8,486.60 1.4816 2.8957 2.5212Plenos 375,236 6,274.02 1.6720 1.9277 2.3214Subocupados 198,706Invisibles 108,531 3,858.63 3.5553 1.9807 5.0036Visibles 90,175 3,831.52 4.2490 2.3163 6.4667Desocupados 66,901 3,059.73 4.5735 1.9550 6.3947Cesantes 51,896 2,621.14 5.0508 1.8282 6.8292Aspirantes 15,005 1,246.60 8.3079 1.3908 9.7978Inactivos 713,256 11,085.70 1.5542 4.8393 3.4190Con Exper. 36,765 2,155.11 5.8619 1.7245 7.6979Sin Exper. 676,491 10,737.50 1.5872 4.5266 3.3769* Corresponde al valor que se obtiene al multiplicar el error estándar del estimador por la raízcuadrada del efecto de diseño.En las categoría de activos, ocupados(con valores en el efd kmayores de 2) yen la de los ocupados plenos, se percibe una mayor heterogeneidad intraconglomerados,y en este caso los valores de r fueron 0.0225, 0.0188 y 0.0163respectivamente, lo cual contribuyó a disminuir la varianza del estimador y sereflejó en los valores bajos observadosen el coeficiente de variación (CV).También se debe señalar que el verdaderoerror del estimador se determinaal considerar en el cálculo de lavarianza el factor de ajuste que seobtiene por medio de la raíz cuadradadel efecto de diseño (Öefd). Así, esevidente que debido a que para todaslas variables el efd k>1 se observa queel coeficiente de variación ajustado porel diseño de muestra (CV*= CV * Öefd)se incrementa, y para el caso de laspersonas que se clasificaron en la categoríade aspirantes su valor creceen el entorno del 10% y para los inactivoscon experiencia se ubicó en 7.7%Asimismo, a fin de ilustrar como cambianlos límites del intervalo de confianzaal considerar el efecto del diseñosobre la varianza del estimador, acontinuación se presentan los resul-19Es importante recordar que para efectos delcálculo de la varianza, se sugiere que se mantengancorrelaciones intraconglomerados muybajas, con objeto de que el valor del efd kseacercano a la unidad. Es decir, se busca que eldiseño de conglomerados no incremente demanera artificial la varianza del estimador.


tados obtenidos para algunas de lasvariables analizadas.Total de Activos:693,703 ± 18,173 sin ajuste y693,703 ± 33,436 ajustados por efd k ;Total de Inactivos:713,256 ± 21,728 sin ajuste y713,256 ± 47,798 ajustados por efd k.En el caso de los activos existe unadiferencia absoluta de15,263 personasen los límites calculados por ambosprocedimientos, lo cual podría representaruna diferencia poco importante.Por otra parte, en el caso de losinactivos los resultados ajustados evidencianuna diferencia de más de dosveces el valor de los límites obtenidosin ajustar el error estándar del estimador,lo cual permite apreciar la relevanciade estimar en forma apropiadael error de muestreo.Para el caso de los desocupados setiene que la encuesta estima que66,901 personas se consideraron ensituación de desocupación abierta conuna diferencia de ± 5,997 personassegún el error estándar del estimador.Sin embargo, cuando en los cálculosse incorpora el efecto de diseño loslímites cambian y se observa una diferenciade ± 8,385 personas. Si sedecide diseñar acciones de política apartir de la puesta en marcha de unprograma emergente de empleo queinvolucre a toda la población desocupada(en este caso se debiera considerarcomo techo presupuestario el límitesuperior del intervalo de confianza),es evidente que los recursos quese requieren invertir son diferentes enlos casos señalados. De hecho, la diferenciaabsoluta de 2,388 personasdesempleadas establece una diferenciasignificativa en el presupuesto quese debiera asignar para la operacióndel programa.Siguiendo a Kish (1979) se enfatizaque el trabajar de la manera tradicional(expresión (16)) supone que tantoel valor de tablas (t) obtenido de la distribuciónnormal estandarizada comoel error estándar del estimador, seafectan por la raíz cuadrada del efectode diseño (y ± t’ [s Ö efd k/ n] endonde t’ = t / Ö efd k). En el caso quenos ocupa para obtener un intervaloal 95% de confianza (a=5%) se sabeque t=1.96; por lo que para el total deactivos se tiene que Öefd k=1.8399 yt’=1.0653 lo cual significa que el errorde estimación se incrementa del 5%al 14.5%; es decir, aumenta más denueve puntos porcentuales sin que elanalista se percate de esta situacióny en sus conclusiones continúe afirmandoque el intervalo de confianzaque contiene el verdadero valor delparámetro corresponde a un a=5%.En este análisis los valores del errorde muestreo con y sin efd kpueden parecermenores para aquellos que trabajanlos métodos convencionales decálculo; sin embargo, el hecho de quelas diferencias no sean tan grandes sedebe, en parte, a que se trabaja a unnivel de agregación en donde el tamañode muestra es suficiente para garantizaruna precisión adecuada 20 . Sin20En la encuesta que se utilizó para ejemplificarlos conceptos aquí presentados, existendepartamentos en donde los errores de estimaciónpara algunas variables de interés sonmayores y por lo tanto las diferencias en loslímites de los intervalos de confianza son másnotables.


embargo, un análisis detallado de losdatos permite observar que en la categoríade personas que se clasificaroncomo aspirantes a ocupar un puestoen el mercado de trabajo, sólo se ubicaron212 observaciones lo cual denotaque cualquier intento por desagregareste tamaño de muestra podríaconducir a resultados erróneos de interpretación.Es decir, no es posible siquieraintentar conocer a nivel desagregadola rama de actividad a la cualdesearía insertarse esta subpoblación.Asimismo, 60 de las 212 observacionesregistradas (28.3%) se concentraronen la capital del país, mientras queen 10 municipios se reportaron menosde 10 casos y en uno de ellos no seobtuvo ninguna observación, lo cualrompe con la lógica de selección de lamuestra ya que los municipios se definieroncomo UPM’s y se espera quetodos contribuyan en la formación delestimador del área urbana del país.Un comportamiento similar se observóen la distribución muestral de la categoríade subempleados visibles. Eneste caso se dispone de 1,241 personasque se ubicaron en esta situación,de las cuales el 31.7% se concentróen la capital del país. Asimismo, existen6 municipios en donde el tamañode muestra reportado fue menor a treintaobservaciones y en uno de ellos sólose registraron dos casos.Situaciones como la descrita se presentanen algunas otras de las categoríasde análisis, lo cual debe obligara los usuarios a reflexionar sobrela confiabilidad estadística que puedetenerla información desagregadacuando ésta se pretende utilizar paraformular hipótesis de comportamientoo establecer acciones de políticapara grupos de población específicos.La encuesta cumple sus propósitospara estimar con precisión la tasa dedesocupación abierta (TDA) a niveldepartamental y para la zona urbanadel país, pero presenta limitacionespara caracterizar el mercado de trabajoa nivel municipal, y evidentementetiene escasa capacidad de uso paraestablecer modelos de comportamientoy formular relaciones de causalidadentre las variables que explican la conformacióndel mercado laboral.Sin embargo, a pesar de la evidenciaeste tipo de situaciones frecuentementese pasan por alto y muchos analistasactúan como si la información recabadafuera lo suficientemente confiablepara inferir sobre el comportamientode la población en su conjuntoy abusan de la bondad de los datos almomento de elaborar sus análisis ydiseñar alternativas de políticas.Es obvio que el no considerar la estructuradel diseño de la muestra incrementael error cuadrático medio delos estimadores, sin que los analistastengan capacidad de controlar el efectoque esto puede tener en las conclusionesderivadas de sus análisis.En la tabla 2 se presentan para el áreaurbana del país los resultados de algunastasas que son de gran utilidadpara analizar el comportamiento delmercado de trabajo. Se observa quecuando el error de muestreo se ajustópor el efecto de diseño, la mayor variabilidadobservada es menor al 6%la cual corresponde al estimador de latasa de desocupación abierta (TDA).Esta situación confirma la confiabilidad


Tabla 2Coeficiente de Variación y Efecto de Diseño para Estimadoresde Tasas Area Urbana del PaísVariable Estimador Error Coef. de Efecto de Coef. deTasa en % Estándar Variación % Diseño VariaciónAjustadoPEA/PO10 47.2818 .004286 0.9066 1.3244 1.0433PEI/PO10 52.7182 .004286 0.8131 1.3244 0.9357PEA/PEI 89.6877 .015423 1.7197 1.3244 1.9791OCUP/PEA 89.5419 .004384 0.4896 1.7435 0.6464PLE/OCUP 65.5088 .007646 1.1672 1.9683 1.6375DESO/PEA 10.4581 .004384 4.1919 1.7435 5.5350INAS/PEI 94.8455 .002921 0.3080 1.6528 0.5090Los intervalos de confianza para losestimadores de algunas tasas de interésse presentan a continuación:Tasa Neta de Participación: 47.28 ± 0.84 sin ajuste y ± 0.97con ajuste;Tasa de Ocupación: 65.51 ± 0.86 sin ajuste y ± 1.13con ajuste;Tasa de Desocupación Abierta:10.46 ± 0.86 sin ajuste y ± 1.13con ajuste.PEAPO10PEIOCUPPLEDESOINASPoblación Económicamente ActivaPoblación en edad de trabajar de 10 y más añosPoblación Económicamente InactivaOcupadosOcupados PlenosDesocupadosInactivos sin experienciaCuando no se considera el factor deajuste la tasa de desocupación abiertapuede tener un valor máximo de11.3%, mientras que cuando se afectapor el efecto de diseño el valor deeste indicador se incrementa y puedeinvolucrar hasta 11.6% de la fuerza detrabajo, lo cual para todo efecto prácticono resulta significativo.de la información a este nivel de agregación y corrobora que el total de observacioneslogradas es suficiente para satisfacer la precisión deseada.A fin de conocer el error en que seincurre por no considerar en el procesode estimación las características deldiseño de la muestra, en la tabla 3 se


presentan resultados obtenidos pordiversas alternativas de cálculo.En primera instancia se observa queno existen diferencias significativas enlos valores de las tasas estimadas conlos datos ponderados y sin ponderar,debido a que a partir de una proyecciónde población (y utilizando un estimadorde razón) se definieron factoresde expansión constantes por departamento;es decir, se tuvieronmuestras autoponderadas a ese nivelgeográfico 21 .Tabla 3Error Estándar para Estimadores de Tasas Area Urbana del PaísVariable Estimador Error Est. Error Est. 2 Estimador Error Est. EstimadorError Est.PCCARP 1 PCCARP PCCARP SASP 3 SASP SASSP 4 SASSP 5Tasa Netade Partic. 47.28 .004286 .004932 47.41 .003725 47.28 .003725Tasa deOcupac. 89.54 .004384 .005789 89.54 .003317 89.54 .003316Tasa deDesocup 10.46 .004900 .006470 10.46 .003317 10.46 .003316Abierta21A pesar de que esta es una práctica común,es claro que esta forma de actuar limita la capacidadde uso de las encuestas. Esto significaque en aquellas organizaciones que asignanrecursos permanentes para la actualizacióndel marco tienen la oportunidad, en cadalevantamiento, de poner al día la cartografía ylos pesos relativos de las unidades de selecciónlo cual permite generar estimaciones depoblación alternativas en períodos intercensales.Sin embargo, las que por razones de faltade presupuesto no realizan esta actividad sedeben conformar con trabajar con estimadoresde razón lo cual puede llegar a ocasionarseveras inconsistencias entre las estimacionesderivadas de las muestras y los censos.1Corresponde a los resultados considerando la estructura del diseño de muestray los ponderadores de las observaciones.2Ajustado por el efecto de diseño que calcula la rutina incluida en el PC CARP.3Corresponde a los resultados ponderados calculados con el SAS.4Corresponde a los resultados sin ponderar calculados con el SAS.5El error estándar calculado por el SAS (pq/Ön) se considera una aproximacióna la varianza verdadera basada en el teorema del límite central para muestrasgrandes (Kakwani,1990). Sin embargo, a pesar de este hecho se nota queal no considerar la estructura del diseño se subestima el error de muestreo delestimador.


Por otra parte, se observa que existela tendencia general a subestimar elverdadero error de muestreo cuandoen la rutina de estimación no se consideranlas restricciones impuestas porel diseño de la muestra ni las diferentesprobabilidades de selección de lasobservaciones.Los problemas de tamaño de muestraque se señalaron en párrafos anterioresse agravan y complican las capacidadesde explotación de la información,en la medida que se desagreganlos datos y el análisis se efectúapara dominios de estudio más específicos,en donde los tamaño de muestraresultan insuficientes para garantizaruna adecuada precisión de losestimadores, así como de los estadísticosutilizados para la contrastaciónde hipótesis.En la tabla 4 se presentan estimacionesde algunas variables de interéspara el área urbana de la capital delpaís. A pesar que se registra informaciónpara el total de subocupados visibles,aspirantes a conseguir un empleoy de cesantes, en unidades deTabla 4Coeficiente de Variación y Efecto de Diseño para Estimadoresde Totales Area Urbana de la Capital del paísVariable Estimador Error Coef. De Efecto de Coef. Dede Totales Estándar Variación% Diseño VariaciónAjustadoPLENOS 230,620 5,155.2 2.2353 1.4363 2.6789INVISIBLE 52,326 2,998.94 5.7313 1.6162 7.2862VISIBLE 44,916 2,865.62 6.3799 1.7018 8.3227CESANTE 31,806 2,309.88 7.2624 1.5340 8.9948ASPIRAN. 6,840 950.33 13.894 1.1683 15.0177INAC/EXP. 18,924 17,833.5 9.4237 1.5107 11.5827INAS/EXP 393,528 83,795.0 2.1239 3.1674 3.7799ACTIVOS 365,370 6,453.89 1.7664 1.8856 2.4256INACTIVO 412,452 8,473.15 2.0543 3.2501 3.7035OCUPADO 326,724 5,975.91 1.8290 1.6530 2.3515DESOCUP. 38,646 2,635.75 6.8202 1.6591 8.7848PLENOS »Activos Plenos INAC »Inactivo con ExperienciaINVISIBLE »Subempelados Invisibles INACSIN »Inactivos sin ExperienciaVISIBLE »Subempelados Visibles INACTIVO »InactivosCESANTE »Desocupados Abiertos OCUPADO »OcupadosASPIRANTE»Aspirante a ocupado DESOCUP »Desocupadosmillar, cualquier intento por desagregar esta información y formular hipótesis decomportamiento debiera obligar al usuario a observar que los valores muestralespara esas categorías fueron 394, 279 y 60 casos respectivamente.


Esto significa que las particiones quese quieran forman con los datos debenconsiderar este hecho, a fin deprever que los tamaños de muestraobservados garanticen que los estadísticosde prueba converjan a las distribucionesteóricas que se utilizanpara calcular intervalos de confianzay contrastar hipótesis.Los resultados obtenidos al compararalgunos procedimientos de cálculopara la parte urbana de la capital delpaís se presentan en la tabla 5. Al igualque en el análisis realizado para elárea urbana en su conjunto, se confirmala tendencia de los paquetes deuso convencional a subestimar el verdaderoerror de muestreo.A fin de ejemplificar la situación deaquellos dominios de estudio en losque se enfrentan mayores limitacionesen relación al tamaño de muestra, latabla 6 presenta información sobre losresultados obtenidos para una de lasprovincias del país.En este caso los valores muestralespara las variables subempleados visi-Tabla 5Error Estándar para Estimadores de Tasas Area Urbanade la Capital del PaísVariable Estimador Error Est. Error Est. 2 Estimador Error Est. EstimadorError Est.PCCARP 1 PCCARP PCCARP SASP 3 SASP SASSP 4 SASSP 5Tasa Netade Partic. 46.97 .006313 .008116 46.97 .006043 46.97 .006043Tasa deOcupac. 89.42 .006732 .010264 89.42 .005433 89.42 ..005433Tasa deDesocup 10.58 .006732 .010264 10.57 .005433 10.58 .005433Abierta1Corresponde a los resultados considerando la estructura del diseño de muestray los ponderadores.2Ajustado por el efecto de diseño que calcula la rutina incluida en el PC CARP.3Corresponde a los resultados ponderados calculados con el SAS.4Corresponde a los resultados sin ponderar calculados con el SAS.5El error estándar calculado por el SAS (pq/Ön) se considera una aproximacióna la varianza verdadera basada en el teorema del límite central para muestrasgrandes (Kakwani,1990). Sin embargo, a pesar de este hecho se nota que alno considerar la estructura del diseño se subestima el error de muestreo delestimador.


les, cesantes y aspirantes fueron 94,24 y 16 respectivamente. Asimismo,las frecuencias absolutas observadaspara los inactivos, con y sin experiencia,se ubicaron en 13 y 496. Nuevamentese pone de manifiesto las restriccionesque se enfrentan al tratar deinferir el comportamiento de subpoblacionescon características muy específicasy tamaños de muestra insuficientes.La tabla 7 confirma que se subestimael error de muestreo a partir de rutinasde cálculo que suponen que lamuestra corresponde a un diseñomonoetápico en donde las unidadesse seleccionaron con muestreo aleatoriosimple sin reemplazo (MASSR).Tabla 6Coeficiente de Variación y Efecto de Diseño para Estimadores de TotalesArea Urbana de una Provincia del paísVariable Estimador Error Coef. De Efecto de Coef. Dede Totales Estándar Variación% Diseño VariaciónAjustadoPLENOS 15,345 1,018.67 6.6385 1.6883 8.6257INVISIBLE 5,610 647.73 11.5460 1.5087 14.1818VISIBLE 5,170 931.79 18.0230 3.3587 33.0303CESANTE 1,320 370.53 28.0710 1.9347 39.0449ASPIRAN. 880 308.74 35.0840 1.9987 49.6001INAC/EXP. 715 233.21 32.6170 1.3995 38.5860INAS/EXP 27,280 1,374.08 5.0369 2.4381 8.0362ACTIVOS 28,325 1,457.81 5.1467 2.7418 8.5221INACTIVO 27,995 1,420.14 5.0729 2.6019 8.1828OCUPADO 26,125 1,317.68 5.0438 2.2517 7.5686DESOCUP. 2,200 451.36 20.5160 1.7504 27.14323. El modelo de regresión y eldiseño de la muestraLa utilización de información provenientede encuestas por muestreopara formular y validar relaciones decausalidad y recomendar opciones depolítica es una actividad que se realizade manera habitual en diversas or-ganizaciones públicas y privadas, así como en organismos internacionales, universidadesy centros de investigación, utilizando como insumos los resultadosgenerados por las encuestas realizadas en hogares (empleo, ingresos y gastosy niveles de vida, entre otras). En este sentido, es muy importante conocercuáles son las limitaciones impuestas a los datos por el diseño de muestra, a finde evaluar si las hipótesis sobre las que se basan los métodos de ajuste yanálisis se cumplen y determinar si las conclusiones tienen validez estadística.


Tabla 7Error Estándar para Estimadores de Tasas Area Urbana para unaProvincia del PaísVariable Estimador Error Est. Error Est. 2 Estimador Error Est. EstimadorError Est.PCCARP 1 PCCARP PCCARP SASP 3 SASP SASSP 4 SASSP 5Tasa Netade Partic. 5.29 .015574 .041363 50.29 .015632 59.29 .015632Tasa deOcupac. 92.84 .014578 .015399 92.23 .0118056 92.23 .0118056Tasa deDesocup 7.77 .014578 ..015399 7.77 .0118056 7.77 .0118056Abierta1Corresponde a los resultados considerando la estructura del diseño de muestray los ponderadores.2Ajustado por el efecto de diseño que calcula la rutina incluida en el PC CARP.3Corresponde a los resultados ponderados calculados con el SAS.4Corresponde a los resultados sin ponderar calculados con el SAS.5El error estándar calculado por el SAS (pq/Ön) se considera una aproximacióna la varianza verdadera basada en el teorema del límite centralpara muestras grandes (Kakwani,1990). Sin embargo, a pesar de este hechose nota que al no considerar la estructura del diseño se subestima elerror de muestreo del estimador.Tal vez una de las técnicas estadísticasa las que se recurre con mayor frecuenciapara explicar la relación queexiste entre un conjunto de variablessea el análisis de regresión. En estasección se realiza una evaluación delos supuestos en que se basa la aplicaciónde esta técnica así como de lasrepercusiones en su uso, por el hechode que la mayor parte de las muestrasque se analizan en el ámbito socieconómicoprovienen de encuestas efectuadasa partir de diseños de muestramultietápicos y estratificados.Es bien sabido que a partir del modelode regresión es posible corroborarsi existe dependencia lineal entre unvector de variables explicativas oindependientes( ~x) y una variable ydenominada dependiente la cual seasume con distribución normal.La expresión que relaciona la variabley con el vector ~x se expresa por mediode una combinación lineal de parámetrosdesconocidos y las variablesindependientes;y i= x 0b 0+ x 1ib 1+ x 2ib 2+ ... + x pib i+ e i; i = 1, ... , n(23)


en donde las b i‘s son los parámetrosque se desean estimar y se establececomo hipótesis que el término de errore itiene una distribución normal conmedia cero y varianza constante (e i~N [0, s 2 ]). Asimismo, se asume que loserrores no están correlacionados y quelas observaciones son independientese idénticamente distribuidas (iid) y queprovienen de una muestra aleatoriacon una cierta distribución de probabilidad.En términos matriciales (23) se puedeexpresar como;E (Y/X=x) = a + X t b + e(24)La estimación de la ecuación (24) pormedio del método de mínimos cuadradosordinarios (MCO) genera la solución:^b = (X t X) -1 X t Y (25)a partir de suponer que los datos provienende una muestra aleatoria seleccionadasin reemplazo (MASSR) yque no están relacionados con el diseñode la muestra. Sin embargo, estesupuesto no se cumple en la realidadya que el efecto de conglomeracióngenera correlación entre los errores(Kish y Frankel, 1974), por lo que esnecesario establecer algunas consideracionescuando los datos provienende encuestas complejas.El método de estimación MCO suponeque V(e / X)= s 2 I en donde I representala matriz identidad; sin embargo,la realidad indica que V(e / X)= s 2 V(con V¹I) por lo que se debe buscarun método alternativo y adecuado deestimación.A partir de lo anterior se puede afirmarque no se verifica la hipótesis deindependencia del término de error(Sul,E. et. al.,1994) por lo que los estimadoresy sus varianzas son sesgados,lo cual tiene consecuencias en elcálculo de intervalos de confianza yen las expresiones para obtener losestadísticos de prueba que se utilizanpara la constrastación de hipótesis.Una expresión del vector estimador deparámetros ~^b para el caso de probabilidadesdesiguales de selecciónse obtiene por medio de:^b* = (X t D -1 X) -1 X t D -1 Y(26)en donde la matriz X t D -1 X tiene unelemento å sX ijX ik/ p i ,y la sumatoriase extiende sobre las n unidades queforman parte de la muestra y D representauna matriz con las probabilidadesde selección incluidas en la diagonal22 .De igual forma se afirma que la varianzadel vector ( ~^b):V MCO(b) = [n 0(n 0-k)] -1 å e 2 t V-1 xx(27)puede ser inconsistente aún en el casode que la muestra sea aleatoria simpledebido a la presencia de hetero-22De acuerdo con Kish y Frankel (1974), laestimación de (26) se puede lograr por los siguientestres métodos para estimar la varianzadel estimador para muestras repetidas detamaño n provenientes de encuestas complejas:Expansión de serie de Taylor ST, ReplicacionesRepetidas y Balanceadas RRB y Replicacionescon Jacknife RJ.


cedasticidad en los datos, mientrasque un estimador de la varianza de^b* se calcula como:^V(^b*) = (X t D -1 X) -1 s 2 23 (28)Por la forma de la expresión (23) unaalternativa para resolver el problemade estimar de manera apropiada (24)consiste en utilizar el método de mínimoscuadrados ponderados (MCP)(Fuller,1975; Holt et. al.,1980 y Shahet. al., 1977) y como alternativas posiblesse proponen el método de mínimoscuadrados generalizados (MCG)y el de máxima verosimilitud (MV) (Holtet. al. op. cit.). En este sentido, el ponderadores el inverso de la probabilidadde selección de la observación(factor de expansión) o un factor ajustadopor no respuesta y postestratificación(Sul et. al., op. cit.) 24 .Esta forma de proceder no considerala posible correlación que exista entreel término de error y su efecto sobrela varianza del estimador. De hecho,la correlación entre los errores aleatoriostiene un efecto mínimo sobre elestimador de los parámetros el cualpuede ser ignorado.3.1. Ejemplo realSuponga que a partir de los datos deuna encuesta de empleo se quiereestudiar la relación que existe entre lacondición de ocupación de un individuoy algunas variables sociodemográficascomo la edad, los años de estudioy el sexo, la cual se desea modelara partir de definir una relaciónlineal entre las variables.cond. de ocupación = f(edad, años de estudio, sexo)(29)Utilizando el modelo de regresión linealsimple se desea estimar el valorde los parámetros b i, así como su errorestándar y corroborar su significanciaestadística.condocu= b 1+ b 2edad + b 3edu + b 4sexo + e(30)Los resultados para distintos métodosde estimación se presentan en la tabla8 25 .Como se puede observar existen pequeñasdiferencias entre los valoresde los parámetros estimados por elmétodo de MCO y los obtenidos cuandolas observaciones se ponderan utilizandoel factor de expansión y elmétodo de MCP. De hecho, se presentauna total coincidencia entre los resultadosgenerados utilizando el PCCARP, considerando el factor de expansióny la estructura del diseño demuestra, y aquellos que se producen23Esta expresión no corresponde a la propuestapor Kish y Frankel (op cit.); sin embargo, enel caso de que no se detecte la presencia deheterocedasticidad en los datos, la estimaciónpropuesta para estimar la varianza de los estimadoreses una buena aproximación(Holt et.al. op. cit.)24Los procedimientos de postestratificaciónhan sido analizados por Holt y Smith (1989)quienes han concluido que se pueden considerarcomo técnicas robustas de estimación.En su trabajo ellos demuestran que, contrarioa lo que se supone habitualmente, las muestrasautoponderadas generan estimadoressesgados para la media y la postestratificaciónpermite solucionar este problema.25Los datos utilizados para la estimación delmodelo son reales y se obtuvieron de una encuestade empleo realizada por una OficinaNacional de Estadística de la región.


a partir del SAS y un método de estimaciónque considera únicamente elfactor de expansión 26 .Lo que se debe enfatizar es el hechoque el error estándar del estimador sesubestima siempre que no se considerael diseño de la muestra y los ponderadores,y aún en la situación enque se ponderan los resultados peroel esquema de selección de la muestrano se tiene en cuenta 27 .Esto significa que a pesar de que seaplique un método de estimación queinvolucre las distintas probabilidadesde selección de las observaciones, esposible que persista subestimación delerror del estimador.26Los parámetros b 1, b 2y b 3resultaron estadísticamentedistintos de cero, mientras que b4 notiene significancia estadística lo cual indica quepara este conjunto de datos el sexo de la personano ayuda a explicar la condición de actividadde la población en edad de trabajar.27Resultados similares fueron obtenidos porSue, et. al.(1989), para una investigación querelacionaba el índice de masa corporal condistintas variables sociodemográficas.TABLA 8Estimadores y su Error Estándar por diferentesMétodos de EstimaciónParámetro Estimador Error 1 Estimador Error 2 Estimador Error 3b 1.869483 .016124 .862701 .012760 .869484 .012450b 2.002139 .000272 .002348 .000224 .002139 .000221b 3-.003405 .001298 -.003333 .001256 -.003405 .001233b 4-.000814 .006116 -.004796 .005969 -.000814 .0057991Corresponde al estimado considerando el factor de expansión y la estructuradel diseño de la muestra y utilizando para la estimación el PC CARP.2Corresponde al estimado por Mínimos Cuadrados Ordinarios con SAS.3Corresponde al estimado sin considerar el diseño de la muestra, pero estimadopor Mínimos Cuadrados ponderados con el SAS.TABLA 9EFECTO DE DISEÑO PARA LOS PARÁMETROS DEL MODELO ESTIMADOParámetroEfecto de Diseñob 11.2636b 21.2143b 31.0334b 41.0246


Es evidente que en el caso ilustradono se generan mayores problemas deinferencia debido a las ligeras discrepanciasobservadas en las estimacionesdel error; sin embargo, en la literaturaabundan los casos en donde lasdiferencias pueden ser considerablesy conllevan a asumir conclusiones erróneaspor el mal manejo de los datos(Skinner op. cit. y Holt et. al. op. cit.).Una aproximación al efecto de conglomeraciónsobre la varianza de los parámetrosestimados se presenta en latabla 9 el cual se puede interpretarcomo el porcentaje de subestimaciónque existe en el estimador del errorestándar al considerar a las observacionescomo una muestra aleatoriaseleccionada sin reemplazo.4. La estimación del efecto dediseño y el uso de los ponderadoresSe ha evidenciado que para hacer unuso adecuado de la información esnecesario que los usuarios conozcanlos detalles del método de estratificaciónutilizado y el procedimiento que seaplicó para la selección de la muestra,a fin de estar en condiciones de calcularlos factores de expansión así comopara estimar el efecto del diseño sobrela varianza de los estimadores.La realidad parece indicar que sonpocas las organizaciones que calculanerrores de muestreo y el efecto dediseño para las distintas variables deinterés casi nunca se conoce. En estesentido, los usuarios -las mayoría delas veces con poco conocimiento sobremétodos de análisis de encuestascomplejas- no le dan importancia aeste hecho lo cual puede llevar a malosusos de la información.La única manera de sensibilizar a losusuarios sobre los riesgos que representahacer caso omiso de las especificacionesdel diseño de la muestray las limitaciones de desagregación delos datos, es que las Oficinas Nacionalesde Estadística publiquen demanera regular estimaciones de loserrores de muestreo y del efecto dediseño, y además acompañen las basesde datos con la información necesariapara que los analistas especializadostengan la posibilidad de calcularla magnitud del error de estimaciónpara dominios de estudio específicosque no se consideraron entre los objetivosdel diseño muestral y evalúensu confiabilidad estadística.Como es muy difícil que esta situaciónideal se logre concretar en el corto plazo,tal vez sería suficiente incorporaren las bases de datos la mínima informaciónnecesaria para lograr aproximacionesal efecto de diseño.Para el cálculo del efd kse requiere almenos identificar a las unidades deprimera etapa de selección(UPM). Esdecir, para una encuesta estratificadase debiera disponer como mínimo dela información que permita ubicar elestrato y la UPM de procedencia delas observaciones. En el caso de quesólo una UPM se haya seleccionado -como sucede en algunos diseños- esevidente que en este caso su identificacióncoincide con la del estrato.Si no se conoce el estrato de procedenciael efd kse puede calcular como


si se tratara de un diseño de conglomeradosen la medida que sea posibleidentificar el segmento al cual pertenecenlas observaciones. Asimismo,para un diseño de muestra estratificadose debe asegurar que al menosexistan dos UPM’s seleccionadas porestrato ya que en caso contrario noes posible estimar la varianza. En lasituación de que sólo un conglomeradohaya sido seleccionado por estrato,se sugiere formar seudoestratospara lo cual el analista requiere contarcon un buen conocimiento del diseñode muestra.A fin de ejemplificar los procedimientossugeridos a continuación se presentanlos resultados obtenidos alestimar errores y efectos de diseñopara algunas variables de interés. Losdatos utilizados corresponden a unaencuesta de empleo realizada por unpaís de la región que tiene por objetivocentral estimar la tasa de desocupaciónabierta (TDA) respecto a lapoblación económicamente activa(PEA). Las unidades de observaciónse seleccionaron a partir de un diseñoestratificado (cuatro estratos) en tresfases. Para las dos primeras etapas, laprobabilidad de selección fue proporcionala una medida de tamaño, mientrasque las unidades de última etapa(segmentos de viviendas) se eligieroncon muestreo aleatorio simple.Para evaluar el efecto que tiene la selecciónmultietápica y la estratificaciónde la unidades primarias en el errorestándar del estimador se probaron lassiguientes alternativas de diseño: i) Enel primer caso (D1) se utilizaron lasobservaciones muestrales simulandoque la información se obtuvo pormuestreo aleatorio simple de elementos.ii) Otra opción (D2) fue utilizar lasagrupaciones de viviendas de últimaetapa para estimar el error y efecto dediseño asumiendo un esquema aleatoriosimple de conglomerados. iii) Sesuprimió la información de la primeraetapa de selección y sólo se consideraronlas unidades de segunda y tercerafase(D3). iv) Por último, se trabajócon el diseño de muestra trietápicoaplicado para la realización de la encuesta(D4).En todos los casos los cálculos se realizaronutilizando el PC CARP y seestimaron totales y proporciones (promediosen el caso del ingreso) a finde analizar los cambios observados enel efecto de diseño como consecuenciade incorporar etapas adicionalesen la selección de la muestra.Un primer comentario que se deberealizar es que al igual que lo que seobserva en muchas de las encuestasde empleo que se realizan en la región,el ingreso de las personas estásubestimado ya que sólo correspondea lo que declaran percibir los ocupadospor concepto de sueldos y salariosdel trabajo remunerado. Asimismo,se señala que para los cálculosse eliminaron aquellos registros endonde no se consignó ninguna respuesta(10.7%)(código de no especificado),pero si se consideraron loscasos que reportaron cero ingresos(5.6%),lo cual es posible que incidaen la calidad de los resultados.En la tabla 10 se presentan los resultadosobtenidos para los totales estimadosde algunas variables de interés.En teoría se esperaría que el efec-


to de diseño se incrementara para todaslas variables en la medida que seincorporan subsecuentes etapas deselección de la muestra según lo obtenidoen otras investigaciones similares(Verma et.al. op.cit.). En este sentido,al pasar de la opción D1 a D2 seregistró un aumento en el efd K, comportamientoque se mantuvo entre lasopciones D2 y D3 (a excepción de loobservado en el ingreso total). Porejemplo, en la categoría ocupados elaumento fue del 32%, mientras quepara el total de desocuapdos abiertosel incremento fue del 13.9%.Sin embargo, esta tendencia crecientese revirtió al comparar los resultadosde las opciones D3 y D4. Por ejemplo,para la categoría ocupados el efd kdisminuyó9.3%, mientras que en el casode los desempleado se redujo 6.4%.En el caso del ingreso continuó el comportamientoerrático que ya había sidoidentificado, a pesar de que el coeficientede variación estimado para estavariable (2.48%) fue menor al observadopara el total de desocupados elcual se ubicó en 5.0%.TABLA 10EFECTO DE DISEÑO PARA TOTALES DE VARIABLES DE INTERÉSVariable Estimador 1 Efecto de Efecto de Efecto de Efecto dedel Total Diseño D1. Diseño D2 Diseño D3 Diseño D4Ocupados 5’363,210 1.0000 2.2292 2.9452 2.6715Desocup. Abiertos 423,655 1.0000 1.3361 1.5213 1.4244Ingreso 877,562 2 1.0000 2.1590 1.6098 1.65091Los estimadores de totales fueron los mismos para ambos procedimientos.2En millones de unidades.Por su parte, los resultados obtenidos para las tasas y promedios evidencia uncomportamiento más acorde con lo esperado. En efecto, en el caso de la tasaneta de participación (TNP) y la de desocupación abierta (TDA), el valor delefecto de diseño muestra una tendencia creciente en la medida que se incrementaen número de etapas para la selección de la muestra.Conforme a los datos que se presentan en la tabla 12 se observó un incrementodel 45% en la varianza de la TNP por el hecho de estimar los datos a partir deun diseño de muestra bietápico en lugar de un esquema de conglomerados.


Asimismo, se corrobora que una etapamás de selección no tiene una incidenciaimportante en la varianza delestimador ya que el aumento registradoen el efd kno alcanza ni un puntoporcentual(0.16%).Los resultados observados en la TDAmuestran un comportamiento similar;sin embargo, en este caso el aumentoen varianza por pasar de un diseñode conglomerados D2 a un esquemade selección bietápico D3 es del 9.2%,mientras que incorporar una etapamás de muestreo en el proceso deestimación (pasar de D3 a D4) sóloincrementa el error en 0.25%.En el caso del ingreso promedio delos ocupados se mantuvo el comportamientoerrático que se había evidenciadopara el estimador del total, y enesta situación también se observó unerror de muestreo inferior al registradopara la tasa de desocupación abierta;es decir, los coeficientes de variaciónreportados fueron 2.2% y 4.8%respectivamente.Los efectos de diseño verdaderos, que1Los estimadores de totales fueron los mismos para ambos procedimientos.2En unidades.TABLA 12INCREMENTO PORCENTUAL EN EL EFECTO DE DISEÑOPARA TASAS DE INTERÉSVariable Estimador 1del Total D1. D3/D2 D4/D3 D4/D2Tasa Netade Ocupación 48.61 1.0000 45.12 0.16 45.35Tasa de Desocup.Abierta 3.84 1.0000 9.24 0.25 9.51IngresoPromedio 795.47 2 1.0000 (-36.1) 0.09 (-36.0)1Los estimadores de totales fueron los mismos para ambos procedimientos.2En unidades.TABLA 11EFECTO DE DISEÑO PARA TASAS DE INTERÉSVariable Estimador 1 Efecto de Efecto de Efecto de Efecto dedel Total Diseño D1. Diseño D2 Diseño D3 Diseño D4Tasa Netade Ocupación 48.61 1.0000 1.0126 1.4695 1.4719Tasa de Desocup.Abierta 3.84 1.0000 1.2151 1.3274 1.3307IngresoPromedio 795.47 2 1.0000 2.1921 1.4008 1.4022


corresponden al esquema que se utilizópara la selección de la muestra D4,son muy parecidos entre sí y muestranvalores bastante aceptables locual haría suponer un nivel muy bajode correlación de las observacionesentre conglomerados. De hecho, losvalores del coeficiente de correlaciónintraclase r fueron 0.1179, 0.0827 y0.1005 para la tasa neta de participación,tasa de desocupación abierta yel ingreso medio, respectivamente.5. Conclusionesi) Cualquier resultado generado pormedio de una encuesta está sujeto aun error de estimación, el cual se requiereconocer para determinar la confiabilidadestadística de los datos. Además,en la medida que se relajan lasrestricciones impuestas por el diseñoy se desagreguen los datos, la probabilidadde que el número de observacionesresulte insuficiente aumenta ypor lo tanto disminuye la precisión delos resultados.ii) La estructura del diseño de muestraafecta la varianza de los estimadores.Esta situación se afirma ya quemientras que el proceso de estratificaciónayuda a disminuir la varianza,la conglomeración y las diferentes probabilidadesde selección de las observacionesincrementa la variabilidad delos estimadores. De hecho, tambiéncontribuye a incrementar la varianzael tamaño promedio del conglomeradoya que guarda estrecha relacióncon el error estándar, por lo que todosestos elementos se deben controlardurante la etapa del diseño muestral.iii) Prácticamente todas las encuestasque realizan las Oficinas Nacionalesde Estadística de los países de la regióncorresponden a diseños de muestracomplejos. En este sentido, se sugiereincorporar en las publicacionesde resultados estimaciones de loserrores de muestreo y del efecto dediseño, a fin de que los usuarios conozcanla magnitud del error y confiabilidadde las estimaciones. Asimismo,se debe ser más enfático y advertirsobre los riesgos que se enfrentan porla utilización de los resultados de laencuesta, para fines diferentes a losque se definieron en los objetivos centralesde la investigación.iv) Las encuestas de empleo, ingresosy gastos, demográficas y de niveles devida, entre otras, tienen restriccionesnaturales en su capacidad explicativalas cuales están impuestas por los objetivosde las mismas, así como por lavariable de diseño y los tamaños demuestra utilizados. Se sugiere a losanalistas realizar una evaluación estadísticade los resultados y elegir métodosde análisis que consideren entresus rutinas de cálculo las limitacionesque impone el diseño de la muestra,como una etapa previa a la formulaciónde modelos de causalidad, conclusionesy recomendaciones de accionesde política.v) Si una encuesta de propósitos múltiplesno se diseñó de manera adecuadaen relación con la aplicación deun procedimiento de estratificación yconglomeración robusto, así como ladeterminación del tamaño óptimo demuestra, es muy probable que la confiabilidadde los datos no sea la adecuadapor lo que en el análisis de los


esultados se debieran asumir las precaucionesnecesarias.vi) Los objetivos de la investigación,el tamaño de muestra y el esquemade selección le imponen restriccionesa los datos que deben ser consideradasdurante la etapa de análisis de lainformación. Así, en caso de que nose respeten los aspectos señaladosexiste el riesgo de que la inferenciaque se realice carezca de significanciaestadística.de confianza imprecisos que puedenllevar a asumir conclusiones erróneasrespecto a los estadísticos de pruebaque se utilizan para contrastar la significanciaestadística de parámetrosde interés, así como de los que seobtienen a partir del ajuste de un modeloeconométrico.vii) Los usuarios de los datos debenenfrentar la etapa de análisis con prudenciay hacerse asesorar por personasque conozcan el diseño de lamuestra y que manejen los conceptosde la inferencia estadística en el casode encuestas complejas. De lo contrario,es probable que algunas de lasformulaciones de política que recomiendencarezcan de confiabilidadestadística.viii)El no considerar el diseño de lamuestra en el análisis de los resultados,significa que se subestima el errorde muestreo y se obtiene intervalos


Referencias BibliográficasAngers,C.(1979).“Sample Size Estimationfor Multinomial Populations”.TheAmerican Statistician”. Vol. 33, No.3,163-164.Bankier,M.D.(1988).“Power Allocation:Determinig Sample Size for SubnationalAreas”. American Statistician,vol.42,No.3,174-177.Cochran,W.G.(1953).”Sampling Technics”.John Wiley & Sons, Inc.Fuller,W.A.(1975).“Regression Analysisfor Sample Surveys”.Sankhyã,37(Series C), 117-132.Holt,D. and T.M.F.Smith(1979).”PostStratifi-cation”.Journal of the Royal StatisticalSociety 142 (Series A), 33-46.Holt,D., T.M.F.Smith and P.D. Winter(1980).”Regression Analysis of Datafrom Complex Surveys”. Journal of theRoyal Statistical Society,143 (SeriesA), 174-487.Kish,L. and Frankel,M.R. (1974).”Inferencefrom Complex Samples” (withDiscussion).Journal of the Royal StatisticalSociety. (Series B),vol. 36,1-37.Kish,L.(1979).”Muestreo de Encuestas”.Editorial Trillas, México, D.F..Kakwani,N.(1990).”Testing for the Significanceof Poverty Differences”.WorldBank.Living Standar MeasurementStudy, Working Papers No. 62.Kokan,A.R.(1963).“Optimum Allocationin Multivariate Surveys”.Journal ofthe Royal Statistical Society(Series A),vol. 126, 557-565.Kokan,A.R. and Khan,S.(1967). “OptimumAllocation in MultivariateSurveys:An Analytical Solution”. Journalof the Royal Statistical Society (SeriesB), vol. 29. 115-125.Medina,F.(1988).”Tamaño Óptimo deMuestra en Encuestas de PropósitosMúltiples”. CEPAL, Memoria del TallerRegional sobre Planificación de Encuestasen Hogares, Santiago de Chile,agosto, 1998.Skinner,C.J.(1989). “Analysis of ComplexSurveys”. Chapter 2, Introductionto Part A., Edited by C.J. Skinner, D.Holt and T.M.F. Smith.John Wiley andSons Ltd., 23-58.Sul,E., N.Forthofer, R. and J. Loromier,R.(1994).“Analyzing Complex SurveyData”.Sage University Papers onQuantitative Applications in the SocialScience, Num. 71,Beverly Hills:SagePubns.Thompson,S.K.(1987).”Sample Sizefor Estimating Proportions”.The AmericanStatistician, vol.41, No.1, 42-46.Tortora,R.D.(1978). “A Note on SampleSize Estimation for MultinomialPopulations”. The American Statistician,vol. 32, No. 3, 100-102.Verma, V., Scott, C. andO’Muircheartaigh (1980). “Sample Designsand Samplig Errors for the WorldFertility Survey”. (With Discussion).Journal of the Royal Statistical Society(Series A), vol. 143, 431-473.

More magazines by this user
Similar magazines