Conceptos de muestreo

matematicas.unex.es

Conceptos de muestreo

Capítulo 1

Conceptos de muestreo

1.1. Definiciones básicas

La necesidad de información estadística parece interminable en la sociedad

actual. Podemos observar cómo constantemente se recoge información de todo

tipo sobre conjuntos concretos de elementos (personas o cosas): el número de

habitantes de una localidad, el beneficio de un sector empresarial, en qué invierten

su tiempo libre los habitantes de grandes ciudades, la intención de voto de

cara a unas elecciones, etc.

En toda investigación estadística existe un conjunto de elementos sobre los

que se toma la información. Este conjunto de elementos es lo que se denota con

el nombre de población. Cuando el estadístico toma información de todos y cada

uno de los elementos de la población estadística se dice que se está realizando

un censo. Sin embargo, esto no es muchas veces posible, ya sea por el coste

que resulta de la toma de información, o bien porque la toma de información

lleva consigo la destrucción de los elementos en cuestión o que la población tiene

infinitos elementos.

Este problema lleva al investigador a tomar la información sólo de una parte

de los elementos de la población estadística, proceso que recibe el nombre

de muestreo y al conjunto de elementos de los que se toma la información se

denomina muestra. A partir de la información recogida en los elementos de la

muestra se realizará una inferencia sobre el comportamiento de los elementos

de la población. Existe una amplia gama de métodos estadísticos para recoger

y analizar estas muestras. En este curso analizaremos varios de estos métodos.

A continuación damos una serie de definiciones que nos van a servir como

introducción a la exposición de este curso.

Definición 1.1 Un elemento (o unidad) es un objeto sobre el que se realiza una

medición de una variable bajo estudio.

Denotamos por u1 un elemento o unidad sobre la cual se realiza la medición

de una variable bajo estudio X. Sea X1 el valor que toma la característica X

sobre la unidad u1.

1


Ejemplo 1 Se desea realizar un estudio sobre el consumo navideño de las familias

españoles en las pasadas navidades. Para este ejemplo, un elemento del

estudio sería cualquier familia en España. El gasto aproximado de dicha familia

en las navidades constituiría la medición para este estudio.

Ejemplo 2 En una determinada ciudad se llevó a cabo una encuesta de opinión

con el fin de determinar el sentir general de los ciudadanos hacia la peatonalización

de su casco antiguo. Para este ejemplo particular, un elemento del estudio

sería cualquier ciudadano de dicha ciudad. La variable en estudio consiste en

la preferencia de la peatonalización del caso antiguo. En este caso las medidas

obtenidas no son numéricas sino que sólo recogen la preferencia o no (si-No).

Para este tipo de variables, lo que se hace es registrar un 1 para los ciudadanos

que estén a favor y un cero para los que estén en contra.

Ejemplo 3 Se desea hacer un estudio sobre la proporción de votantes para un

determinado partido político A en las próximas elecciones generales. Entonces,

en este caso, el elemento sería cualquier votante potencial, es decir, cualquier

individuo incluido en el censo electoral. En este caso, la variable en estudio

sería la preferencia al voto por el partido A. La variable será medida como 1 si

el votante prefiere el partido A y 0 si no.

Definición 1.2 Una población es un conjunto de N elementos sobre los que

se desea realizar el estudio y de la cual podemos obtener información sobre

una característica X. Se suele denotar por Ω = {u1, u2, . . . , uN } o simplemente

Ω = {1, 2, . . . , N}.

Ejemplo 4 Para el Ejemplo 1, la población sería el conjunto de todas las familias

españolas donde la característica a estudiar sería su consumo navideño.

Para el Ejemplo 2, la población es el conjunto de todas los habitantes de la

ciudad. En el Ejemplo 3, la población sería el Censo Electoral.

Obviamente, la misma población tendrá diferentes tipos de medidas o mediciones

para diferentes variables de estudio. Atendiendo al número de elementos

que la constituyen, las poblaciones podrían dividirse en finitas e infinitas. Por

ejemplo, el Censo Electoral al que se hacer referencia en el Ejemplo 3 es finita.

Sin embargo, poblaciones como el agua contenida dentro de un tanque, podría

considerarse como infinita con respecto al número de moléculas que lo constituyen.

Generalmente, trataremos con poblaciones finitas. Los resultados para

poblaciones infinitas podrían usarse en el caso de poblaciones finitas con un

gran número de elementos.

Definición 1.3 Se define por unidad de muestreo a los conjuntos no solapados

de la población que cubren la población completamente.

Si cada unidad de muestreo contiene uno y solamente un elemento de la población

se le suele denominar unidad primaria. Si por el contrario contiene varios

se le denomina compuesta.

2


Como hemos señalado anteriormente en el Ejemplo 3 cualquier integrante

del Censo Electoral es un elemento de dicho estudio. Sin embargo, también

es posible analizar hogares en lugar de votantes particulares y preguntar la

preferencia del voto en los hogares muestreados. En esta situación, cada uno de

los hogares sería la unidad de muestreo y el número de elementos en cualquier

unidad de muestreo podría ser 0, 1 o más dependiendo del número de votantes

registrados en cada hogar. Si cada unidad de muestreo contiene un elemento de

la población, entonces unidad de muestreo y elemento coinciden.

Definición 1.4 Un marco es una lista de unidades de muestreo.

Ejemplo 5 En el ejemplo 3, si los votantes individuales se toman como unidad

de muestreo, entonces la lista de todos los votantes constituirá el marco para

dicho estudio. Por otra parte, si tomamos como unidad de muestreo los hogares,

entonces la lista de todos los hogares serviría como marco para seleccionar una

muestra de hogares.

Señalar que el marco podría no incluir todas las unidades de muestreo de

la población ya que las listas de todas las unidades no se actualiza cada día.

Si el marco lo constituyen los votantes de una determinada ciudad, este marco

podría incluir algunos votantes que han fallecido ahora y podría no incluir los

nombres de los individuos que alcanzan la condición de votantes después de que

el marco se preparase por última vez. El investigador debe de pretender que la

separación entre marco y población sea lo más pequeña posible.

Definición 1.5 Una muestra es una colección de unidades de muestreo obtenidas

a partir de un marco.

En la práctica, el número de unidades seleccionadas en una muestra es mucho

menor que el número de unidades de la población. La inferencia sobre el

comportamiento de la variable en estudio en la población entera se extrae de

las observaciones de la variable en estudio para las unidades seleccionadas de

la muestra. En el Ejemplo 3, la preferencia de voto para el partido A se preguntará

sólo a los votantes de la muestra seleccionada. Esta información se

usará para estimar la proporción de votos en el partido A en toda la población.

Al número de unidades (no necesariamente distintas) incluidas en la muestra

se le conoce como tamaño muestral y se denota generalmente po n mientras

que el número de unidades que constituyen la población se denomina tamaño

poblacional y se denota por N. El cociente n/N se conoce como fracción de

muestreo. En un estudio determinado, si n/N ∼ = 0, es decir la fracción de muestreo

está cercana al cero, la muestra contiene muy pocos elementos en relación

al tamaño de la población. En cambio, para n/N ∼ = 1, la muestra y la población

tienen aproximadamente el mismo número de elementos.

1.2. Necesidad del muestreo

La recogida de información de la variable de interés sobre cada unidad de la

población se conoce como enumeración completa o censo. La cantidad de dinero,

3


ecursos humanos y tiempo requeridos para realizar un censo generalmente es

muy elevado y, en muchas situaciones, generalmente cuando se dispone de medios

limitados, no es posible realizar una enumeración completa. En este caso,

el investigador no tiene más remedio que recurrir a técnicas de muestreo para

realizar el estudio.

Existen una serie de ventajas en la utilización del muestreo sobre una enumeración

completa y que exponemos a continuación.

Mayor velocidad. El tiempo necesario para la recogida y análisis de los

datos de una muestra es mucho menor que el necesario para una enumeración

completa. En cierto tipo de estudios, nos encontramos con que la

publicación de resultados tiene una fecha límite y nos enfrentamos a una

población con un número elevado de elementos. En estos casos, el muestreo

es la única alternativa posible para realizarlo.

Mayor exactitud. Un censo generalmente involucra una gran carga de trabajo

con lo que es necesario un gran despliegue humano para la realización

del mismo. En este caso es frecuente cometer errores debido a la complejidad

de la organización. En muestreo, el volumen de trabajo se reduce de

manera considerable con lo que los recursos humanos son mucho menores

pudiendo tener una plantilla más eficiente.

Información más detallada. Al tener el muestreo un número menor de

unidades, es posible observar/entrevistar cada unidad de una manera más

detallada obteniéndose información de varias variables. Sin embargo, en

el caso del censo, esta situación llega a ser muy compleja desde un punto

de vista operativo.

Coste reducido. Al muestrear un menor número de elementos, el coste de

muestreo generalmente es menor que el de una enumeración completa.

De lo señalado anteriormente, el muestreo resulta ser más económico, proporciona

una información más exacta y tiene un mayor alcance en la cobertura

individual cuando lo comparamos con una enumeración completa. Sin embargo,

existen una serie de errores, denominados errores de muestreo que está presentes

en cualquier resultado de una investigación por muestreo. Este hecho se debe,

principalmente, a que en el muestreo sólo se analiza una parte de la población.

Las técnicas de muestreo se diseñan con el fin de reducir este tipo de errores de

muestreo.

1.3. Procedimientos de muestro

El método usado para seleccionar la muestra de la población se denomina

procedimiento de muestreo. Estos procedimientos de muestreo pueden dividirse

en dos tipos o categorías: muestreo probabilístico y muestreo no probabilístico.

Estos dos tipos de procedimiento no se distinguen por el cuestionario y las instrucciones

a seguir sino por los métodos de selección de la muestra para obtener

las estimaciones de las características poblacionales de interés y su precisión.

4


Definición 1.6 Si las unidades de la muestra se seleccionan utilizando algún

mecanismo probabilístico, el procedimiento se denomina muestreo probabilístico.

Este tipo de muestreo asigna a cada unidad de la población una probabilidad

de ser elegida en la muestra. Además, esto nos permite asignar a cada muestra

posible una probabilidad conocida de ser seleccionada. La información obtenida

a partir de la muestra permite inferir las propiedades o características de toda la

población cometiendo un error medible y acotado. Este tipo de muestreo será el

que se analizará en este curso.

Definición 1.7 El procedimiento de selección de una muestra sin utilizar

ningún mecanismo probabilístico se denomina muestreo no probabilístico.

Este tipo de muestreo suele aplicarse a menudo, cuando el presupuesto de la

encuesta es muy bajo y siempre que en caso de equivocación las consecuencias

no sean demasiado graves. Dentro de este procedimiento de muestreo podemos

encontrarnos algunos pautas de selección como son las siguientes.

Muestreo por conveniencia. La muestra se restringe a una parte de

la población que es fácilmente accesible. Por ejemplo, los profesores de

universidad emplean con mucha frecuencia a sus propios alumnos. Un

caso particular de muestreo por conveniencia se utiliza en estudios estudios,

donde el proceso de recogida de la información es desagradable o

problemático para la persona seleccionada, de manera que sólo los voluntarios

podrían constituir la muestra (la dosis de un nuevo fármaco, por

ejemplo).

Muestreo intencional u opinático. Se utiliza cuando, para formar un

subconjunto representativo de la población, es necesario que las unidades

informantes posean una serie de conocimientos o destrezas (unidades

informantes expertas).

Muestreo por cuotas. Se establecen una serie de cuotas para diferentes

categorías de la población basadas en una serie de consideraciones relevantes

al estudio que se está llevando a cabo. Por ejemplo: 20 individuos

de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada

la cuota se eligen los primeros que se encuentren que cumplan esas

características. Este método se utiliza mucho en las encuestas de opinión.

Muestreo sin norma, se toma la muestra a la ventura por razones de

comodidad.

Obviamente, cualquier método de selección no probabilístico está muy expuesto

al sesgo humano y el error de muestreo no puede determinarse de una

manera objetiva. Por lo tanto, no son comparables con los métodos de muestreo

probabilístico disponibles.

5


1.4. Muestreo con reposición y muestreo sin reposición

A la hora de realizar cualquier procedimiento de muestreo, éste puede realizarse

de dos maneras diferentes.

Definición 1.8 En un muestreo con reposición o muestreo con reemplazamiento,

las unidades se extraen una a una de la población, reemplazando la unidad

seleccionada en cualquier extracción particular antes de realizar la siguiente extracción.

Como la constitución de la población permanece inalterable en cada extracción,

algunas unidades en el muestreo con reemplazamiento podrían seleccionarse

más de una vez en la muestra.

Definición 1.9 En un muestreo sin reposición o muestreo sin reemplazamiento,

las unidades se extraen una a una de la población, y la unidad seleccionada

en cualquier extracción no se devuelve a la población antes de seleccionar una

unidad en la siguiente extracción.

Obviamente, ninguna unidad se selecciona más de una vez en el muestreo

sin reemplazamiento.

Ejemplo 6 Un país está compuesto por 4 regiones A, B, C y D. En cada una de

estas regiones se mide el número de personas activas obteniendo como resultado

6 millones, 4 millones, 3 millones y 8 millones. Extraer muestras de tamaño

2 de esta población sin reposición y considerando que muestras con los mismos

elementos en distinto orden son iguales.

En este ejemplo, disponemos de una población Ω formada por 4 unidades o

elementos

Ω = {u1, u2, u3, u4},

donde cada una de estas unidades son las regiones que componen el país, es

decir,

u1 = A, u2 = B, u3 = C, u4 = D.

Las muestras posibles de tamaño 2 que pueden seleccionarse sin reemplazamiento

de Ω son

{(A, B), (A, C), (A, D), (B, C), (B, D), (C, D)}.

En este ejemplo, la variable objetivo o de interés es X=“número de personas activas”.

Para cada una de las unidades de muestreo que consideramos, la variable

X toma los siguientes valores

X1 = 6, X2 = 4, X3 = 3, X4 = 8.

Luego, para cada una de las muestras, los valores que toma la variable X para

dichas muestras viene dada por

6


Muestras Valores X

(A,B) (6,4)

(A,C) (6,3)

(A,D) (6,8)

(B,C) (4,3)

(B,D) (4,8)

(C,D) (3,8)

Definición 1.10 Se dice que el muestreo no tiene en cuenta el orden (o es no

ordenado) si muestras con los mismos elementos en distinto orden son distintas.

Definición 1.11 Se dice que el muestreo tiene en cuenta el orden (o es ordenado)

si muestras con los mismos elementos en distinto orden son iguales.

Ejemplo 7 Sea Ω una población formada por 4 unidades Ω = {u1, u2, u3, u4}.

Obtener muestras de tamaño 2 bajo las siguientes condiciones

Muestreo ordenado sin repetición

Muestreo ordenado con repetición

Muestreo no ordenado sin repetición

Muestreo no ordenado con repetición

En el caso de muestreo ordenado sin repetición, el total de muestras obtenidas

es igual a

{(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)}

{(u2, u1), (u3, u1), (u4, u1), (u3, u2), (u4, u2), (u4, u3)}.

Para una población de tamaño N, el total de muestras ordenadas de tamaño 2

que pueden extraerse utilizando un muestreo ordenado sin repetición, es igual a

VN,n = N(N − 1) . . . (N − n + 1).

Para N = 4 y n = 2, V4,2 = 12. En el caso de muestreo ordenado con repetición,

el total de muestras obtenidas es igual a

{(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)}

{(u2, u1), (u3, u1), (u4, u1), (u3, u2), (u4, u2), (u4, u3)}

{(u1, u1), (u2, u2), (u3, u3), (u4, u4).

Para una población de tamaño N, el total de muestras ordenadas con repetición

de tamaño 2 que pueden extraerse , es igual a

V RN,n = N n .

7


Para N = 4 y n = 2, V R4,2 = 4 2 = 16. En el caso de muestreo no ordenado sin

repetición, el total de muestras obtenidas es igual a

{(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)}.

Para una población de tamaño N, el total de muestras ordenadas con repetición

de tamaño 2 que pueden extraerse , es igual a


N

CN,n = ,

n

y para N = 4 y n = 2 C4,2 = 6. En el caso de muestreo no ordenado con

repetición, el total de muestras obtenidas es igual a

{(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)}

{(u1, u1), (u2, u2), (u3, u3), (u4, u4)}

Para una población de tamaño N, el total de muestras ordenadas con repetición

de tamaño 2 que pueden extraerse , es igual a


N + n − 1

CRN,n =

,

n

y para N = 4 y n = 2 CR4,2 = 10.

1.5. Planear y realizar una encuesta

Las técnicas de muestreo son muy utilizadas actualmente en numerosos estudios

de diversa índole. Sin embargo, para que los resultados obtenidos sean

satisfactorios se requiere un adecuado plan de trabajo y una buena implementación

del mismo que nos asegure que la muestra es realmente representativa

de la población bajo estudio. Obviamente, los estudios que pueden realizarse

utilizando técnicas de muestreo varían en su alcance y complejidad. Así, nos podemos

encontrar que los problemas a los que nos enfrentamos en un estudio son

triviales o inexistentes en otro diferente. Algunos de los aspectos importantes a

tener en cuenta en la planificación de una encuesta se resumen en lo siguiente

Objetivos. En primer lugar se han de fijar claramente los objetivos que se

persiguen en el estudio. El investigador debe asegurarse que estos objetivos

están en proporción con los recursos monetarios, humanos y temporales

disponibles.

Población en estudio. Definir claramente la población a cubrir con el

estudio. Así, es necesario definir la región geográfica de la población y las

categorías que se incluyen en dicha población. Por ejemplo, en una encuesta

de población, es necesario especificar si categorías del tipo: residentes

de hoteles, conventos, cuarteles militares, ... están incluidos o no.

8


Unidad muestral. Establecer las unidades muestrales del estudio y dividir

la población en dichas unidades. Por ejemplo, en una encuesta a

la población, estas unidades muestrales pueden ser personas, hogares, familias,

pueblos, etc.. La división de la población en unidades muestrales

debe de evitar la ambigüedad y cada elemento de la población debe de

pertenecer a una única unidad muestral.

Marco La situación idónea es que el marco y la población objetivo coincidan.

Para ello, es necesario asegurarse que todas las unidades muestrales

de la población bajo estudio están incluidas en el marco. El marco debe

de actualizarse y no debe de contener errores.

Selección de la muestra. La selección de la muestra y su tamaño tienen

un especial interés. Para ello, hay que tener en cuenta los diferentes

factores técnicos y operativos del estudio y decidir el procedimiento y el

tamaño muestral a seleccionar (siempre teniendo en cuenta intentar alcanzar

un determinado grado de precisión al mínimo coste o bien obtener un

máximo de precisión si tenemos que ajustarnos a un coste fijo). Además,

la muestra tiene que ser representativa de la población a la que representa.

También el entrevistador debe tener en cuenta si los datos van a recogerse

utilizando una entrevista personal, por correo o mediante una entrevista

telefónica.

Tratamiento de la no respuesta. Decidir de antemano el procedimiento

a seguir ante los casos de no respuesta (el encuestado no proporciona la

respuesta porque no quiere, porque no se encuentra en casa, ...).

Muestra piloto. En numerosas ocasiones es conveniente realizar una

muestra piloto para a) descubrir defectos en el cuestionario o en la programación,

b) desarrollar estrategias adecuadas para el trabajo de campo y el

análisis del trabajo y c) entrenar a la plantilla disponible para el trabajo

a realizar.

Organización del trabajo de campo. Tratar aspectos como la contratación

y la formación del personal encargado de realizar la encuesta.

Análisis de los datos y preparación del informe final. El análisis de

los datos es un tema vital en un estudio. Deben evitarse cualquier error

en la tabulación de los datos y, por supuesto, en el análisis estadístico de

los mismo. Finalmente, una vez finalizado todo el análisis de los datos,

es necesario realizar el informe final del trabajo. Este informe final debe

detallar los objetivos, el alcance de la encuesta, el método de recogida de

datos, el procedimiento de estimación y el coste del trabajo.

1.6. Fuentes de error

Los estudios realizados utilizando técnicas de muestreo están afectados por

una serie de errores que pueden clasificarse en dos grupos principalmente:

9


Errores ajenos al proceso de observación, debido a que los elementos muestreados

sólo constituyen una parte de la población objetivo.

Errores del proceso de observación, debido a que los datos registrados se

desvían de la verdad.

1.6.1. Errores ajenos al proceso de observación

Normalmente, los datos que se observan en una muestra no reflejan de

forma precisa los datos de la población de la que se seleccionó la muestra,

incluso si el muestreo y la medición se realizan con extremo cuidado y

precisión. Esta desviación entre la estimación que produce una muestra

ideal respecto al valor verdadero de la población es el error de muestreo

y se produce simplemente porque es una muestra y no un censo. El error

de muestreo se puede medir de forma teórica y estimar a partir de los

datos para el caso de muestreo probabilístico. Este error de muestreo pude

reducirse mediante un buen diseño del procedimiento de muestreo y una

elección adecuada del tamaño de la muestra. Generalmente, este error

decrece a medida que aumenta el tamaño de la muestra.

En casi todas las encuestas, el marco de muestreo no coincide completamente

con la población objetivo, lo que genera lo que se denominan errores

de cobertura. Estos errores de cobertura no son fáciles de cuantificar ni de

corregir en muchos casos.

El problema más grave de todos los relacionados con la observación es la

no respuesta. Este es un problema difícil e importante en las encuestas que

intentan recopilar información directamente de personas mediante alguna

forma de entrevista. Una encuesta hecha correctamente debería obtener

información acerca de este grupo con el fin de medir las diferencias del

mismo respecto del grupo de personas que responden. La no respuesta se

manifiesta de una de las tres formas siguientes:

• Imposibilidad de contactar con el elemento muestreado (persona, hogar)

• Imposibilidad de la persona que responde de ofrecer una respuesta a

la pregunta de interés

• Negativa del individuo a responder.

Las tasas de no respuesta se pueden obtener fácilmente dado que el investigador

conoce el tamaño de la muestra y el número de respuestas

obtenidas.

1.6.2. Errores de observación

Cuando un elemento de la población se encuentra en su lugar y preparado

para ser medido, aparecen todavía más errores que pueden afectar a la

encuesta. Estos errores se pueden clasificar en

10


• Errores debido a los entrevistadores. Los entrevistadores afectan de

forma directa e importante a la forma de responder de la persona

a una pregunta. Si se lee una pregunta con la entonación o énfasis

inadecuados, puede forzar una respuesta en un sentido u otro.

• Errores debido a los encuestados. En una encuesta, el entrevistado

debe comprender la respuesta completa y tener claras las opciones

de respuesta. Los errores pueden clasificarse en errores de recuerdo

(el entrevistado no recuerda correctamente la respuesta), errores de

deseabilidad social de la respuesta (el entrevistado exagera un poco

acerca de los ingresos o de la consecución de los logros), falta de

sinceridad deliberada (el entrevistado no admitirá que transgrede las

leyes o tiene una queja particular acerca de una institución) o bien a

medidas incorrectas (el entrevistado no comprendió las unidades de

medida).

• Errores en la recopilación de los datos.

11

More magazines by this user
Similar magazines