apuntes completos
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
[2016]<br />
Apuntes de Víctor Herrera Bautista<br />
Víctor Herrera Bautista<br />
[Fecha]
Elaborado por Víctor Herrera Bautista<br />
INTRODUCCIÓN A LA ESTADÍSTICA<br />
todos los elementos que permiten<br />
bosquejar a un problema.<br />
La Estadística es una ciencia que nos<br />
proporciona un método importante para<br />
la toma de decisiones y resolver<br />
problemas en forma sistemática y<br />
reproducible, a diferencia de otros<br />
métodos que difícilmente pueden ser<br />
explicados o reproducidos hasta por la<br />
misma persona que lo ejecuta. Por lo<br />
anterior es importante analizar<br />
detenidamente cada uno de los<br />
conceptos en los que se fundamenta<br />
ésta para lograr acercarnos<br />
profundamente a su conocimiento.<br />
Dado que la estadística nace con la<br />
idea de resolver problemas<br />
comenzaremos diciendo que un<br />
problema es la diferencia entre lo real<br />
y lo deseado, es decir, que nosotros<br />
normalmente al tener injerencia en la<br />
toma de decisiones podamos<br />
escenificar perfectamente la realidad<br />
que nos rodea y con ello empatar<br />
nuestras necesidades o deseos. De tal<br />
forma, que la estadística, entonces<br />
juegue el papel de agente<br />
caracterizador de una población.<br />
Entendiendo a esta (Población) como<br />
una realidad concreta que comprende<br />
Por lo tanto una muestra será aquel<br />
subconjunto propio obtenido de la<br />
población, es decir, cuenta con algunos<br />
elementos y no todos los de la<br />
población.<br />
Las medidas que se obtienen en una<br />
población son llamadas parámetros y<br />
las obtenidas en una muestra reciben<br />
el nombre de estadísticos. Es<br />
importante aclarar que las poblaciones<br />
y las muestras están determinadas por<br />
el problema ya que en diferentes<br />
situaciones una muestra puede jugar el<br />
papel de población dependiendo del<br />
problema y viceversa.<br />
Por ejemplo una gota de sangre es una<br />
muestra si el problema es estudiar la<br />
salud de una persona, pero es una<br />
población si me interesa determinar el<br />
volumen de eritrocitos y leucocitos que<br />
hay en ella. Así en los negocios<br />
también es importante delimitar el<br />
problema ya que las ventas de un día<br />
resultan ser una muestra cuando<br />
estemos interesados en analizar las<br />
ventas promedio anuales, y por otro<br />
lado resulta ser la población cuando<br />
analizamos las ventas por empleado en<br />
ese día.<br />
RAMAS DE LA ESTADÍSTICA
Elaborado por Víctor Herrera Bautista<br />
La estadística se separa, solamente en<br />
forma didáctica, en dos partes; la<br />
estadística descriptiva y la<br />
inferencial, ya que en la realidad se<br />
utilizan ambas sin distinciones. La<br />
descriptiva nos permite caracterizar<br />
una realidad mediante la medición de<br />
una población, es decir, que cuando el<br />
tamaño de la población y las medidas<br />
que se deben obtener no la afectan<br />
entonces se realiza la investigación<br />
sobre toda la población. La inferencial<br />
será aquella realizada en una muestra<br />
para obtener información, de forma<br />
inductiva, de la población, es decir, que<br />
existen situaciones en las que el<br />
estudio de la población es imposible ya<br />
sea por el tamaño de la misma o<br />
porque al obtener alguna medida<br />
destruyamos a sus elementos, como en<br />
el caso de querer estimar la calidad de<br />
un producto que producimos<br />
continuamente no se puede detener<br />
esta producción y mucho menos<br />
estudiar toda la producción, de ahí que<br />
nos vemos en la necesidad de estudiar<br />
una pequeña parte de esta población<br />
(muestra) y las medidas que<br />
obtenemos las consideramos como<br />
representativas de esta.<br />
TIPOS DE VARIABLES<br />
Para poder realizar una estadística<br />
también es necesario identificar la<br />
naturaleza de los datos que conforman<br />
a la población, con el objeto de<br />
establecer las variables que se deben<br />
manejar, pudiendo encontrarnos con<br />
datos cuantitativos y datos<br />
cualitativos. Los datos cuantitativos<br />
son aquellos que resultan de una<br />
medida o de un conteo por lo que los<br />
podemos diferenciar en continuos y en<br />
discretos respectivamente, es decir,<br />
que se pueden obtener datos<br />
cuantitativos que debido a un<br />
instrumento podemos especificar<br />
valores enteros y decimales de tal<br />
forma que sus diferencias serán<br />
establecidas dependiendo de la<br />
exactitud del instrumento al medir<br />
distancias, volúmenes, superficies, etc.<br />
y otros datos que solo se puedan<br />
contar, como es el caso del número de<br />
automóviles en circulación en cierta<br />
ciudad, número de empleados en una<br />
empresa, etc. Los datos cualitativos<br />
resultan de aquellas poblaciones en las<br />
que sus elementos no pueden ser<br />
medidos debido a su naturaleza y que<br />
por lo tanto solo se les pueden<br />
observar atributos y diferencias.<br />
ESCALAS DE MEDICIÓN<br />
En cuanto a las escalas de medición la<br />
estadística cuenta con las siguientes:<br />
Nominal; la cual se utiliza<br />
principalmente en los datos<br />
cualitativos y nos permite manejar la<br />
información por su nombre, como en<br />
los casos de marcas de diferentes<br />
productos,<br />
enfermedades,<br />
preferencias, etc.<br />
Ordinal; aquella que utilizamos<br />
cuando necesitamos establecer<br />
orden entre las diferencias de la<br />
población y sus datos son<br />
cualitativos, por ejemplo, escalas de<br />
calidad (mala, regular, buena, muy<br />
buena), escalas de gusto (muy<br />
sabrosa, sabrosa, agradable,<br />
desagradable, muy desagradable),<br />
etc.
Elaborado por Víctor Herrera Bautista<br />
Intervalo; Se utiliza principalmente<br />
en datos cuantitativos y es una<br />
escala que no cuenta con un cero<br />
absoluto o con un instrumento<br />
estandarizado, por ejemplo, la<br />
temperatura se puede medir en<br />
grados centígrados, Fahrenheit y<br />
kelvin dentro de las cuales los<br />
grados centígrados no cuentan con<br />
un cero absoluto debido a que se<br />
basan en el punto de ebullición del<br />
agua, el cuál es variable en<br />
diferentes altitudes, los Fahrenheit<br />
que tampoco cuentan con un cero<br />
absoluto, ya que este también<br />
cambia con las altitudes con<br />
respecto al nivel del mar, debido a<br />
que se sustenta en el punto de<br />
congelación del agua y los kelvin<br />
que si cuentan con un cero absoluto<br />
ya que queda establecido al vacío<br />
fuera de las diferencias provocadas<br />
por la altitud, otro ejemplo sería el<br />
utilizar una cuerda con nudos para<br />
determinar una Distancia o un<br />
volumen con vasija de barro, ya que<br />
al intentar comprobar esta distancia<br />
o este volumen debemos contar con<br />
la misma cuerda o con la misma<br />
vasija.<br />
Razón; Básicamente utilizada en<br />
datos cuantitativos que pueden ser<br />
medidos con instrumentos<br />
estandarizados o con un cero<br />
absoluto como por ejemplo una<br />
distancia medida en kilómetros, un<br />
volumen medido en centímetros<br />
cúbicos, ventas medidas en pesos,<br />
etc.<br />
Cuando ya se han identificado el<br />
problema que deseamos resolver, la<br />
población, el tipo de datos y las<br />
variables con las que nos acercaremos<br />
a la información entonces será<br />
necesario especificar si es necesario<br />
trabajar solo con la población o con una<br />
muestra así como la forma en la que<br />
obtendremos los datos.<br />
Por lo anterior se describirán las<br />
diferentes formas de obtener una<br />
muestra:<br />
Dentro de la estadística se pueden<br />
obtener muestras que resultan<br />
probabilísticas y las no probabilísticas,<br />
diferenciándose en el método de su<br />
consecución, es decir, cuando<br />
utilizamos un método que nos garantice<br />
que todos los elementos de una<br />
población tienen la misma probabilidad<br />
de ser elegidos estamos trabajando<br />
con un muestreo probabilístico y<br />
cuando la obtención de una muestra<br />
resulte de criterios, juicios, preferencias<br />
o cualquier elemento subjetivo (o en<br />
otras palabras, que no podamos<br />
garantizar que contemos con<br />
elementos equiprobables) entonces<br />
estaremos trabajando con un<br />
muestreo no probabilístico.<br />
De ahí que nos enfocáremos más a los<br />
primeros; subdividiéndolos en:<br />
Aleatorio Simple; el cual requiere del<br />
tamaño de la población “N”, el tamaño<br />
de la muestra “n”, de una tabla de<br />
números aleatorios, especificar si se<br />
realizará con reemplazo o sin él, así<br />
como, de una regla de uso (no debe<br />
ser la misma en todos los casos) y<br />
determinar el número de dígitos que se<br />
utilizarán. Por ejemplo; si me intereso<br />
en determinar el nivel socioeconómico<br />
de las personas que se encuentran<br />
trabajando dentro de una empresa y<br />
deseo que todos sus integrantes<br />
tengan la misma probabilidad de ser<br />
elegidos entonces realizo lo siguiente:<br />
determino el número total de
Elaborado por Víctor Herrera Bautista<br />
empleados (N=200), el número de<br />
personas que integrarán la muestra<br />
(n=10), selecciono una regla para<br />
utilizar mi tabla de números aleatorios<br />
(lanzaré mi lápiz y donde caiga leeré de<br />
3 en 3 dígitos sobre la misma columna<br />
hacia abajo hasta terminarla y cuando<br />
esto suceda continuare leyendo en la<br />
siguiente columna hasta terminar de<br />
obtener los diez datos). Supongamos<br />
que la tabla es la siguiente<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
1 2 3 1 2 1 0 8 7 6 5 9 7 8 1 0 0 3 4 9 8 0 0 9 7 1<br />
2 5 5 6 3 8 9 0 9 6 7 5 9 0 7 6 4 2 3 1 6 5 6 3 3 2<br />
3 9 6 4 1 2 3 0 0 4 6 1 7 9 2 1 4 3 9 1 5 2 3 9 0 8<br />
4 3 2 8 9 2 9 3 4 6 5 9 4 7 7 2 6 2 1 5 9 0 7 1 9 9<br />
5 3 6 1 0 0 4 0 7 0 5 1 5 3 9 1 0 1 2 1 8 5 9 4 4 6<br />
6 5 3 3 4 7 1 9 5 4 5 2 4 6 4 2 9 6 5 4 3 9 4 2 1 7<br />
7 4 3 1 0 3 3 7 8 7 3 7 5 3 5 0 2 6 4 1 1 0 2 7 0 2<br />
8 2 2 8 6 5 6 7 2 7 1 6 4 1 8 6 5 4 3 7 1 2 6 6 1 0<br />
9 0 4 1 6 5 7 6 4 2 0 3 4 5 2 1 5 9 6 8 7 6 0 5 6 4<br />
10 9 1 7 0 3 6 6 7 3 1 2 2 8 4 6 8 3 8 9 9 7 3 5 8 0<br />
11 6 0 6 7 7 0 6 8 7 7 1 2 4 3 4 3 3 3 4 4 0 9 7 8 1<br />
12 8 2 7 3 2 9 2 8 3 8 2 1 0 7 1 2 7 7 5 7 1 3 8 5 9<br />
13 6 0 6 7 4 5 8 9 6 0 9 4 9 5 1 5 1 0 7 2 0 5 5 0 6<br />
14 7 8 0 2 4 8 1 5 8 2 8 5 5 5 2 1 2 4 8 4 8 8 9 3 5<br />
y que al arrojar el lápiz cayó en el<br />
renglón 5 columna 7, entonces, las<br />
personas que debemos seleccionar<br />
serán 097,766, 628,179, 047, 582, 478,<br />
895, 664, 604, 772, 373, 685, 765, 553,<br />
101, 780, 295, 191, 276, 321, 298, 797,<br />
454, 544, 221, 458, 097,363, 158, 409,<br />
517, 279, 458, 243, 755, 061, 212,<br />
061, 641, 112, tomando en cuenta que<br />
es un muestreo con reemplazo.<br />
Sistemático; Este muestreo permite<br />
obtener los elementos de cada k -<br />
ésima unidad de la población, y para<br />
ello se requiere conocer el tamaño de<br />
la población (N), el de la muestra (n) y<br />
obtener el valor de k, de tal forma que<br />
al tener estos datos escojamos al<br />
primer dato por medio de aleatorio<br />
simple y de ahí de k en k. Por ejemplo;<br />
si tenemos la necesidad de extraer una<br />
muestra de 20 artículos de 1000<br />
unidades producidas entonces<br />
deberemos dividir 1000/20 obteniendo<br />
50 por lo que el primer número lo<br />
seleccionamos de nuestra tabla de<br />
números aleatorios obteniendo el<br />
número 12, por lo que, los siguientes<br />
números deberán ser 12+k, 12+2k,<br />
etc., es decir, 12, 62,112, 162, 212,<br />
262, 312, 362, 412, 462, 512, etc.<br />
87 65 78 87 60 87 34 31 43 87<br />
78 90 65 68 62 70 80 61 62 72<br />
95 64 80 90 68 80 30 35 40 75<br />
59 68 65 92 70 78 95 33 72 65<br />
70 95 50 75 31 60 43 78 70 60<br />
65 60 30 90 40 80 59 27 92 65<br />
Estratificado; Este tipo de muestreo<br />
requiere tener una población bien<br />
clasificada en varios grupos llamados<br />
estratos, que a su interior se<br />
mantengan bastante homogéneos,<br />
para construir la muestra normalmente<br />
se toma una cantidad de elementos del<br />
mismo tamaño de cada uno de los<br />
estratos, este debe ser mediante el<br />
muestreo aleatorio simple (m.a.s.);<br />
aunque en algunos casos cuando las<br />
proporciones de los estratos son<br />
distintas se toman en cuenta.<br />
Por conglomerados; En este caso la<br />
muestra nos presenta gran dificultad<br />
para establecer sus diferencias, por lo<br />
que iniciamos seleccionando en forma<br />
aleatoria una muestra de<br />
conglomerados, ya que, cada uno de<br />
ellos podría representar una muestra,<br />
posteriormente se deberá elaborar un<br />
censo para poder establecer las<br />
proporciones de las diferentes<br />
categorías que se encuentren<br />
presentes en nuestra muestra.<br />
Ahora bien, después de determinar qué<br />
tipo de variables utilizaremos, de que<br />
formas las vamos a medir y si<br />
será necesario obtener una<br />
muestra nuestra siguiente<br />
decisión a tomar dentro del<br />
método estadístico será el de<br />
especificar si usaremos los datos en<br />
forma agrupada o no agrupada.<br />
Para el caso de querer agrupar los<br />
datos, entonces deberemos crear una<br />
tabla de distribución de frecuencias<br />
y para ello los pasos que debemos<br />
seguir son los siguientes:<br />
Se debe conocer el número total de<br />
datos (N).<br />
K<br />
<br />
N<br />
n
Elaborado por Víctor Herrera Bautista<br />
Se elaborará el Diagrama de Tallo y<br />
Hojas, buscando la cifra que haga más<br />
evidente el cambio para formar el tallo<br />
y los demás valores formarán las hojas;<br />
por ejemplo:<br />
Supongamos que tenemos los<br />
siguientes datos:<br />
Un restaurante establece, sobre la<br />
base de sus registros, que el número<br />
de comensales que hicieron uso de su<br />
servicio día con día, durante los últimos<br />
dos meses a la hora de la comida, son<br />
los que se presentan a continuación:<br />
Nos podemos percatar que en este<br />
caso las cifras significativas son las que<br />
representan a las decenas por lo que el<br />
diagrama quedará compuesto de la<br />
siguiente forma:<br />
2 7<br />
3 0 0 1 1 3 4 5<br />
4 0 0 3 3<br />
5 0 9 9<br />
6 0 0 0 0 1 2 2 4 5 5 5 5 5 5 8 8 8<br />
7 0 0 0 0 2 2 5 5 8 8 8<br />
8 0 0 0 0 7 7 7 7 8<br />
9 0 0 0 2 2 5 5 5<br />
Nótese que este diagrama nos sirve<br />
para encontrar los valores mínimos y<br />
máximos de forma más rápida, también<br />
nos permitió ordenar a los datos en<br />
forma más sencilla y por último nos<br />
muestra al menos el comportamiento<br />
de la forma en el conjunto de datos.<br />
El siguiente paso es obtener el Rango<br />
mediante la siguiente relación, en la<br />
que nos debemos cuestionar su<br />
Rango = dato mayor - dato menor<br />
significado, ya que, no representa una<br />
diferencia simplemente sino que, más<br />
bien es nuestra primer medida<br />
estadística que representa la máxima<br />
dispersión que vamos a encontrar en<br />
nuestro conjunto de datos, así<br />
tendremos: 95-27 = 68<br />
1) Obtenemos la raíz de N y el<br />
resultado redondeado siempre a valor<br />
entero nos dará en número de<br />
renglones (en nuestro ejemplo<br />
tendremos 60 77459666 . 8 )<br />
2) Seleccionar de una tabla, el número<br />
de renglones representados por K y el<br />
número que más se aproxime al<br />
número de datos en la columna<br />
denominada con la letra N por ejemplo<br />
en nuestro problema tenemos 60 datos,<br />
por lo que, la tabla nos sugiere utilizar 5<br />
intervalos para poderlos agrupar<br />
adecuadamente.<br />
Número de Intervalos: No debe<br />
ser menor de 6 ni mayor de 15.<br />
Se puede establecer:<br />
- al gusto del investigador<br />
- n redondeado al siguiente<br />
entero<br />
- utilizando la tabla<br />
- mediante la expresión<br />
2<br />
k n<br />
3) Escoger el número de renglones o<br />
intervalos a juicio del investigador,<br />
tomando en cuenta que si no se tiene<br />
experiencia en este tipo de problemas<br />
el diagrama de tallo y hojas puede<br />
proporcionarnos una buena cantidad de<br />
renglones para nuestro objetivo, en<br />
nuestro ejemplo el diagrama sugiere 8<br />
renglones.<br />
El paso siguiente para elaborar la tabla<br />
de distribución de frecuencias es<br />
calcular el tamaño de intervalo,<br />
rango<br />
i <br />
K<br />
Tamaño de<br />
intervalo<br />
Número de<br />
renglones<br />
Posteriormente debemos determinar la<br />
cantidad de intervalos o clases<br />
deseamos utilizar para clasificar o<br />
agrupar nuestra información y para ello<br />
contamos con tres procedimientos al<br />
menos:
Elaborado por Víctor Herrera Bautista<br />
f en nuestro caso resultará de 9,<br />
después 8 de haber redondeado hacia<br />
arriba, 4 por lo que procederemos a<br />
calcular 1 los límites de los intervalos,<br />
comenzando 9<br />
con los límites inferiores<br />
sumándole 14 al número más pequeño el<br />
tamaño 11 del intervalo (i) “K” veces, en<br />
nuestro 5 ejemplo tendríamos:<br />
8<br />
Nótese que al dato menor se le<br />
ha sumado el tamaño de<br />
intervalo que es 9<br />
resultándonos el siguiente y así<br />
sucesivamente hasta sumarle el<br />
tamaño del intervalo 8 veces<br />
(que es el número de renglones<br />
que hemos escogido).<br />
LI<br />
27<br />
36<br />
45<br />
54<br />
63<br />
72<br />
81<br />
90<br />
99<br />
Posteriormente debemos<br />
calcular los límites superiores y<br />
para ello debemos considerar<br />
que los intervalos que nos encontramos<br />
construyendo son intervalos cerrados,<br />
es decir, intervalos que incluyen a sus<br />
extremos, de esta manera observamos<br />
que los números que deben estar en el<br />
primer intervalo son 27, 28, 29, 30, 31,<br />
32, 33, 34 y 35, o sea, nuestro límite<br />
superior es 35 en lugar de 36 que es el<br />
resultado de sumar 27+9, por lo que<br />
debemos disminuir el resultado una<br />
unidad. (Por lo anterior los límites<br />
superiores que nos quedan en nuestro<br />
ejemplo son tomados de los inferiores<br />
pero con una unidad menos).<br />
El siguiente paso será determinar la<br />
frecuencia ( f ) o número de datos que<br />
caen dentro de los intervalos que<br />
hemos generado por lo que debemos<br />
contestar a la pregunta de ¿cuántos<br />
datos se encuentran entre tal valor y tal<br />
otro?, es decir, en nuestro ejemplo<br />
li + ls lri + lrs<br />
x = =<br />
2 2<br />
vemos que debemos preguntarnos<br />
¿cuántos datos hay entre los valores<br />
de 27 y 35?, pudiendo observar en el<br />
diagrama de tallo y hojas que contamos<br />
con 8 datos, y así sucesivamente hasta<br />
terminar de preguntarnos los demás<br />
intervalos teniendo:<br />
De esta manera ahora ya contamos<br />
con una tabla de distribución de<br />
frecuencias la cual nos permitiera crear<br />
nuevas columnas que nos facilitarán la<br />
tarea de describir una<br />
realidad y con ello<br />
resolver un problema<br />
mediante<br />
importantes.<br />
decisiones<br />
Una de las columnas 8 128<br />
que podemos generar etc. etc.<br />
puede ser la que representa a la<br />
frecuencia acumulada ( fa<br />
K N<br />
4 8<br />
5 16<br />
6 32<br />
7 64<br />
i<br />
i<br />
f<br />
j<br />
),<br />
j1<br />
es decir, la que nos responderá a la<br />
pregunta de ¿cuántos datos se fueron<br />
presentando desde el primer intervalo<br />
hasta el último?, Dé esta forma<br />
tendremos:<br />
Así, con esta columna podemos decir<br />
que 8 días tuvimos entre 25 y 37<br />
comensales, 12 días entre 25 y 44,<br />
etc.<br />
fa<br />
8<br />
12<br />
13<br />
22<br />
36<br />
47<br />
52<br />
60<br />
Después debemos encontrar<br />
un número que representa a<br />
todo el intervalo, ya que, es<br />
más sencillo hablar de un solo<br />
dato a un intervalo.<br />
Este número se llama marca de<br />
clase o punto medio el cual<br />
quedará representado por una “x”<br />
y se calcula utilizando los límites o los<br />
límites reales o verdaderos, mediante<br />
la siguiente relación:<br />
En donde “li” representa al límite<br />
inferior “ls” al límite superior y “lri”, “lrs”<br />
a los límites reales.<br />
Nótese que la marca de clase puede<br />
obtenerse con los límites que habíamos<br />
obtenido o con los límites reales, los<br />
cuales resultan de las siguientes<br />
acciones.<br />
Es importante lograr establecer un<br />
intervalo continuo para poder hacer<br />
análisis estadístico de todo el conjunto<br />
de datos y que a la vez no nos limite<br />
este mismo conjunto.<br />
Para obtener un límite real debemos<br />
tomar los valores de los límites que<br />
LS<br />
35<br />
44<br />
53<br />
62<br />
71<br />
80<br />
89<br />
98
Elaborado por Víctor Herrera Bautista<br />
presentan un “hito” de información<br />
(como es el caso de 44 y 45 en nuestro<br />
ejemplo) y encontrar un punto que<br />
represente ese intervalo con la fórmula<br />
que hemos utilizado con las marcas de<br />
clase.<br />
Ahora procederemos a calcular la<br />
frecuencia relativa ( fr ) la cual nos<br />
representa la proporción que le<br />
corresponde a cada intervalo con<br />
respecto al total de datos mediante la<br />
fórmula:<br />
fr =<br />
f<br />
N<br />
Al tener la frecuencia relativa entonces<br />
también nos podemos preguntar cuál<br />
es la proporción acumulada<br />
( fra <br />
x 100<br />
i<br />
fr j<br />
j1<br />
i<br />
Es la<br />
frecuencia de<br />
cada renglón<br />
Es el número total<br />
de datos o en otras<br />
palabras la suma<br />
de “f”<br />
) por renglón de la misma<br />
forma que lo hicimos para la<br />
frecuencia.<br />
fr fra Como estas columnas<br />
13 13 representan<br />
la<br />
7 20 proporción que le<br />
2<br />
15<br />
23<br />
18<br />
22<br />
37<br />
60<br />
78<br />
corresponde a cada una<br />
de las frecuencias en<br />
cada renglón entonces<br />
también podríamos crear<br />
8 87 una columna que<br />
13 100 representara los grados<br />
dentro de una<br />
circunferencia con el objetivo de crear<br />
una gráfica de pastel o de pay también<br />
llamada gráfica de sectores.<br />
cualitativos o cuantitativos. Un círculo<br />
se divide en sectores que representan,<br />
proporcionalmente, cada clase. No es<br />
recomendable representar más de 6<br />
clases.<br />
Se suelen ordenar los sectores para<br />
hacer más evidente sus diferencias.<br />
A partir de la frecuencia relativa, se<br />
obtienen los grados:<br />
grados fr 360 O grados % 3.6<br />
i<br />
Gráfica de Barras:<br />
Puede representar datos cualitativos o<br />
cuantitativos. Consiste en barras que<br />
representan a las clases. La altura de<br />
cada barra es igual a la frecuencia o<br />
frecuencia relativa de la clase. El eje<br />
horizontal no es la recta numérica por<br />
lo que las barras se presentan<br />
separadas<br />
Histogramas:<br />
i<br />
i<br />
i<br />
Gráfica de Pastel (Pie, Circular o de<br />
Sectores): Puede representar datos
Elaborado por Víctor Herrera Bautista<br />
Permite comparar visualmente las<br />
proporciones o magnitudes de las<br />
clases.<br />
Solo representa datos cuantitativos.<br />
Muy semejante a la gráfica de barras.<br />
Se representa sobre el eje cartesiano,<br />
donde el eje horizontal representa las<br />
fronteras o las marcas de clase. El área<br />
de las barras representa<br />
proporcionalmente cada clase.<br />
Polígono: Hace evidente la forma de la<br />
distribución de frecuencias de los<br />
datos. Solo representa datos<br />
cuantitativos. Es una gráfica de puntos<br />
y líneas. Relaciona las marcas de clase<br />
con sus frecuencias o frecuencias<br />
relativas. Como el área total de las<br />
barras del histograma debe<br />
mantenerse igual al área debajo del<br />
polígono, el polígono empieza en una<br />
marca de clase anterior y termina en<br />
una marca de clase posterior a las de<br />
la tabla de frecuencias.<br />
Ojiva:<br />
2) Ojiva "O más": "¿cuántas<br />
observaciones hay iguales o mayores a<br />
esta fronteras?". Es una curva<br />
decreciente que empieza en el total de<br />
observaciones y termina en cero.<br />
FUENTES DE DATOS.<br />
Ahora nos interesa describir la forma<br />
en que la estadística se hace llegar la<br />
información para poder trabajarla. En<br />
principio podemos decir que hay dos<br />
tipos de estudios estadísticos; aquellos<br />
que involucran la toma de decisiones<br />
respecto a una población y/o sus<br />
características, es decir, el estudio<br />
enumerativo y el segundo llamado<br />
estudio analítico que involucra realizar<br />
actividad sobre un proceso para<br />
mejorar el desempeño en el futuro.<br />
Después de haber decidido qué tipo de<br />
estudio se debe realizar entonces<br />
podremos encontrar la información en<br />
tres tipos de fuentes:<br />
1) La bibliográfica<br />
Equivalen a los polígonos de frecuencia<br />
acumulada. Relacionan las fronteras<br />
inferiores con los valores acumulados<br />
de frecuencia. Su aplicación se<br />
concreta a responder preguntas como:<br />
¿qué proporción acumulada le<br />
corresponde a este dato?, ¿Qué dato<br />
corresponde a esta proporción<br />
acumulada? Hay dos criterios para<br />
construir ojivas:<br />
1) Ojiva "Menor que": "¿cuántas<br />
observaciones son menores que esta<br />
frontera?". Es una curva creciente que<br />
empieza en frecuencia cero y termina<br />
en el total de observaciones.<br />
2) La experimentación<br />
3) La entrevista.<br />
Dentro<br />
de la<br />
informaci<br />
ón<br />
bibliográf<br />
ica
Elaborado por Víctor Herrera Bautista<br />
podemos decir que está representada<br />
por la información impresa y quedan<br />
incluidas las nuevas fuentes tales como<br />
la información obtenida en Internet,<br />
discos compactos, y cualquier otro<br />
medio digital que permita obtener<br />
información almacenada. Las ventajas<br />
de este tipo de datos quedan<br />
manifiestas por la velocidad de<br />
obtención de la información, ya que, tal<br />
vez pueda estar clasificada y ordenada,<br />
además de evitarnos la pérdida de<br />
tiempo para recopilar esta información.<br />
La desventaja es que muchas veces la<br />
información no es actualizada o que la<br />
información no se apegue exactamente<br />
a nuestro problema.<br />
La experimentación en forma contraria<br />
a la bibliográfica tiene como ventaja<br />
que la información obtenida es<br />
exactamente de nuestro problema,<br />
pero esto implica que se requiera de un<br />
grupo de investigadores, de<br />
presupuesto, así como de todos los<br />
insumos para su funcionamiento.<br />
c) Directa.<br />
Cada una de ellas tiene sus ventajas y<br />
sus desventajas pero también son<br />
utilizadas en la actualidad, así como,<br />
una serie de versiones que mezclan<br />
estos tres tipos, por ejemplo en los<br />
noticieros televisivos hacen una<br />
pregunta y dan dos diferentes teléfonos<br />
o tres para recibir las respuestas.<br />
En cuanto a la entrevista podemos<br />
decir que contamos al menos con tres<br />
tipos diferentes:<br />
a) Por correo<br />
b) Por teléfono
Elaborado por Víctor Herrera Bautista<br />
NOTACIÓN SUMA.<br />
En la operación de adición o suma, se presenta con frecuencia en la estadística el<br />
símbolo (sigma) para denotar “tomar la suma de”. A continuación se presenta un<br />
ejemplo donde se tiene un conjunto de valores n para alguna variable X.<br />
n<br />
X i<br />
i 1<br />
, esta<br />
expresión indica que estos n valores deben sumarse. Por consiguiente:<br />
n<br />
<br />
i 1<br />
X<br />
i<br />
X<br />
1<br />
X<br />
2<br />
X<br />
3<br />
...<br />
X<br />
n<br />
Ejemplo Se encuentran cinco observaciones para la variable<br />
X X 2, X 0, X 1,<br />
X 5 y X 7 .Por lo tanto:<br />
5<br />
<br />
i1<br />
:<br />
1 2<br />
3<br />
4<br />
5<br />
<br />
X<br />
i<br />
X<br />
1<br />
X<br />
2<br />
X<br />
3<br />
X<br />
4<br />
X<br />
5<br />
2 0 ( 1)<br />
5 7 13<br />
En estadística nos vemos involucrados muy a menudo con la suma de los valores al<br />
cuadrado de una variable. Por lo tanto.<br />
n<br />
<br />
i 1<br />
X<br />
2<br />
i<br />
X<br />
2<br />
1<br />
X<br />
2<br />
2<br />
X<br />
2<br />
3<br />
2<br />
... X<br />
n<br />
Y en nuestro ejemplo, tenemos:<br />
5<br />
<br />
i1<br />
2<br />
X<br />
2<br />
2<br />
i<br />
0<br />
X<br />
2<br />
2<br />
1<br />
X<br />
( 1)<br />
5<br />
4 0 1<br />
25<br />
49<br />
79<br />
2<br />
2<br />
2<br />
X<br />
2<br />
2<br />
3<br />
7<br />
X<br />
2<br />
2<br />
4<br />
X<br />
2<br />
5
Elaborado por Víctor Herrera Bautista<br />
n<br />
X i<br />
i1<br />
Se debe observar, aquí que<br />
a<br />
n<br />
X<br />
i1<br />
I<br />
2<br />
<br />
<br />
<br />
, el cuadrado de la suma, esto es<br />
2 , la sumatoria de los cuadrados no es igual<br />
n<br />
<br />
i1<br />
X<br />
2<br />
i<br />
<br />
<br />
<br />
n<br />
<br />
i1<br />
2<br />
<br />
X<br />
i <br />
<br />
En nuestro ejemplo, la sumatoria de los cuadrados es igual a 79. Esto no es igual al<br />
cuadrado de la suma, cuyo resultado es 13 2 169<br />
Otra operación que se utiliza con frecuencia implica la sumatoria del producto. Esto es,<br />
suponiendo que tenemos dos variables, X y Y, cada una con n observaciones.<br />
Entonces,<br />
n<br />
<br />
i 1<br />
X Y<br />
i<br />
i<br />
X Y X Y<br />
1<br />
1<br />
2<br />
2<br />
X<br />
3<br />
Y<br />
3<br />
... X<br />
n<br />
Y<br />
n<br />
Continuando con el ejemplo anterior, suponiendo que también se tiene una segunda<br />
variable Y cuyos valores son Y , Y 3, Y 2,<br />
Y 4 y Y 3 Entonces,<br />
5<br />
<br />
i 1<br />
(2)(1) (0)(3) ( 1)(<br />
2)<br />
(5)(4) (7)(3)<br />
2 0 2 20 21<br />
45<br />
X Y<br />
i<br />
i<br />
X Y<br />
1<br />
n<br />
i1<br />
1<br />
X Y<br />
2<br />
2<br />
X Y<br />
3<br />
1<br />
1<br />
2 3<br />
4<br />
5<br />
<br />
3<br />
X Y<br />
4<br />
4<br />
X Y<br />
Al calcular X i<br />
Yi<br />
debemos tomar en cuenta que el primer valor de X por el primer<br />
valor de Y más el segundo valor de X por el segundo de Y, y así sucesivamente. Estos<br />
productos cruzados luego se suman con el propósito de obtener el resultado deseado.<br />
Sin embargo, debemos observar en este punto que la sumatoria de productos<br />
cruzados no es igual al producto de las sumas individuales, es decir;<br />
n<br />
n n<br />
<br />
<br />
<br />
i1<br />
X<br />
iYi<br />
<br />
<br />
<br />
i1<br />
X<br />
i<br />
<br />
<br />
<br />
i1<br />
Yi<br />
<br />
<br />
5<br />
<br />
En nuestro ejemplo, X 13 y Y 1<br />
3 ( 2)<br />
4 3 9 de modo<br />
i 1<br />
i<br />
5<br />
5<br />
<br />
i 1<br />
5 5<br />
n<br />
<br />
<br />
que<br />
X<br />
i<br />
Yi<br />
(13)(9) 117. Esto no es lo mismo que X i<br />
Yi<br />
, que es igual a<br />
i1<br />
<br />
i1<br />
<br />
i1<br />
45.<br />
Antes de estudiar las cuatro reglas básicas para efectuar operaciones con notación<br />
sigma, será de ayuda presentar los valores de cada una de las cinco observaciones de<br />
X y de Y en forma de tabla:<br />
5<br />
i<br />
Observación X i<br />
Y i
Elaborado por Víctor Herrera Bautista<br />
1<br />
2<br />
3<br />
4<br />
5<br />
2<br />
0<br />
-1<br />
5<br />
7<br />
1<br />
3<br />
-2<br />
4<br />
3<br />
5<br />
<br />
i1<br />
X 13<br />
Y 9<br />
i<br />
5<br />
<br />
i1<br />
i<br />
Regla 1: La sumatoria de los valores de dos variables es igual a la suma de los<br />
valores de cada variable sumada.<br />
n<br />
<br />
i1<br />
X<br />
i<br />
Yi<br />
X<br />
i<br />
<br />
n<br />
i1<br />
En nuestro ejemplo:<br />
5<br />
<br />
i 1<br />
<br />
n<br />
i1<br />
3 3 ( 3)<br />
9 10 22<br />
5<br />
<br />
i 1<br />
X<br />
X<br />
i<br />
i<br />
Y<br />
<br />
5<br />
i<br />
<br />
i 1<br />
Y<br />
Y<br />
13 9 22<br />
i<br />
(2 1) (0 3) ( 1<br />
( 2))<br />
(5 4) (7 3)<br />
i<br />
Regla 2: La sumatoria de una diferencia entre los valores de dos variables es igual a<br />
la diferencia entre los valores sumados de las variables.<br />
n<br />
<br />
i1<br />
( X<br />
i<br />
Y<br />
) <br />
i<br />
n<br />
<br />
i1<br />
X<br />
i<br />
<br />
n<br />
<br />
i1<br />
Por consiguiente, en nuestro ejemplo,<br />
5<br />
<br />
i1<br />
<br />
X<br />
1<br />
( 3)<br />
11<br />
4<br />
4 <br />
i<br />
Y<br />
5<br />
<br />
i1<br />
i<br />
X<br />
<br />
i<br />
Y<br />
i<br />
(2 1)<br />
(0 3) ( 1<br />
( 2))<br />
(5 4) (7 3)<br />
<br />
5<br />
<br />
i1<br />
Y 13<br />
9 4<br />
i<br />
Regla 3: La sumatoria de una constante por una variable es igual a la constante que<br />
multiplica a la sumatoria de los valores de la variable.<br />
n<br />
<br />
i1<br />
cX<br />
i<br />
c<br />
n<br />
<br />
i1<br />
X<br />
i<br />
En la que c es una constante.<br />
Por tanto, en nuestro ejemplo, c =2<br />
5<br />
<br />
i 1<br />
4 0 ( 2)<br />
10<br />
14<br />
26<br />
2<br />
cX<br />
5<br />
<br />
i 1<br />
X<br />
i<br />
i<br />
<br />
5<br />
<br />
i 1<br />
2X<br />
(2)(13)<br />
26<br />
i<br />
(2)(2) (2)(0) (2)( 1)<br />
(2)(5) (2)(7)
Elaborado por Víctor Herrera Bautista<br />
Regla 4: Una constante sumada n veces será igual a n veces al valor de la constante.<br />
n<br />
<br />
i 1<br />
c nc<br />
En la que c es una constante. Así pues, si la constante c =2 se suma cinco veces<br />
tendremos:<br />
5<br />
<br />
i 1<br />
c 2 2 2 2 2 10<br />
(5)(2) 10<br />
En el caso de que i 1 entonces n = (valor final - valor inicial)+ 1<br />
7<br />
<br />
i 2<br />
c 2 2 2 2 2 2 12<br />
((7 2) 1) * (2) 12<br />
Para ilustrar cómo se utilizan las reglas de la sumatoria, podemos mostrar una de las<br />
propiedades matemáticas pertenecientes al promedio o media aritmética.<br />
n<br />
X<br />
X i <br />
i1<br />
0<br />
Esta propiedad establece que la sumatoria de las diferencias entre cada observación y<br />
la media aritmética es cero. Esto se puede probar matemáticamente de la siguiente<br />
manera:<br />
1.- De la ecuación (4.1),<br />
n<br />
<br />
X<br />
i<br />
i <br />
x 1<br />
n<br />
Así pues, utilizando la regla 2 de la sumatoria, tenemos:<br />
n<br />
n n<br />
X<br />
i<br />
X X<br />
i<br />
<br />
i 1<br />
i 1<br />
i 1<br />
X<br />
2.- Puesto que, para cualquier conjunto fijo de datos, X Puede ser considerada como<br />
una constante, de la regla 4 de la sumatoria tenemos:<br />
n<br />
<br />
i 1<br />
X nX<br />
Por consiguiente,<br />
n<br />
n<br />
Xi<br />
X Xi<br />
nX<br />
i 1<br />
i 1<br />
3.- Sin embargo, de la ecuación (4.1), puesto que<br />
n<br />
<br />
Xi<br />
n<br />
i <br />
X 1 Después n X <br />
n<br />
Por consiguiente,<br />
n<br />
n n<br />
X<br />
i<br />
X X<br />
i<br />
<br />
i1<br />
i1<br />
i1<br />
X<br />
i<br />
X i<br />
i 1<br />
De esta manera se ha demostrado que:
Elaborado por Víctor Herrera Bautista<br />
n<br />
X<br />
i<br />
X 0<br />
i1<br />
PROBLEMA para ejercitar<br />
Suponiendo que se tienen seis observaciones de las variables X y Y tales que<br />
X , X 1, X 5, X 3,<br />
X 1, X 2yY<br />
4, Y 0, Y 1,<br />
Y 2, Y 7, Y <br />
1<br />
2<br />
2 3 4<br />
5 6<br />
1 2 3 4 5 6<br />
<br />
Calcule cada una de las siguientes sumatorias.<br />
3<br />
6<br />
a) X<br />
i1<br />
6<br />
c) X<br />
i1<br />
6<br />
i<br />
2<br />
i<br />
e) X i<br />
Yi<br />
i1<br />
6<br />
b)Y<br />
i<br />
i1<br />
6<br />
d)Y<br />
i<br />
i1<br />
6<br />
<br />
2<br />
f) X<br />
<br />
i1<br />
i<br />
Y i<br />
6<br />
<br />
g) <br />
i1<br />
6<br />
<br />
6<br />
2<br />
X<br />
i<br />
Y i<br />
h) X<br />
i<br />
3Y<br />
i<br />
2X<br />
i<br />
<br />
i) cX<br />
i<br />
,<br />
c 1<br />
j) X<br />
3Y<br />
c,<br />
c 3<br />
i1<br />
i1<br />
6<br />
<br />
i1<br />
i<br />
i
Elaborado por Víctor Herrera Bautista<br />
MEDIDAS DE CENTRALIZACIÓN<br />
El objetivo principal de las medidas de tendencia central es poder representar por<br />
medio de un solo número al conjunto de datos, es decir, dan valores representativos<br />
de la distribución de frecuencias, situados en algún lugar intermedio, alrededor del<br />
cual, se encuentran los otros valores. Nos indican dónde tienden a concentrarse los<br />
valores.<br />
Existen tres medidas de tendencia central generales, que son, la Media aritmética, la<br />
Mediana y la Moda; así como otras que se utilizan en casos particulares como la<br />
Media ponderada, la Media Armónica, la Media Geométrica, la Media Cuadrática.<br />
MEDIDAS DE TENDENCIA CENTRAL GENERALES.<br />
,<br />
x<br />
Media Aritmética: Es el promedio de los datos, y su objetivo principal<br />
es encontrar el valor que debería de estar en el centro. Su ventaja<br />
principal es que es la única medida en la que x<br />
x 0 , su<br />
inconveniente es que se ve influida por valores extremos.<br />
Datos No Agrupados:<br />
<br />
x<br />
=<br />
n<br />
X<br />
i 1<br />
i<br />
n<br />
X= cualquier dato<br />
Número total de datos<br />
Ejemplo: Calcular la media aritmética de los números 10, 12, 36, 25,58<br />
1012<br />
36<br />
25<br />
58 121<br />
x <br />
24.2<br />
5<br />
5
Elaborado por Víctor Herrera Bautista<br />
Datos Agrupados:<br />
x =<br />
k<br />
<br />
i1<br />
f<br />
i<br />
*X<br />
n<br />
i<br />
Frecuencia por la marca de clase de cualquier renglón<br />
Número total de datos<br />
Dónde: k = última clase<br />
Nota: La media muestral se denota X, la media poblacional se conoce como .<br />
Ejemplo: calcular el salario promedio de:<br />
Salario<br />
(X)<br />
No. De emp.<br />
(F)<br />
$15,000 18<br />
$20,000 35<br />
$25,000 29<br />
Como f 82 n sustituimos en la formula y se<br />
Obtiene:<br />
x <br />
15000*18 20000*35 25000* 29<br />
82<br />
1695000<br />
$20,670.70<br />
82<br />
Mediana x ~ : Es el valor central, el que delimita al 50% de los datos, es decir, es el<br />
valor que se encuentra exactamente en la mitad de los datos.<br />
Datos No agrupados: En los datos ordenados se aplica la siguiente relación,<br />
para encontrar la posición de los datos.<br />
posición n 1 ; En donde n = número total de datos<br />
2<br />
Entonces podemos tener sólo dos alternativas<br />
a) El valor de la posición puede ser entero y lo único que debemos hacer es contar el<br />
número de lugares que nos indica esta fórmula.<br />
b) El valor de la posición nos da un valor decimal (.5) y entonces debemos: sumar los<br />
valores involucrados y dividirlos entre 2. Por ejemplo; si tenemos los valores 5, 7,<br />
8, 13 entonces la posición nos da 2.5 por que tendremos que seleccionar a los<br />
números 7 y 8 para luego sumarlos (15) y dividirlos entre 2 (7.5)<br />
Datos Agrupados:<br />
Se localiza la clase o renglón que contiene a la mediana, con la siguiente condición
Elaborado por Víctor Herrera Bautista<br />
n +1<br />
fa , es decir debemos encontrar la primera frecuencia acumulada que<br />
2<br />
sea mayor o igual a la posición, para posteriormente aplicar la siguiente<br />
fa<br />
formula: X ~ posición<br />
<br />
= FI + <br />
anterior *<br />
i donde:<br />
f <br />
FI Fa F i<br />
Frecuencia Frecuencia<br />
acumulada del renglón de<br />
anterior al la mediana<br />
renglón de la<br />
mediana<br />
Frontera o<br />
límite<br />
verdadero<br />
inferior del<br />
renglón de la<br />
mediana<br />
Tamaño de<br />
intervalo en el<br />
renglón de la<br />
mediana<br />
Nota: Si la posición, en los datos no agrupados, es decimal (.5), se toma el promedio<br />
del dato anterior y el siguiente.<br />
Ejemplo: Calcular el sueldo mediano de:<br />
Fronteras($) Salario<br />
(X)<br />
12,500- $15,00<br />
17,500 0<br />
17,500- $20,00<br />
22,500 0<br />
22,500- $25,00<br />
27,500 0<br />
No. De emp.<br />
(F)<br />
18<br />
35<br />
29<br />
Primero se obtiene la posición:<br />
posición <br />
821<br />
41.5<br />
2<br />
Entonces buscamos el renglón de la mediana buscando la fa igual o más grande de<br />
41.5, como 18+35 = 53, entonces decimos que es el segundo renglón o clase donde<br />
se encuentra la mediana y aplicamos la fórmula:<br />
fa<br />
41.5-18<br />
X ~ posición<br />
<br />
= FI +<br />
anterior <br />
<br />
*i<br />
17500<br />
*5000<br />
$20,857.14<br />
f <br />
35 <br />
Moda Xˆ : Es el valor más frecuente, el que se observa mayor número de veces.<br />
Datos No Agrupados: Después de ordenar los datos buscamos el valor que más se<br />
repite.
Elaborado por Víctor Herrera Bautista<br />
Ejemplo: Encontrar la moda de; 47, 48, 49, 49, 49, 51, 51, 52. Podemos observar que<br />
el número que más se repite es el 49. Si ningún valor se repite, no existe moda<br />
Datos Agrupados:<br />
Se localiza la clase modal buscando la frecuencia más alta y después se aplica la<br />
siguiente fórmula:<br />
1<br />
<br />
Xˆ = FI +<br />
<br />
*i<br />
1<br />
<br />
2 <br />
donde : f f<br />
<br />
1<br />
2<br />
f f<br />
anterior<br />
posterior<br />
Nota: La distribución puede ser: amodal, unimodal, bimodal, trimodal,...., polimodal.<br />
Ejemplo: Calcular el salario que más se repite en:<br />
Fronteras($) Salario<br />
(X)<br />
12,500- $15,00<br />
17,500 0<br />
17,500- $20,00<br />
22,500 0<br />
22,500- $25,00<br />
27,500 0<br />
No. De emp.<br />
(F)<br />
18<br />
35<br />
29<br />
Observamos las frecuencias (No. de empleados) y decimos que la clase modal es la<br />
segunda, porque 35 es la frecuencia más grande y aplicamos:<br />
1<br />
Xˆ = FI +<br />
<br />
1<br />
<br />
donde : f f<br />
<br />
1<br />
2<br />
2<br />
f f<br />
<br />
17 <br />
*i 17500<br />
*5000 $21,195.65<br />
<br />
17<br />
6 <br />
3518<br />
17<br />
anterior<br />
posterior<br />
35<br />
29 6<br />
Relación entre Media Aritmética, Mediana y Moda:<br />
Para distribuciones unimodales que sean poco asimétricas:<br />
X Xˆ 3 X X ~<br />
<br />
<br />
Sus posiciones relativas, según la simetría de la distribución de frecuencias son:<br />
Relación<br />
Simetría<br />
X<br />
X = X Simétrica<br />
X < X < X Sesgo positivo
Elaborado por Víctor Herrera Bautista<br />
X<br />
X > X Sesgo negativo<br />
Nótese que en nuestros ejemplos tenemos:<br />
Xˆ<br />
X ~<br />
> X esdecir 21195.65<br />
20857.14<br />
20670.7<br />
MEDIDAS DE TENDENCIA CENTRAL PARA CASOS ESPECIALES<br />
Media Aritmética Ponderada X<br />
p : Es el promedio de los datos en donde se le da un<br />
peso o importancia específica a cada observación. Se calcula:<br />
X<br />
w<br />
=<br />
n<br />
<br />
W*X<br />
i<br />
i1<br />
n<br />
<br />
i1<br />
W<br />
i<br />
i<br />
Producto de cada uno de los datos por su ponderación<br />
Suma de las ponderaciones<br />
Ejemplo:<br />
Se desea obtener el precio promedio de:<br />
Precio del<br />
Producto<br />
Cantidad<br />
en Kg.<br />
$ 17.80 75<br />
$ 35.90 56<br />
$ 79.45 19<br />
Aplicamos la fórmula:<br />
X<br />
w<br />
=<br />
n<br />
<br />
W*X<br />
i<br />
i1<br />
n<br />
<br />
i1<br />
W<br />
i<br />
i<br />
(17.8*75) (35.9*56) (79.45*19)<br />
<br />
75<br />
5619<br />
<br />
4854.95<br />
$32.37<br />
150<br />
Media Geométrica (G): Con cierto tipo de datos, la media aritmética no da el valor<br />
promedio correcto. La media geométrica sirve para promediar los crecimientos<br />
geométricos de una variable.<br />
Si suponemos que Y representa el factor de crecimiento geométrico de la variable X,<br />
Xi<br />
es decir: Yi<br />
entonces el factor de crecimiento geométrico promedio de la<br />
Xi<br />
1<br />
variable X será:
Elaborado por Víctor Herrera Bautista<br />
Datos No Agrupados:<br />
G <br />
n<br />
Y<br />
1<br />
* Y2<br />
* *<br />
Yn<br />
Ejemplo:<br />
Si los precios de la acción “Anáhuac” en los últimos cuatro días fueron; 4.75, 5.23,<br />
4.78 y 6.32 calculan el factor de crecimiento promedio y el crecimiento porcentual<br />
promedio.<br />
Existen dos formas de resolverlo:<br />
a) De la forma más ortodoxa, es decir:<br />
5.23 4.78 6.32<br />
n Y *Y * *Y 3<br />
1 2<br />
<br />
n<br />
* * 1.330526316<br />
1.099869493<br />
4.75 5.23 4.78<br />
G<br />
3<br />
Lo que acabamos de obtener es factor de crecimiento promedio y para obtener el<br />
crecimiento se aplica la siguiente formula:<br />
crecimient o<br />
( 1<br />
G) *100 (1 1.099869493) *100 9.9869%<br />
6.32<br />
b) Otra forma es G <br />
último número de datos -1 3 <br />
3 1.330526316<br />
1. 099869493<br />
primero 4.75<br />
Datos Agrupados:<br />
G <br />
n<br />
Y<br />
f<br />
1<br />
1 2<br />
Y k<br />
* Y * *<br />
f<br />
2<br />
f<br />
k<br />
Dónde: k = última clase<br />
Nota: Se puede demostrar que X G.<br />
También puede calcularse la media geométrica ponderada.<br />
Ejemplo:<br />
Supóngase que se cuenta con la información diaria de los incrementos porcentuales<br />
de una acción y que se representan en la siguiente tabla:<br />
Crecimiento<br />
porcentual<br />
(%)<br />
Frecuencias<br />
en días<br />
10 14<br />
20 15<br />
30 48<br />
a) Calcular los factores de crecimiento.
Elaborado por Víctor Herrera Bautista<br />
<br />
y 1<br />
<br />
<br />
crecimiento porcentual<br />
<br />
100 <br />
b) Calcular el factor de crecimiento promedio<br />
G<br />
n f1 f2<br />
fk<br />
77 14 15 48<br />
Y * Y * * Y 1.10 *1.20 *1.30 1.2415965<br />
1<br />
2<br />
k<br />
Media Armónica (H): Cuando los datos a promediarse están medidos en unidades<br />
expresadas en forma de cocientes (km./hr., $/lt, etc.), lo más adecuado es utilizar la<br />
media armónica, ya que la media aritmética nos llevará a un promedio equivocado.<br />
Datos No Agrupados:<br />
H <br />
n<br />
<br />
n<br />
1<br />
i 1 X i<br />
Ejemplo:<br />
Si un vehículo se mueve de la ciudad A a la B a 65 Km./hr y regresa de B a A a 98<br />
Km./Hr a qué promedio se desplazó.<br />
H <br />
n<br />
<br />
i1<br />
n<br />
1<br />
X<br />
i<br />
<br />
1<br />
65<br />
2<br />
<br />
1<br />
98<br />
78.1595<br />
Datos Agrupados:<br />
H <br />
k<br />
<br />
i1<br />
n<br />
fi<br />
X<br />
i<br />
Dónde: k = última clase<br />
Nota: Se puede demostrar que X G H.<br />
También puede calcularse la media armónica ponderada.<br />
Ejemplo:<br />
Supóngase que una flotilla de vehículos muestra la siguiente información:<br />
Velocidad<br />
promedio<br />
en km/hr<br />
Número<br />
de<br />
vehículos<br />
50 15<br />
60 28<br />
75 31
Elaborado por Víctor Herrera Bautista<br />
La respuesta es:<br />
H <br />
k<br />
<br />
i1<br />
n<br />
fi<br />
X<br />
i<br />
<br />
74<br />
62.711864<br />
15 28 31<br />
<br />
50 60 75<br />
Media Cuadrática (MC):<br />
La media cuadrática nació con el objetivo de poder obtener el promedio de valores<br />
positivos y negativos al mismo tiempo, esta medida será la que nos permita generar a<br />
las medidas de dispersión (ver medidas de dispersión).<br />
Datos no agrupados:<br />
MC<br />
n<br />
<br />
i1<br />
<br />
n<br />
x<br />
2<br />
i<br />
Ejemplo:<br />
Supóngase que se obtienen las ganancias y pérdidas del precio de una acción durante<br />
una semana; - 4.00, - 3.50, 2.35, 6.20, 3.25 Calcular el promedio:<br />
MC <br />
n<br />
<br />
i1<br />
n<br />
x<br />
2<br />
i<br />
<br />
( 4.0)<br />
2<br />
( 3.5)<br />
2<br />
2.35<br />
5<br />
2<br />
6.2<br />
2<br />
3.25<br />
2<br />
<br />
50.775<br />
3.186691<br />
5<br />
Datos agrupados:<br />
MC<br />
k<br />
<br />
i1<br />
<br />
f x<br />
n<br />
2<br />
i i<br />
Ejemplo:<br />
Ahora deseamos obtener el promedio de una tabla de distribución de frecuencias pero<br />
con datos positivos y negativos.<br />
Ganancias y<br />
pérdidas del<br />
precio de<br />
una acción<br />
(x)<br />
No. De<br />
días<br />
(f)<br />
-7.25 25<br />
2.75 14<br />
12.75 2
Elaborado por Víctor Herrera Bautista<br />
MC <br />
n<br />
<br />
i1<br />
f<br />
n<br />
x<br />
2<br />
i i<br />
<br />
25*( 7.25)<br />
2<br />
14* 2.75<br />
41<br />
2<br />
2*12.75<br />
2<br />
6.5239
Elaborado por Víctor Herrera Bautista<br />
MEDIDAS DE POSICIÓN<br />
Ayudan a localizar el valor de la variable que acumula cierto porcentaje específico de<br />
datos.<br />
Cuartiles (Q): Encuentran el valor acumulado al 25%, 50% y 75% respectivamente.<br />
Deciles (D): Representan el 10%, 20%,..., 90% de los datos acumulados<br />
respectivamente.<br />
Percentiles (P): Representan el 1%, 2%,..., 99% de los datos acumulados<br />
respectivamente.<br />
Cada cuantil delimita dos regiones:<br />
- el p% de datos de menor valor (acumulados a la izquierda del cuantil C)<br />
- el (1-p) % de datos de mayor valor (acumulados a la derecha del cuantil C).<br />
Datos No Agrupados:<br />
En los datos ordenados: se debe calcular la posición mediante la fórmula:<br />
j *( n 1)<br />
Posición <br />
r<br />
donde:<br />
j Número de cuantil que sedesea obtener<br />
r puede ser 4,10o100depende del cuantil<br />
que se deseeobtener<br />
n número de datos
Elaborado por Víctor Herrera Bautista<br />
Después de calcular la posición se utiliza la siguiente fórmula para encontrar el cuantil<br />
deseado:<br />
dato menor (dato mayor - dato menor)*fracción de la posición<br />
Ejemplo:<br />
Dados los números 3, 5, 7, 36, 45; obtener el número que represente al 75% de los<br />
datos.<br />
Solución:<br />
Primero obtienes la posición<br />
N = 5<br />
J = 75<br />
R = 100<br />
75*(5 1)<br />
100<br />
4.5<br />
2. Identificamos que números están en la cuarta y quinta posición, es decir el 36 y el<br />
45<br />
3. Aplicamos la fórmula:<br />
36<br />
(45<br />
36) * 0.5 40.5<br />
Es decir, el número que representa al 75% de los datos es el 40.5<br />
Datos Agrupados:<br />
Primero calculamos la posición como en los datos no agrupados, después buscamos<br />
la primer fa posición, y aplicamos la siguiente formula:<br />
Posición de la mediana<br />
.<br />
<br />
<br />
C = FI+ <br />
<br />
<br />
<br />
j *<br />
<br />
<br />
n 1<br />
<br />
fa<br />
r <br />
f<br />
anterior<br />
<br />
<br />
* i<br />
<br />
<br />
<br />
Frontera inferior<br />
Frecuencia acumulada anterior al<br />
renglón seleccionado<br />
Tamaño de intervalo del renglón seleccionado<br />
Frecuencia del renglón seleccionado
Elaborado por Víctor Herrera Bautista<br />
Ejemplo<br />
Encontrar el cuartil 3 de la siguiente tabla<br />
Fronteras Frecuencia Fa<br />
100 - 200 389 389<br />
200- 300 258 647<br />
300 - 400 452 1099<br />
C = FI +<br />
<br />
j* n 1<br />
<br />
fa<br />
r <br />
f<br />
<br />
<br />
<br />
anterior<br />
3*(10991)<br />
<br />
<br />
647<br />
<br />
4<br />
*i 300<br />
<br />
<br />
*100 339.3805<br />
452
Elaborado por Víctor Herrera Bautista<br />
MEDIDAS DE DISPERSIÓN<br />
Rango (o Intervalo):<br />
Es la distancia que existe entre el<br />
menor y el mayor valor de los datos.<br />
Datos No Agrupados:<br />
rango max min<br />
Datos Agrupados:<br />
rango LS k<br />
LI 1<br />
Donde k = última clase<br />
Rango Semi-Inter Cuartil (Q): (o<br />
Desviación Cuartil)<br />
Mide el rango promedio de una cuarta<br />
parte de los datos (evita los valores extremos)<br />
Q<br />
Q <br />
Q<br />
2<br />
3<br />
<br />
1<br />
Desviación Media Absoluta (DM): (o Desviación Absoluta Promedio)<br />
Es la distancia promedio de los datos a su media.<br />
Datos No Agrupados:<br />
DM =<br />
n<br />
<br />
i1<br />
X X<br />
n<br />
i<br />
Datos Agrupados:<br />
DM =<br />
k<br />
<br />
i1<br />
f<br />
i<br />
X X<br />
n<br />
i<br />
Varianza:<br />
Poblacional ( 2 ) es el promedio cuadrático de la distancia de los datos a su media
Elaborado por Víctor Herrera Bautista<br />
Datos No Agrupados:<br />
Las varianzas se calcularan con:<br />
N<br />
<br />
2 i1<br />
=<br />
<br />
2<br />
<br />
<br />
<br />
<br />
N<br />
<br />
i1<br />
X<br />
X<br />
N<br />
i<br />
N<br />
<br />
i<br />
2<br />
<br />
2<br />
<br />
<br />
<br />
<br />
2<br />
<br />
Y la desviación estándar se podrá obtener con:<br />
=<br />
<br />
N<br />
<br />
i1<br />
<br />
<br />
<br />
<br />
<br />
N<br />
<br />
i1<br />
X<br />
X<br />
N<br />
i<br />
<br />
N<br />
i<br />
2<br />
<br />
2<br />
<br />
<br />
<br />
<br />
2<br />
<br />
varianza simplificada<br />
desviación estándar simplificada<br />
Datos Agrupados:<br />
k<br />
<br />
2 i1<br />
=<br />
<br />
2<br />
<br />
<br />
<br />
k<br />
<br />
i1<br />
f i<br />
La desviación estándar<br />
f<br />
<br />
i<br />
N<br />
X<br />
N<br />
X<br />
i<br />
i<br />
<br />
2<br />
<br />
<br />
<br />
<br />
<br />
2<br />
2<br />
<br />
varianza<br />
simplificada
Elaborado por Víctor Herrera Bautista<br />
=<br />
k<br />
<br />
i1<br />
f i<br />
<br />
X<br />
i<br />
N<br />
<br />
<br />
2<br />
<br />
<br />
<br />
<br />
<br />
k<br />
<br />
i1<br />
f<br />
i<br />
N<br />
X<br />
i<br />
2<br />
<br />
<br />
<br />
<br />
2<br />
<br />
desviación<br />
estándar simplificada<br />
Muestral (S 2 ) la suma de las distancias al cuadrado se divide entre en número de<br />
datos menos uno:<br />
Datos No Agrupados:<br />
s<br />
s<br />
2<br />
2<br />
=<br />
N<br />
<br />
i1<br />
<br />
x<br />
n -1<br />
<br />
N 2<br />
x i <br />
i1<br />
<br />
n -1 <br />
<br />
La desviación estándar<br />
s<br />
s<br />
=<br />
<br />
N<br />
<br />
i1<br />
<br />
x<br />
i<br />
x<br />
n -1<br />
i<br />
<br />
N 2<br />
x i <br />
i1<br />
<br />
n -1 <br />
<br />
x<br />
2<br />
<br />
<br />
<br />
2<br />
<br />
<br />
<br />
2<br />
nx <br />
<br />
n 1<br />
2<br />
nx <br />
<br />
n 1<br />
varianza<br />
desviación<br />
simplificada<br />
estándar simplificada<br />
Datos Agrupados:<br />
<br />
da<br />
s<br />
2<br />
=<br />
k<br />
<br />
i1<br />
f<br />
i<br />
x<br />
i<br />
n -1<br />
x<br />
2<br />
s<br />
2<br />
<br />
<br />
<br />
<br />
<br />
k<br />
<br />
i1<br />
f<br />
i<br />
x<br />
i<br />
n -1<br />
2<br />
2<br />
<br />
nx <br />
<br />
n 1<br />
<br />
varianza<br />
simplifica
Elaborado por Víctor Herrera Bautista<br />
La desviación estándar<br />
s<br />
s<br />
=<br />
<br />
k<br />
<br />
i1<br />
<br />
<br />
<br />
<br />
k<br />
f<br />
<br />
i1<br />
i<br />
f<br />
<br />
x<br />
n -1<br />
i<br />
x<br />
i<br />
n -1<br />
i<br />
x<br />
2<br />
<br />
2<br />
2<br />
<br />
nx <br />
<br />
n 1<br />
<br />
desviación<br />
estándar simplificada<br />
Nota: S 2 para muestras "chicas". Para muestras grandes S 2 o 2 prácticamente no<br />
difieren.<br />
Desviación Estándar:<br />
Mide la variación de los datos en términos absolutos. Es la raíz cuadrada positiva de la<br />
varianza.<br />
2<br />
Poblacional: <br />
Muestral: S = S 2<br />
La desviación estándar se interpreta construyendo intervalos alrededor del promedio:<br />
Ejemplo:<br />
Nota: Estos ejemplos pretender enseñarte el uso de las fórmulas, por lo que, no se<br />
utilizarán todas las de dispersión, ya que, todas funcionan para el mismo fin.<br />
Supóngase que se tiene la información siguiente:<br />
No. de horas<br />
que estudia<br />
un alumno<br />
No. De<br />
alumnos X F*X X- x F*(X- x ) 2<br />
10 - 20 25 15 375 -8.267 1708.44<br />
20 - 30 38 25 950 1.733 114.17<br />
30 - 40 12 35 420 11.733 1652.05<br />
a) Debemos obtener la media aritmética. Sumando (f * x)/n = 1745/75=23.2667<br />
b) Después calculamos X- x . Es decir cada una de las marcas de clase menos<br />
la media aritmética.<br />
c) Obtenemos la columna F*(X- x ) 2 y la sumamos (3474.67)<br />
d) Por último aplicamos la fórmula de la desviación estándar:
Elaborado por Víctor Herrera Bautista<br />
=<br />
N<br />
i1<br />
<br />
i<br />
N<br />
<br />
X <br />
2<br />
<br />
3474.67<br />
75<br />
6.8065<br />
Intervalo de confianza:<br />
a) Teorema de Chebyshev. El teorema dice que no importa la forma que tenga la<br />
distribución podemos calcular el porcentaje de valores que se encuentran dentro<br />
de K desviaciones estándar mediante la siguiente formula:<br />
1<br />
% 1 *100<br />
2<br />
k <br />
De ésta forma tenemos que:<br />
- al menos el 75% de los valores cae dentro de 2 desviaciones estándar alrededor de<br />
la media: X 2S<br />
- al menos el 89% de los valores caen dentro de 3 desviaciones estándar alrededor de<br />
la media: X 3S<br />
b) Regla Empírica.<br />
Si la distribución es una curva acampanada, unimodal y simétrica:<br />
- aproximadamente el 68% de los datos (población) se encuentran a una desviación<br />
estándar alrededor de la media: X S<br />
- aproximadamente el 95% de los datos (población) se encuentran a 2 desviaciones<br />
estándar alrededor de la media: X 2S<br />
- aproximadamente el 99% de los datos (población) se encuentran a 3 desviaciones<br />
estándar alrededor de la media: X 3S
Elaborado por Víctor Herrera Bautista<br />
Coeficiente de Variación (CV): Mide la variación relativa de la variable con respecto a<br />
su promedio. Mide la magnitud de la desviación estándar en relación con la magnitud<br />
de la media. Se expresa en por cientos.<br />
CV = S X 100
Elaborado por Víctor Herrera Bautista<br />
MEDIDAS DE FORMA<br />
Proporcionan un valor numérico para saber hacia qué lado de la distribución hay<br />
mayor acumulación de frecuencias y si la concentración central de frecuencias es<br />
mayor que en los extremos o viceversa sin tener que graficar los datos.<br />
Momento Respecto de la Media: El r-ésimo momento respecto a la media aritmética<br />
es:<br />
Datos No Agrupados:<br />
m<br />
r<br />
<br />
n<br />
<br />
i1<br />
x x<br />
i<br />
n<br />
r<br />
<br />
Datos Agrupados:<br />
m<br />
r<br />
<br />
n<br />
<br />
f<br />
i<br />
i1<br />
<br />
n<br />
r<br />
<br />
x x<br />
i<br />
El primer momento respecto a la media (r=1) siempre es igual a cero.<br />
El segundo momento respecto a la media (r=2) es la varianza poblacional.<br />
Coeficiente<br />
momento<br />
de sesgo<br />
a 3<br />
= 0<br />
a 3<br />
> 0<br />
a 3<br />
< 0<br />
Sesgo<br />
No hay sesgo. La<br />
distribución es<br />
insesgada<br />
La distribución tiene<br />
sesgo positivo o a la<br />
derecha.<br />
La distribución tiene<br />
sesgo negativo o a la<br />
izquierda.<br />
Sesgo: Es el grado de asimetría que tiene la distribución o en otras palabras es el<br />
análisis del comportamiento de los datos con respecto al eje de las “X”. La distribución<br />
puede ser:<br />
Insesgada: (sin sesgo). Si tiene forma de campana y el área acumulada del centro de<br />
la distribución a la derecha es igual a la que se acumula a la izquierda.
Elaborado por Víctor Herrera Bautista<br />
Con sesgo positivo o a la derecha: Si tiene la mayor acumulación de frecuencias a<br />
la izquierda y una cola larga a la derecha.<br />
Con sesgo negativo o a la izquierda: Si la mayor acumulación está a la derecha y<br />
tiene una cola larga a la izquierda.<br />
Coeficiente Momento de Sesgo (a 3<br />
): también conocido como coeficiente de<br />
asimetría se calcula dividiendo el tercer momento respecto a la media entre la<br />
desviación estándar al cubo:<br />
Datos No Agrupados:<br />
a<br />
3<br />
<br />
m<br />
S<br />
3<br />
3<br />
<br />
n<br />
<br />
i1<br />
<br />
x<br />
i<br />
ns<br />
<br />
3<br />
x<br />
<br />
3<br />
Número total de datos = n y<br />
s = desviación estándar
Elaborado por Víctor Herrera Bautista<br />
En el caso de calcularlo con Excel la fórmula es distinta:<br />
sesgo<br />
<br />
n<br />
(n-1) * (n- 2)<br />
<br />
* <br />
<br />
n<br />
<br />
i 1<br />
x <br />
i<br />
x<br />
s<br />
3<br />
<br />
<br />
<br />
<br />
<br />
<br />
Ejemplo:<br />
Al efectuarse la subasta de Cetes la semana pasada se pudo observar la siguiente<br />
información:<br />
Postura Monto<br />
(millones de pesos)<br />
Tasa<br />
%<br />
A 200 8.75<br />
B 225 8.40<br />
C 140 8.65<br />
D 190 8.50<br />
E 170 8.90<br />
F 120 8.80<br />
G 160 8.65<br />
H 150 8.70<br />
Con esta información determine:<br />
a) El sesgo de los montos de todas las<br />
posturas.<br />
Para lograrlo se requiere obtener la media<br />
aritmética y la desviación estándar por lo<br />
que procedemos a hacer una tabla:<br />
montos x- med (x - med)^2 (x - med)^3<br />
200 30.625 937.890625 28722.90039<br />
225 55.625 3094.140625 172111.5723<br />
140 -29.375 862.890625 -25347.4121<br />
190 20.625 425.390625 8773.681641<br />
170 0.625 0.390625 0.244140625<br />
120 -49.375 2437.890625 -120370.85<br />
160 -9.375 87.890625 -823.974609<br />
150 -19.375 375.390625 -7273.19336<br />
sumas 1355 8221.875 55792.96875<br />
Con estos resultados obtenemos:<br />
X =<br />
n<br />
<br />
i1<br />
n<br />
X<br />
i<br />
<br />
1355<br />
8<br />
169.375<br />
s<br />
2<br />
( x )<br />
<br />
n 1<br />
2<br />
8221.875<br />
<br />
8 1<br />
1174.55357<br />
Si le sacamos la raíz cuadrada obtenemos la desviación estándar:<br />
s <br />
( x )<br />
n 1<br />
2<br />
<br />
8221.875<br />
8 1<br />
34.2717
Elaborado por Víctor Herrera Bautista<br />
m<br />
<br />
S<br />
n<br />
<br />
ns<br />
<br />
3<br />
xi<br />
x<br />
3 i1<br />
a3 <br />
<br />
3<br />
3<br />
3<br />
55792.9687 5<br />
<br />
8 * 34.2717<br />
0.173253<br />
El sesgo no dio como resultado 0.17 por lo que afirmamos que es positivo y<br />
seguramente tendrá una figura como:<br />
Datos Agrupados:<br />
a<br />
3<br />
m<br />
<br />
S<br />
3<br />
3<br />
<br />
k<br />
<br />
i1<br />
f<br />
i<br />
<br />
i<br />
ns<br />
3<br />
<br />
x x<br />
3<br />
EJEMPLO:<br />
Después de encuestar a varios clientes de un banco con respecto a la cantidad de<br />
fotocopias que había solicitado ese mismo día, se nos muestra la siguiente tabla:<br />
a) Obtener la media aritmética.<br />
b) Obtener la desviación estándar.<br />
c) Obtener el sesgo.<br />
Respuestas:<br />
No. de No. de<br />
Copias clientes<br />
0 - 10 15<br />
10 - 20 6<br />
20 - 30 10<br />
30 - 40 5<br />
40 - 50 1
Elaborado por Víctor Herrera Bautista<br />
No.<br />
Copias<br />
de<br />
0 - 10 15<br />
10 a 20 6<br />
No. de<br />
clientes<br />
marca de<br />
f * (x - f * (x -<br />
clase (x) X * f x - med med)^2 med)^3<br />
-<br />
5 75 12.1621622 2218.772827 -26985.07492<br />
-<br />
15 90 2.16216216 28.04967129 -60.64793793<br />
20 - 30 10 25 250 7.83783784 614.3170197 4814.917182<br />
30 - 40 5 35 175 17.8378378 1590.942294 28378.97064<br />
40 - 50 1 45 45 27.8378378 774.9452155 21572.79924<br />
Sumas 37 635 5227.027027 27720.96421<br />
n<br />
<br />
fiXi<br />
i1<br />
635<br />
a) = 17. 162<br />
n 37<br />
b)<br />
<br />
f ( x )<br />
n<br />
2<br />
<br />
5227.02702 7<br />
37<br />
11.8857<br />
c)<br />
k<br />
3<br />
fixi<br />
<br />
i1<br />
a3 <br />
<br />
3<br />
m3<br />
<br />
3<br />
<br />
3<br />
n<br />
27720.96421<br />
<br />
37 * 11.8857<br />
0.4462<br />
Por lo que podemos concluir que es una curva sesgada a la derecha ya que el<br />
resultado del sesgo es mayor a cero.<br />
Curtosis: Mide qué tan puntiaguda es una distribución, con respecto a la Normal, es<br />
decir, analiza el comportamiento de los datos con respecto al eje de las “Y”.<br />
La distribución puede ser:<br />
1. Mesocúrtica: solo la distribución Normal (es el término medio).<br />
2. Leptocúrticas: Las distribuciones más puntiagudas que la Normal, ya que su<br />
desviación estándar es muy pequeña.<br />
3. Platocúrticas: Las distribuciones menos puntiagudas que la Normal, debido a<br />
que presenta una desviación estándar muy grande con respecto a la<br />
distribución normal.
Elaborado por Víctor Herrera Bautista<br />
Coeficiente momento de curtosis (a 4<br />
): se calcula dividiendo el cuarto momento<br />
respecto a la media entre la varianza al cuadrado (o la desviación estándar a la<br />
cuarta).<br />
Coeficiente<br />
momento<br />
de curtosis<br />
a 4<br />
= 3<br />
a 4<br />
> 3<br />
a 4<br />
< 3<br />
Curtosis<br />
La distribución es<br />
Mesocúrtica.<br />
La distribución es<br />
Leptocúrtica.<br />
La distribución es<br />
Platocúrtica.<br />
Datos No Agrupados:<br />
a<br />
4<br />
<br />
m<br />
S<br />
4<br />
4<br />
<br />
n<br />
<br />
i1<br />
x<br />
i<br />
ns<br />
x<br />
4<br />
<br />
4<br />
Ejemplo:<br />
Al efectuarse la subasta de Cetes la semana pasada se pudo observar la siguiente<br />
información:<br />
Postura Monto<br />
(millones de pesos)<br />
Tasa<br />
%<br />
A 200 8.75<br />
B 225 8.40<br />
C 140 8.65<br />
D 190 8.50<br />
E 170 8.90<br />
F 120 8.80<br />
G 160 8.65<br />
H 150 8.70<br />
Con esta información determine:<br />
a) La curtosis de los montos de todas<br />
las posturas.<br />
Para lograrlo se requiere obtener la media<br />
aritmética y la desviación estándar por lo<br />
que procedemos a hacer una tabla:<br />
(x -<br />
montos x- med (x - med)^2 (x - med)^3 med)^4<br />
200 30.625 937.890625 28722.90039 879638.824<br />
225 55.625 3094.140625 172111.5723 9573706.21<br />
140 -29.375 862.890625 -25347.4121 744580.231<br />
190 20.625 425.390625 8773.681641 180957.184<br />
170 0.625 0.390625 0.244140625 0.15258789<br />
120 -49.375 2437.890625 -120370.85 5943310.7<br />
160 -9.375 87.890625 -823.974609 7724.76196<br />
150 -19.375 375.390625 -7273.19336 140918.121<br />
sumas 1355 8221.875 55792.96875 17470836.2<br />
Con estos resultados obtenemos:
Elaborado por Víctor Herrera Bautista<br />
X =<br />
n<br />
<br />
i1<br />
n<br />
X<br />
i<br />
<br />
1355<br />
8<br />
169.375<br />
s<br />
2<br />
( x )<br />
<br />
n 1<br />
2<br />
8221.875<br />
<br />
8 1<br />
1174.55357<br />
Si le sacamos la raíz cuadrada obtenemos la desviación estándar:<br />
s <br />
( x )<br />
n 1<br />
2<br />
<br />
8221.875<br />
8 1<br />
34.2717<br />
m<br />
S<br />
n<br />
<br />
4<br />
xi<br />
x<br />
4 i1<br />
a4 <br />
<br />
<br />
4<br />
4<br />
4<br />
ns<br />
<br />
17470836.2<br />
8 * 34.2717<br />
1.583<br />
Por lo que podemos afirmar que nuestra curva es una PLATICURTICA ya que al<br />
compararla con el número 3 resulta ser menor<br />
Datos Agrupados:<br />
a<br />
4<br />
m<br />
<br />
S<br />
4<br />
4<br />
Ejemplo:<br />
<br />
k<br />
<br />
i<br />
i1<br />
<br />
i<br />
ns<br />
4<br />
<br />
f x x<br />
4<br />
Después de encuestar a varios clientes de un banco con respecto a la cantidad de<br />
fotocopias que había solicitado ese mismo día, se nos muestra la siguiente tabla:<br />
No. de No. de<br />
Copias clientes<br />
0 - 10 15<br />
10 - 20 6<br />
20 - 30 10<br />
30 - 40 5<br />
40 - 50 1<br />
d) Obtener la media aritmética.<br />
e) Obtener la desviación estándar.<br />
f) Obtener el sesgo.<br />
Respuestas:
Elaborado por Víctor Herrera Bautista<br />
No.<br />
Copias<br />
de<br />
0 – 10 15<br />
10 a 20 6<br />
No. de<br />
clientes<br />
marca<br />
de<br />
clase<br />
(x) X * f x - med f * (x - med)^2 f * (x - med)^3 f * (x - med)^4<br />
-<br />
5 75<br />
12.1621622 2218.772827 -26985.07492 328196.8572<br />
-<br />
2.16216216 28.04967129 -60.64793793 131.1306766<br />
15 90<br />
20 - 30 10 25 250 7.83783784 614.3170197 4814.917182 37738.54007<br />
30 - 40 5 35 175 17.8378378 1590.942294 28378.97064 506219.4763<br />
40 - 50 1 45 45 27.8378378 774.9452155 21572.79924 600540.087<br />
Sumas 37 635 5227.027027 27720.96421 1472826.091<br />
n<br />
<br />
fiXi<br />
i1<br />
635<br />
d) = 17. 162<br />
n 37<br />
e)<br />
<br />
f ( x )<br />
n<br />
2<br />
<br />
5227.02702 7<br />
37<br />
11.8857<br />
f)<br />
k<br />
4<br />
fixi<br />
<br />
i1<br />
a4 <br />
<br />
4<br />
m4<br />
<br />
4<br />
<br />
4<br />
n<br />
1472826 .09<br />
<br />
37 * 11.8857<br />
1.9946<br />
Por lo que podemos concluir que es una PLATICÚRTICA ya que el resultado de<br />
la curtosis es menor al número 3.
Elaborado por Víctor Herrera Bautista<br />
MEDIDAS DE CONCENTRACIÓN<br />
En una distribución, ni la media ni la varianza son explicativas de la mayor o menor<br />
igualdad en el reparto; para esto usamos las medidas de concentración.<br />
Consideremos que la variable en cuestión es el salario. Una distribución muy<br />
concentrada indica que pocos individuos reciben la mayor parte del total, mientras que<br />
poca concentración supone que todos los individuos tienen un reparto igualitario.<br />
Índice de Gini:<br />
Ig<br />
k1<br />
<br />
i<br />
i1<br />
<br />
k1<br />
Donde:<br />
p q<br />
<br />
i1<br />
p<br />
i<br />
i<br />
<br />
k = número de clases o categorías<br />
f<br />
p<br />
i<br />
= la proporción acumulada de individuos = i<br />
100 = fra x 100<br />
n<br />
q<br />
i<br />
= la proporción acumulada del total del producto de f i*x i<br />
0 Ig 1<br />
Si Ig=0, la variable está menos concentrada (mejor repartida).<br />
Si Ig=1, la variable está más concentrada (peor repartida).<br />
Curva de Lorenz:<br />
Se grafican los valores de la proporción acumulada de individuos (p) y la proporción<br />
acumulada del total de la variable (q).<br />
La función identidad representa la igualdad absoluta, es decir, a la variable cuando no<br />
está concentrada (la recta a 45 grados). La desigualdad absoluta o máxima<br />
concentración de la variable indicaría que un solo individuo tenga el total de la variable<br />
(el triángulo inferior).<br />
Cuanto más se acerque la Curva de Lorenz a la diagonal, más igualitario será el<br />
reparto (Ig = 0). Cuanto más se acerque la Curva de Lorenz al triángulo inferior, más<br />
concentrada esta la variable (Ig = 1).
Elaborado por Víctor Herrera Bautista<br />
El Índice de Gini calcula el área entre la diagonal y la Curva de Lorenz, como un<br />
porcentaje del área del triángulo inferior de la gráfica (mide la desigualdad relativa).<br />
EJEMPLO:<br />
Si deseamos obtener la concentración del problema de las copias que sacan los<br />
clientes de un banco tendríamos:<br />
Se obtiene<br />
Se obtiene<br />
acumulando dividiendo:<br />
en cada<br />
x * f<br />
renglón a fr<br />
( x * f )<br />
No. de No. de marca<br />
Copias clientes de<br />
clase<br />
(x) X * f fr en % P H Q P-Q<br />
0 - 10 15 5 75 40.5405405 40.54054054 11.81102362 11.81102362 28.72951692<br />
10 a 6<br />
20<br />
15 90 16.2162162 56.75675676 14.17322835 25.98425197 30.77250479<br />
20 - 30 10 25 250 27.027027 83.78378378 39.37007874 65.35433071 18.42945308<br />
30 - 40 5 35 175 13.5135135 97.2972973 27.55905512 92.91338583 4.383911471<br />
40 - 50 1 45 45 2.7027027 100 7.086614173 100 0<br />
Sumas 37 635 278.3783784 Se obtiene 82.31538625<br />
k 1<br />
<br />
pi<br />
qi<br />
i1<br />
Ig <br />
k 1<br />
p<br />
<br />
i1<br />
i<br />
<br />
<br />
82.3153<br />
278.378<br />
0.2956<br />
acumulando<br />
en cada<br />
renglón a H<br />
Como es un valor muy cercano a cero se dice que el conjunto de datos está poco<br />
concentrado.
Elaborado por Víctor Herrera Bautista<br />
Números Índices.<br />
Los números índices nos permiten describir el comportamiento de una cantidad (o<br />
varias) a través del tiempo; las circunstancias empresariales fluctúan dentro de<br />
márgenes muy amplios y cuesta mucho trabajo explicarlas, por ello, los números<br />
índices pueden disminuir significativamente estas dificultades. Es decir, relaciona un<br />
valor de un período determinado llamado período base, con otro valor de un período<br />
diferente, que se denomina período corriente.<br />
Los números índices se pueden clasificar de la siguiente manera:<br />
Pc<br />
Simple I * 100<br />
P<br />
b<br />
Sin<br />
ponderación<br />
Donde:<br />
P preciocorriente<br />
c<br />
P preciobase<br />
b<br />
P<br />
i 1<br />
De precios agregados I * 100<br />
n<br />
n<br />
P<br />
i 1<br />
c<br />
b<br />
i<br />
i<br />
Compuestos<br />
Ponderados<br />
<br />
* Q<br />
De ponderación fija i1<br />
I<br />
* 100<br />
n<br />
n<br />
<br />
P<br />
c<br />
P<br />
bi<br />
i1<br />
n<br />
<br />
i<br />
* Q<br />
De Laspeyres i1<br />
I<br />
* 100<br />
L<br />
n<br />
<br />
i1<br />
n<br />
<br />
P<br />
c<br />
P<br />
b<br />
i<br />
i<br />
f<br />
f<br />
i<br />
i<br />
* Q<br />
b<br />
* Q<br />
De Paasche i1<br />
I<br />
* 100<br />
De Fisher<br />
P<br />
n<br />
<br />
i1<br />
P<br />
c<br />
P<br />
b<br />
I I * I<br />
F<br />
L<br />
i<br />
i<br />
b<br />
* Q<br />
c<br />
* Q<br />
P<br />
c<br />
i<br />
i<br />
i<br />
i<br />
El período base puede ser establecido por decreto (en el caso de México), o<br />
dependiendo de las necesidades del investigador, pero en pocas palabras será el valor<br />
o precio con el que se harán las comparaciones.<br />
El período corriente será aquella cantidad o precio que se desea comparar con la<br />
base.
Elaborado por Víctor Herrera Bautista<br />
Los índices simples nos van a servir para describir el comportamiento del precio de<br />
un bien a través del tiempo, por ejemplo; Si compramos una casa en un millón de<br />
pesos y dos años después un avalúo nos informa que el nuevo precio de esa casa es<br />
de un millón quinientos mil pesos entonces tendremos:<br />
Es decir; que lo adquirido por cada<br />
I<br />
Año<br />
<br />
P c<br />
P<br />
b<br />
1,500,000<br />
* 100 <br />
* 100 150.0<br />
1,000,000<br />
Precio<br />
(P)<br />
$<br />
Cebolla Jitomate Frijol carne<br />
Cantidad<br />
Cantidad<br />
Cantidad<br />
(Q) Kg<br />
(Q) Kg<br />
(Q) Kg<br />
Precio<br />
(P)<br />
$<br />
$100.00 ahora se podrá adquirir por<br />
$150.00, o en otras palabras que lo<br />
que antes de dos años nos costó<br />
$100.00 ahora nos cuesta $50.00 más.<br />
Como se puede observar el índice simple resulta muy obvio ya que las cantidades que<br />
manejamos son individuales y podemos inferir el resultado.<br />
Los índices compuestos aumentan su importancia, porque nos permiten explorar el<br />
comportamiento de un grupo de precios de diferentes bienes, es decir, que en forma<br />
individual cada precio puede subir o bajar sin verse influido por los otros precios, en<br />
otras palabras, los precios son independientes y excluyentes del comportamiento de<br />
los otros. De esta forma, no será tan fácil observar el comportamiento global, es decir,<br />
no podremos percatarnos del crecimiento global o decremento de los bienes en<br />
conjunto. Por ejemplo. En México existe el análisis de la canasta básica, la cual,<br />
contiene varios productos que se encuentran controlados por el Estado y otros<br />
productos (o bienes) que están sujetos al comportamiento del mercado. Además nos<br />
dan otra ventaja, puesto que, nos permiten relacionar precios con cantidades, ya sean,<br />
de consumo o de producción.<br />
Supongamos que tenemos los precios y cantidades de algunos bienes:<br />
Precio<br />
(P)<br />
$<br />
Precio<br />
(P)<br />
$<br />
Cantidad<br />
(Q) Kg<br />
1997 2.7 125 10.0 158 15.5 236 22.0 85<br />
1998 3.0 132 8.0 257 15.9 259 27.0 88<br />
1999 3.0 135 12.0 159 15.9 289 32.0 95<br />
2000 3.5 140 17.0 138 16.0 297 34.0 99<br />
2001 4.0 144 10.0 156 16.0 358 45.0 99<br />
Si queremos calcular los números índices compuestos tendremos lo siguiente:<br />
1. Para él cálculo del índice compuesto sin ponderar tendremos que calcular dos<br />
sumatorias, la que corresponda al año base y la del año corriente. Supóngase que<br />
el índice que nos interesa es el de 1999, teniendo como base el año 1997.<br />
5<br />
P 3.0 12.0<br />
15.9<br />
32.0 62.9 , P<br />
2.7 10.0<br />
15.5<br />
22.0 50. 2<br />
i 1<br />
c i<br />
5<br />
i 1<br />
b i<br />
Después de ello las sustituimos en la fórmula:<br />
n<br />
Pc<br />
i<br />
i 1<br />
I <br />
n<br />
P<br />
i 1<br />
b<br />
i<br />
* 100 <br />
62.9<br />
* 100 125.2988<br />
50.2<br />
Esto significa que de 1997 a 1999 los precios en conjunto han subido un 25.2988%.
Elaborado por Víctor Herrera Bautista<br />
2. Si deseamos obtener el índice compuesto de ponderación fija para el año 1999<br />
teniendo como base el año 1997 y año de ponderación el año 1998, los pasos a<br />
seguir son:<br />
Primero tendremos que calcular las sumatorias que corresponden a la fórmula,<br />
n<br />
P i<br />
* Q<br />
i 1<br />
c<br />
f<br />
i<br />
(3.0 *132.0) (12.0 * 257.0) (15.9 * 259.0) (32.0 * 88) 10414.1<br />
n<br />
P i<br />
* Q<br />
i 1<br />
b<br />
f<br />
i<br />
(2.7 *132.0) (10.0 * 257.0) (15.5 * 259.0) (22.0 * 88.0) 8876.9<br />
Como podemos observar en este índice se multiplican los precios ya sea del año<br />
corriente o de la base por la cantidad fija, que en este caso es la del año 1997.<br />
Segundo paso aplicamos la fórmula:<br />
I<br />
<br />
n<br />
P<br />
i 1<br />
n<br />
P<br />
i 1<br />
c<br />
b<br />
i<br />
i<br />
* Q<br />
f<br />
* Q<br />
f<br />
i<br />
i<br />
* 100<br />
10414.1<br />
* 100<br />
8876.9<br />
117.3168<br />
Podemos concluir que los precios del año 1999 han crecido el 17.3168% con respecto<br />
a 1997 y tomando la producción fija de 1998.<br />
3. Ahora calcularemos el índice de Laspeyres para el año 1999 base 1997 y para ello<br />
tendremos que calcular las siguientes sumatorias.<br />
n<br />
P<br />
i 1<br />
n<br />
i 1<br />
ci<br />
P<br />
bi<br />
* Q<br />
bi<br />
* Q<br />
bi<br />
(3.0 *125.0) (12.0 *158.0) (15.9 *236.0) (32.0 * 85.0) 8743.4<br />
(2.7 *125.0) (10.0 *158.0) (15.5 * 236.0) (22.0 * 85) 7445.5<br />
Y después utilizaremos la fórmula del índice Laspeyres.<br />
I<br />
L<br />
<br />
n<br />
P<br />
i 1<br />
n<br />
P<br />
i 1<br />
c<br />
b<br />
i<br />
i<br />
* Q<br />
* Q<br />
b<br />
b<br />
i<br />
i<br />
* 100<br />
<br />
8743.4<br />
7445.5<br />
* 100<br />
117.4320<br />
Nótese que el resultado nos indica que el año 1999 ha crecido 17.4320 % con<br />
respecto al año 1997 tomando en cuenta el consumo (cantidad) de 1997. Además de<br />
que casi no cambia el resultado con respecto al índice de ponderación fija, ya que, los<br />
consumos de los años 1997 y 1998 son muy semejantes pero si hubiera diferencias<br />
significativas, estos valores serían diferentes.<br />
4. En el caso de que deseáramos calcular el índice de Paasche del año 1999 base<br />
1997 los pasos serán:
Elaborado por Víctor Herrera Bautista<br />
n<br />
P i<br />
* Q<br />
i 1<br />
n<br />
c<br />
c<br />
P i<br />
* Q<br />
i 1<br />
b<br />
c<br />
i<br />
i<br />
(3.0 *135) (12.0 *159.0) (15.9 * 289.0) (32.0 * 95) 9948.1<br />
(2.7 *135.0) (10.0 *159.0) (15.5 * 289.0) (22.0 * 95.0) 8524.0<br />
Y sustituyendo en la fórmula:<br />
I<br />
P<br />
<br />
n<br />
P<br />
i 1<br />
n<br />
P<br />
i 1<br />
c<br />
b<br />
i<br />
i<br />
* Q<br />
* Q<br />
c<br />
c<br />
i<br />
i<br />
* 100<br />
<br />
9948.1<br />
8524.0<br />
* 100<br />
116.7069<br />
Ahora observamos que el crecimiento del año 1999 con respecto a 1997 tomando<br />
como ponderación el año 1999 es de 16.7069% es decir, menor que el índice de<br />
Laspeyres debido a que la ponderación es distinta.<br />
5. Por lo anterior será conveniente calcular el promedio geométrico de los índices de<br />
Laspeyres y de Paasche para encontrar el valor más representativo del<br />
crecimiento del año 1999 base 1997 de los productos antes mencionados:<br />
I<br />
F<br />
<br />
I<br />
L<br />
* I 117.4320 *116.7069 117.0689<br />
P<br />
En Economía y negocios debe tomarse en cuenta que cuando los costos permanecen<br />
constantes y el precio muestra cambios en el tiempo entonces podemos hablar de<br />
inflación para el caso en el que el precio aumente y deflación para el caso en el que<br />
el precio se vea disminuido.<br />
Muchas veces se desea cambiar el año base y para ello se debe utilizar la siguiente<br />
fórmula:<br />
I<br />
In<br />
<br />
I<br />
c<br />
b<br />
*100<br />
Es decir, sólo tenemos que dividir el índice que desea tener como valor corriente<br />
entre el índice que deseamos sea el año base.
Elaborado por Víctor Herrera Bautista<br />
CORRELACIÓN.<br />
La correlación es la forma numérica en la que la estadística ha podido evaluar la<br />
relación de dos o más variables, es decir, mide la dependencia de una variable con<br />
respecto de otra variable independiente.<br />
Para poder entender esta relación tendremos que analizarlo en forma gráfica:<br />
edad peso<br />
15 60<br />
30 75<br />
18 67<br />
42 80<br />
28 60<br />
19 65<br />
31 92<br />
represente la tendencia de los datos, que en otras<br />
palabras podría decirse que se observa que a<br />
mayor edad mayor peso.<br />
Si tenemos los datos que se presentan en la tabla y<br />
consideramos que la edad determina el peso de las<br />
personas entonces podremos observar la siguiente<br />
gráfica:<br />
50<br />
0<br />
1698 47<br />
2045 15<br />
1348 100<br />
1268 120<br />
demanda<br />
Donde los puntos representan cada uno de los pares<br />
ordenados y la<br />
150<br />
línea podría ser 100<br />
una recta que<br />
1000 1500 2000<br />
La correlación se puede explicar con la pendiente<br />
de esa recta estimada y de esta forma nos<br />
podemos dar cuenta que también existe el caso en<br />
el que al crecer la variable independiente decrezca<br />
la variable dependiente. En aquellas rectas estimadas cuya pendiente sea cero<br />
entonces podremos decir que no existe correlación.<br />
Así en estadística podremos calcular la correlación para datos no agrupados con la<br />
siguiente formula.<br />
Ejemplo:<br />
r <br />
<br />
n<br />
<br />
n<br />
<br />
i1<br />
x<br />
2<br />
i<br />
n<br />
n<br />
<br />
<br />
<br />
<br />
x y<br />
<br />
i1<br />
<br />
<br />
<br />
<br />
<br />
<br />
n<br />
<br />
<br />
<br />
i1<br />
<br />
i i i<br />
i1 i1<br />
i1<br />
n<br />
x<br />
i<br />
2<br />
n<br />
x<br />
n<br />
*<br />
y<br />
n<br />
2<br />
i<br />
y<br />
i<br />
<br />
<br />
<br />
n<br />
<br />
i1<br />
y<br />
2<br />
<br />
<br />
<br />
i<br />
<br />
<br />
<br />
En donde:<br />
R = coeficiente de<br />
correlación<br />
N = número de pares<br />
ordenados<br />
X = variable independiente<br />
Y = variable independiente<br />
Edad (x) Peso (y) X 2 Y 2 X* Y<br />
15 60 225 3600 900<br />
30 75 900 5625 2250<br />
18 67 324 4489 1206<br />
42 80 1764 6400 3360<br />
28 60 784 3600 1680<br />
19 65 361 4225 1235<br />
31 92 961 8464 2852<br />
183 499 5319 36403 13483<br />
Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:<br />
Ahora podemos observar que:
Elaborado por Víctor Herrera Bautista<br />
r <br />
n n n<br />
n x y x * y<br />
i 1<br />
i i<br />
i 1<br />
i<br />
i 1<br />
i<br />
7 *13483 (183 * 499)<br />
<br />
0.65638606<br />
<br />
2 <br />
2<br />
7 * 5319 (183)<br />
2 7 * 36403 (499)<br />
2<br />
n<br />
<br />
<br />
2<br />
2<br />
<br />
<br />
<br />
n n<br />
<br />
n <br />
n x x n y y <br />
i 1<br />
i<br />
i<br />
1<br />
i<br />
<br />
i 1<br />
i<br />
i<br />
1<br />
i<br />
<br />
<br />
<br />
<br />
Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente<br />
manera: 1 r 1 y que para entenderlo mejor se debe obtener el coeficiente de<br />
determinación que se obtiene con “r “cuadrada, ya que este representa el porcentaje<br />
que se explica “y” mediante los datos de “x”.<br />
En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, está muy<br />
cerca de 1 y que el porcentaje de datos que explican a “y “es (0.65638606) 2 =<br />
0.430842 o sea el 43.08 %<br />
En el caso de que fueran datos agrupados tendremos lo siguiente:<br />
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos<br />
juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán<br />
más laboriosos, por lo que les recomiendo el uso de una hoja de cálculo o al menos<br />
una calculadora con regresión para datos agrupados.<br />
De cualquier forma aquí también estamos evaluando numéricamente si existe relación<br />
entre dos variables y lo haremos con la siguiente ecuación.<br />
k l<br />
l<br />
k<br />
En donde podemos<br />
n<br />
f<br />
xi<br />
y<br />
i<br />
fx<br />
xi<br />
* fy<br />
y<br />
i<br />
encontrar k como el<br />
j 1<br />
i 1 i 1<br />
i 1<br />
r <br />
número de clases para la<br />
2<br />
2<br />
l<br />
l<br />
2 <br />
k<br />
k<br />
<br />
<br />
<br />
<br />
variable "y" y l para el<br />
2<br />
n fx<br />
xi<br />
fx<br />
xi<br />
n fy<br />
y<br />
i fy<br />
y<br />
i número de clases de "x".<br />
i 1<br />
i 1<br />
i 1<br />
<br />
i 1<br />
También podemos<br />
observar que hay varios<br />
tipos de "f" es decir, la que se encuentra sola (sin subíndice) que nos habla de las<br />
frecuencias celdares (cada una de las frecuencias que se encuentran en la<br />
intersección entre una columna y un renglón) y las "f" con subíndices que representan<br />
las frecuencias de cada una de las variables.<br />
Para entender el uso de esta fórmula usaremos un ejemplo:<br />
Los resultados que se presentan en la siguiente tabla representan los pesos y las<br />
estaturas de 48 alumnos entrevistados el "día Anáhuac"<br />
Microsoft Excel<br />
97-2003 Worksheet<br />
Dar doble clic para ver un ejemplo<br />
resuelto<br />
La sustitución de la fórmula es la siguiente:
Elaborado por Víctor Herrera Bautista<br />
r <br />
k<br />
l<br />
l<br />
n f xiyi<br />
fxxi<br />
* fyyi<br />
j 1<br />
i 1 i 1<br />
i 1<br />
<br />
2<br />
2<br />
l<br />
l<br />
2 <br />
k<br />
k<br />
2 <br />
<br />
<br />
n<br />
f <br />
<br />
xxi<br />
fxxi<br />
n fyyi<br />
fyyi<br />
<br />
i 1<br />
1<br />
1<br />
1<br />
i i <br />
<br />
i <br />
k<br />
48 * 5380.77 - (82.06 * 3116)<br />
((48 *140.8982) - 82.06<br />
2<br />
) * ((48 * 212072) - 3116<br />
2<br />
0.695<br />
)<br />
Debe notarse que la doble sumatoria queda calculada con una matriz que debe<br />
explicarse en clase pero en el caso de la hoja de cálculo que se te proporciona sólo te<br />
da el resultado.<br />
Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y<br />
la estatura, es decir, que a mayor estatura mayor peso.<br />
En muchas ocasiones el resultado de la correlación es negativo y lo que debemos<br />
pensar es que la relación de las variables involucradas en el cálculo es inverso es<br />
decir que en la medida que crece la variable independiente la variable dependiente<br />
decrece:<br />
demanda<br />
150<br />
100<br />
50<br />
0<br />
1000 1500 2000<br />
Existen otras formas de calcular la correlación entre dos variables, mediante:<br />
a) Covarianza.<br />
b) Por rangos de Spearman.<br />
c) Por mínimos cuadrados.<br />
Para efecto de este curso sólo daremos las fórmulas del método de covarianza.<br />
Para datos no agrupados:<br />
n<br />
<br />
( xi<br />
x)*(<br />
yi<br />
y)<br />
xi<br />
* yi<br />
i1 i1<br />
covxy <br />
x*<br />
y<br />
n<br />
n<br />
En donde:<br />
x = cualquier valor de la variable independiente<br />
y = el valor correspondiente de la variable dependiente<br />
x = media aritmética de la variable independiente<br />
y = media aritmética de la variable dependiente<br />
n
Elaborado por Víctor Herrera Bautista<br />
Para datos agrupados:<br />
fxy<br />
covxy x * y<br />
n<br />
En donde:<br />
<br />
x = cualquier marca de clase de la variable independiente<br />
y = la marca de clase correspondiente de la variable dependiente<br />
x = media aritmética de la variable independiente<br />
y = media aritmética de la variable dependiente<br />
f = frecuencia celdar (ver atrás)<br />
Debemos recordar que como esta fórmula es semejante a la de la varianza tendremos<br />
que tomar en cuenta que si son menos de 30 datos tendremos que utilizar como<br />
denominador “n-1”<br />
Para obtener la correlación aplicaremos la siguiente fórmula:<br />
covxy<br />
r <br />
s * s<br />
x<br />
y<br />
En donde:<br />
S x = Desviación estándar de la variable independiente<br />
S y = Desviación estándar de la variable dependiente<br />
Técnicas de conteo.
Elaborado por Víctor Herrera Bautista<br />
En muchas ocasiones es necesario saber cuántos son los casos posibles y los casos<br />
favorables para hacer el cálculo de probabilidades, por lo que es necesario desarrollar<br />
algunas técnicas para determinar sin enumeración directa estos resultados.<br />
Principio fundamental del conteo.<br />
Cuando un evento puede realizarse de n 1 formas diferentes y otro evento puede<br />
realizarse de n 2 maneras diferentes y así sucesivamente, entonces el número de<br />
maneras en que los eventos pueden realizarse en el orden indicado es el producto de:<br />
n 1 *n 2 *n 3 *………*n k<br />
Ejemplo: Si llegáramos a un restaurante y nos dijeran que podemos escoger de 4<br />
sopas, 6 guisados, 2 postres y 4 bebidas el número de comidas completas diferentes<br />
que podríamos organizar sería: 4 * 6 * 2 * 4 = 192 formas diferentes<br />
Aquí debemos aclarar que si deseamos saber cuántos platillos nos han ofrecido lo que<br />
se debe hacer es sumarlos, es decir, 4 + 6 + 2 + 4 = 16<br />
Ordenaciones con repetición<br />
Este es un caso particular del principio fundamental, ya que, ahora el problema es<br />
calcular las ordenaciones de un conjunto que no cambia. Por ejemplo: Si tenemos 9<br />
cajetillas de cigarros cuántos arreglos podemos obtener si deseamos 4 y existe la<br />
posibilidad de repetición.<br />
n 1 *n 2 *n 3 *………*n k = n r<br />
en donde r es el número de veces.<br />
Sustituyendo la información del problema n r = 9 4 = 6561<br />
Ordenaciones sin repetición<br />
Notación factorial.<br />
Este caso sirve para un conjunto de datos que se desean seleccionar uno a uno hasta<br />
agotarlos y el orden es importante. Por ello tendremos que calcular el producto de los<br />
enteros positivos desde 1 hasta n inclusive. Se denota con un símbolo especial n! (n<br />
factorial).<br />
n! = 1 * 2 * 3 *…. (n - 2) * (n - 1) * n<br />
Cuando estemos haciendo operaciones con números factoriales nos podemos<br />
encontrar con las siguientes situaciones que por definición quedan resueltas.<br />
0! = 1; 1! = 1<br />
Ejemplo:<br />
¿Si debemos ordenar 5 libros de Estadística en un librero cuantas formas diferentes<br />
tenemos?<br />
5! = 5 * 4 * 3 * 2 * 1 = 120<br />
Permutaciones.
Elaborado por Víctor Herrera Bautista<br />
Este tipo de operaciones lo utilizamos cuando estamos en la misma condición que en<br />
la notación factorial pero ahora no agotamos todos los elementos, es decir, buscamos<br />
una ordenación de un conjunto de n objetos, tomados de r en r. Consideremos que r <br />
n . Su fórmula es:<br />
P r n<br />
n!<br />
<br />
( n r )!<br />
Ejemplo:<br />
¿De cuántas formas diferentes puedo seleccionar a un representante de la sociedad<br />
de alumnos de la escuela de Mercadotecnia, a un secretario y un tesorero de diez<br />
candidatos?<br />
Del problema anterior sabemos que n = 10 y r = 3, por lo que la sustitución sería:<br />
n!<br />
10! 10 * 9 * 8 * 7!<br />
n<br />
P r<br />
<br />
10 * 9 * 8 720<br />
( n r )! (10 3)! 7!<br />
Formas diferentes de<br />
elegir a tres personas.<br />
Permutaciones con repetición.<br />
Este caso es muy especial, pero no por ello difícil de encontrar, y es precisamente<br />
cuando el evento cuenta con objetos iguales, es decir, no se pueden diferenciar uno<br />
del otro, pero nos interesa el orden en el que los colocamos. Su fórmula es:<br />
Pr<br />
<br />
n !* n<br />
n!<br />
!*........* n<br />
1 2<br />
r<br />
Esto quiere decir, el número de n objetos de los cuales n 1 son iguales, n 2 son<br />
iguales,……., n r son iguales.<br />
Ejemplo: Si queremos encontrar el número de mensajes distintos que podemos con 4<br />
banderas rojas, 2 verdes y 5 azules entonces tendremos que aplicar la fórmula de<br />
permutaciones con repetición:<br />
!<br />
P<br />
r<br />
<br />
n !* n<br />
1<br />
2<br />
n!<br />
<br />
!*........* n !<br />
r<br />
11!<br />
4!*2!*5!<br />
6930<br />
Combinaciones.<br />
Cuando no nos interesa el orden de los datos y sólo queremos ver cuánto arreglos<br />
podemos formar entonces debemos calcular las combinaciones de n objetos tomados<br />
de r en r.<br />
n<br />
<br />
r<br />
<br />
n<br />
C<br />
r<br />
n!<br />
<br />
r!*(<br />
n r )!<br />
Ejemplo.
Elaborado por Víctor Herrera Bautista<br />
Si tenemos las letras a, b, c y d cuántas combinaciones podemos tener si queremos<br />
formar palabras de dos letras, aunque no tengan ningún significado.<br />
n<br />
<br />
r<br />
<br />
n<br />
C<br />
r<br />
n!<br />
4!<br />
<br />
r!*(<br />
n r )! 2!*(4 2)!<br />
4!<br />
2!*2!<br />
6<br />
6 formas diferentes de combinar las letras sin tomar en cuenta el orden, nótese que si<br />
nos interesa el orden entonces tendríamos que:<br />
P r n<br />
n!<br />
4!<br />
12<br />
( n r )! (4 2)!<br />
Nota: Tú puedes hacer el diagrama de árbol que demuestre lo que acabamos de<br />
demostrar numéricamente.
Elaborado por Víctor Herrera Bautista<br />
Probabilidad<br />
Para estudiar probabilidad se requiere tener conocimientos de la Teoría de conjuntos a<br />
continuación recordaremos los conceptos más importantes. Por otra parte, si el<br />
usuario no tiene aún bien definida la idea de lo que son los conjuntos, lo más<br />
recomendable será estudiar los temas con mayor profundidad en un libro.<br />
Conjuntos<br />
La teoría de los conjuntos constituye un lenguaje apropiado que nos facilita los<br />
estudios de algunos conceptos importantes de la Teoría de Probabilidad. Un Conjunto<br />
es una colección bien definida de elementos. Los conjuntos se representan por: A, B,<br />
C. Los elementos se representan por: a, b, c… etc. Para indicar que un elemento<br />
pertenece a un conjunto A se representa como: a A y para indicar lo contrario<br />
a A<br />
Los conceptos de orden, conteo y cardinalidad<br />
Ordenar es, en esencia, arreglar las cosas o elementos de una manera no ambigua,<br />
es decir, una vez definido cual elemento es el inicial, para el resto de ellos siempre se<br />
podrá decir cual le precede. Cuando los elementos de un conjunto son mediciones al<br />
menos en una escala ordinal, son susceptibles de ordenarse conforme a algún criterio<br />
de ordenación previamente establecido, generando así lo que se conoce como<br />
"conjunto ordenado", denotándose dicho conjunto con el nombre del anterior pero con<br />
el subíndice "ord". Así, si un conjunto X contiene valores numéricos, el conjunto de<br />
dichos valores, pero ordenados, se llamará X ord.<br />
Se conoce como par ordenado a una pareja de valores en la que el orden de sus<br />
componentes es de suma importancia, denominándose al primer valor como "primera<br />
componente" del par, y al segundo valor como "segunda componente" del par.<br />
Ejemplo: Las coordenadas de un punto en el plano son un par ordenado, ya que son<br />
de la forma (x,y).<br />
Contar los elementos de un conjunto es efectuar una correspondencia ordenada 1 a 1,<br />
entre dichos elementos y el conjunto ordenado de los enteros positivos cuyo primer<br />
elemento sea el 1.
Elaborado por Víctor Herrera Bautista<br />
La cardinalidad de un conjunto es el número de elementos que lo constituyen. Esto es,<br />
para conocer cuántos elementos tiene un conjunto será necesario contarlos, y su<br />
cardinalidad será el último número correspondido en el conjunto ordenado de los<br />
enteros positivos, al efectuar el proceso de contar. Lo anterior presenta dificultades<br />
cuando el conjunto que se pretende contar es un continuo, pues conjuntos de este tipo<br />
no son "contables". Por lo anterior, se puede concluir que existen conjuntos contables<br />
y conjuntos no contables. Un conjunto será contable si es susceptible de ordenarse y,<br />
si no lo es, será no contable. Generalmente esta dificultad se soluciona diciendo que<br />
los conjuntos no contables tienen cardinalidad infinita.<br />
El conjunto de los cardinales = C, es de las cardinalidades posibles, las cuales serán<br />
siempre números enteros no negativos, ya que nunca se podrá hablar de una<br />
cardinalidad negativa o fraccionaria; es decir, es el conjunto ordenado de los naturales<br />
con el cero = {0, 1, 2,...}.<br />
Clasificación de los conjuntos<br />
Se dice que un conjunto es finito si es contable o numerable. Esta clasificación está en<br />
función de su propiedad de ser contable y no en función de su cardinalidad, por lo que<br />
puede darse el caso de conjuntos finitos, pero de cardinalidad infinita, como, por<br />
ejemplo, el conjunto de los cardinales.<br />
Se dice que un conjunto es infinito si no es contable. Generalmente su cardinalidad<br />
también es infinita.<br />
Operaciones entre conjuntos<br />
Si se tienen dos conjuntos, digamos A y B, la unión de ellos, denotada por A U B, será<br />
un conjunto que contenga a todos los elementos de A y a todos los elementos de B<br />
que no estén contenidos en A. Es fácil observar que es indistinto decir A U B que B U<br />
A, por lo que este tipo de relación es simétrica.<br />
Ejemplo: Sean A = {3, 2, 5} y B = {2, 6, 1, 8}<br />
A U B = {3, 2, 5, 6, 1, 8} = B U A<br />
Si se tienen dos conjuntos, digamos A y B, la intersección de ellos, denotada por A ∩<br />
B, será el conjunto que contenga a aquellos elementos de A que también sean<br />
elementos de B. Este tipo de relación también es simétrica, pues el conjunto A<br />
intersección B contiene los mismos elementos del conjunto B intersección A. Cuando<br />
dos conjuntos no tienen ningún elemento en común, se dice que son conjuntos<br />
disjuntos o excluyentes, y su intersección será el conjunto vacío.<br />
Ejemplo: Sean A = {3, 2,5} y B = {2, 6, 1,8}<br />
A ∩ B = {2} = B ∩ A<br />
Debemos aclarar que cuando queremos obtener la unión de conjuntos que sí<br />
presentan intersección es la suma de sus elementos menos la intersección:<br />
Ejemplo: Sean A = {3,2,5} y B = {2,6,1,8} A ∩ B = {2} y su unión será A U B = A + B<br />
- (A ∩ B) = {3,2,5} + {2,6,1,8} - {2} = {1,2,3,5,6,8}<br />
El producto cartesiano es el conjunto de todos los pares ordenados posibles cuya<br />
primera componente sean los elementos del conjunto que esté primero y que la<br />
segunda componente de los pares sean los elementos del conjunto que esté en<br />
segundo lugar. Se denota, suponiendo que los conjuntos sean A y B, como A X B.<br />
Ejemplo: Sean A = {1, 2, 3} y B = {a, b}<br />
(3, b)}<br />
A X B = {(1, a), (1, b), (2, a), (2, b), (3, a),
Elaborado por Víctor Herrera Bautista<br />
NOTA: Este tipo de relación no es simétrica, pues generaría a otro tipo de pares<br />
ordenados.<br />
La diferencia de dos conjuntos, (A - B) es un conjunto que contiene a los elementos de<br />
A pero que no están en B.<br />
Ejemplo: Sean A = {3, 2,5} y B = {2, 6, 1,8} A - B = {3,5}<br />
Representación de conjuntos y sus operaciones.<br />
Diagramas de Venn. Este tipo de representación se utiliza fundamentalmente para<br />
representar a los conjuntos dentro de su universo, y para representar las operaciones<br />
de unión de los conjuntos, así como la intersección de los mismos. Generalmente<br />
consiste en un rectángulo que representa al universo, y en círculos interiores para<br />
representar a los conjuntos de un problema.<br />
U=Universo<br />
A = {1, 3, 7, 4}<br />
B = {8, 5, 3}<br />
U = {x | x sea un dígito}<br />
DIAGRAMA DE VENN PARA A Y B<br />
DIAGRAMA DE VENN DE A ∩B
Elaborado por Víctor Herrera Bautista<br />
Arreglo o red. Este tipo de representación gráfica se utiliza para representar al<br />
conjunto producto cartesiano entre dos conjuntos, notándose que el primer conjunto se<br />
fija en el eje horizontal, o eje de las abscisas de los ejes cartesianos, y el segundo, en<br />
el eje vertical o eje de las ordenadas; una vez hecho esto, se pintan los puntos<br />
correspondientes a todos los posibles pares ordenados generado por el producto<br />
cartesiano. Si los dos conjuntos son discretos, se generará una colección aislada de<br />
puntos en el plano; si uno de ellos es discreto, pero el otro continuo, se generarán una<br />
serie de líneas; si los dos son continuos, se generará un área; véanse las figuras V, VI<br />
A = {1, 2, 3}<br />
B = {4, 5}<br />
Arreglo o red que representa a AXB<br />
A = {5, 6, 8}<br />
B = {x | 1 < x < 2}<br />
Arreglo o red que representa a AXB<br />
A = {x | 2 < x < 4}
Elaborado por Víctor Herrera Bautista<br />
B = {x | 1 < x < 2}<br />
Arreglo o red que representa a AXB<br />
Gráfica arborescente: Ésta es otro tipo de representar al producto cartesiano de dos<br />
conjuntos, sólo que está restringido a conjuntos discretos. Consiste en poner a los<br />
elementos del primer conjunto en forma de columna, y a los elementos del segundo<br />
conjunto combinados también en columna, pero para cada elemento del primer<br />
conjunto; véase la figura.<br />
A x B<br />
1<br />
2<br />
3<br />
4<br />
5<br />
a<br />
b<br />
c<br />
d<br />
a<br />
b<br />
c<br />
d<br />
a<br />
b<br />
c<br />
d<br />
a<br />
b<br />
c<br />
d<br />
a<br />
b<br />
c<br />
d<br />
(1,a)<br />
(1,b)<br />
(1,c)<br />
(1,d)<br />
(2,a)<br />
(2,b)<br />
(2,c)<br />
(2,d)<br />
(3,a)<br />
(3,b)<br />
(3,c)<br />
(3,d)<br />
(4,a)<br />
(4,b)<br />
(4,c)<br />
(4,d)<br />
(5,a)<br />
(5,b)<br />
(5,c)<br />
(5,d)<br />
A = {1, 2, 3, 4, 5}<br />
B = {a, b, c, d}<br />
Gráfica arborescente que representa a AXB<br />
Subconjuntos posibles de un conjunto finito.<br />
Algunas veces es útil o inclusive necesario, conocer cuántos subconjuntos puede tener<br />
un conjunto, particularmente si éste tiene cardinalidad finita. Si llamamos "n" a su<br />
cardinalidad, es posible demostrar mediante el uso del concepto de combinaciones, y<br />
aceptando al conjunto vacío como un subconjunto, que existen (2) n .<br />
Definición clásica de probabilidad.<br />
Si un suceso puede ocurrir de N (casos posibles) maneras mutuamente exclusivas e<br />
igualmente verosímiles, y si M (casos favorables) de ellas poseen una característica o<br />
atributo A (el conjunto de todas ellas será el espacio eventual "S", y el conjunto de las
Elaborado por Víctor Herrera Bautista<br />
que poseen el atributo será el evento "A"), entonces la probabilidad de A, denotada por<br />
f M casos favorables<br />
p(A) = M/N, es decir, p ( A)<br />
fr <br />
N N casos posibles<br />
A esta definición se le conoce también con el nombre de definición a priori de<br />
probabilidad, pues no requiere de hacer antes alguna prueba experimental, sino que<br />
excluye la necesidad de ella.<br />
Cuando se dice que dos sucesos son mutuamente exclusivos, quiere decir que la<br />
ocurrencia de uno de ellos excluye automáticamente la posibilidad de la ocurrencia del<br />
otro, y cuando se dice que son igualmente verosímiles, se sobreentiende que ambos<br />
tienen la misma posibilidad de ocurrir, es decir, los dos eventos unitarios que los<br />
contengan, tendrán la misma probabilidad.<br />
Ejemplo: Supóngase un salón de clase de 20 alumnos, de los cuales algunos son<br />
mexicanos y otros no lo son. ¿Cuál es la probabilidad de que si se toma uno de ellos al<br />
azar sea mexicano? Véase que el espacio muestral tendrá cardinalidad igual a 20 (el<br />
suceso puede ocurrir de 20 maneras, N = 20), y suponiendo que hubiera 16<br />
mexicanos, el evento "que sea mexicano" tendrá a los 16 (M = 16); además, todos los<br />
sucesos son mutuamente exclusivos, pues cada alumno es un individuo plenamente<br />
diferenciable, y la ocurrencia de alguno implica la no ocurrencia de los otros 19, así<br />
como el hecho de que la extracción será al azar garantiza la igual verosimilitud para<br />
todos. Dado todo lo anterior, se puede aplicar la definición clásica de la probabilidad:<br />
p (salga un mexicano) = 16/20 = 0.8<br />
Definición empírica de probabilidad.<br />
Si un suceso puede ocurrir de diversas maneras mutuamente exclusivas (pero no<br />
necesariamente iguales verosímiles), y algunas de estas maneras poseen un atributo<br />
A, entonces la p(A) será igual al límite de su frecuencia relativa, es decir:<br />
n<br />
p(<br />
A)<br />
Lim<br />
N<br />
N<br />
n número de veces en que se ha cumplido A en las N repeticiones.<br />
N Número de repeticiones<br />
Lím = esto indica que la precisión en la estimación del valor verdadero de p(A) se va<br />
incrementando a medida que N crece, y que se llega al máximo cuando se llega al<br />
infinito.<br />
Si se evalúa la frecuencia relativa de la ocurrencia de un evento en un experimento<br />
que se va repitiendo, se puede observar que al principio las frecuencias relativas<br />
varían proporcionalmente mucho de una a otra repetición, es decir, si el experimento<br />
se repite digamos 10 veces, y se evalúa la f r, y se repite una vez más (la 11-ava vez),<br />
y se evalúa nuevamente la f r, la variación que presente el nuevo cálculo con respecto<br />
al anterior, será proporcionalmente mayor que si se compara con la variación de la 20-<br />
ava repetición a la 21-ava, y así sucesivamente, a medida que la N crece y se hace<br />
constante en el infinito. Esto se puede observar en forma esquematizada en la figura<br />
X.
Elaborado por Víctor Herrera Bautista<br />
FIG. X VARIACIONES EN LOS VALORES DE LA FRECUENCIA RELATIVA DE UN<br />
EVENTO AL REPETIRSE EN FORMA CRECIENTE UN EXPERIMENTO<br />
A la definición empírica de probabilidad también se le denomina como definición a<br />
posteriori de probabilidad, pues requiere de un previo experimento para poder evaluar<br />
la probabilidad de un evento.<br />
Definición axiomática de probabilidad.<br />
Cada evento posible de un espacio muestral dado, tiene un y sólo un valor de<br />
probabilidad, el cual es asociado a dicho evento mediante una regla, por lo que la<br />
probabilidad es realmente una función cuyo dominio es el conjunto de los eventos<br />
posibles de un espacio muestral, y cuyo contra dominio es el conjunto de los números<br />
reales, siempre que cumpla con los siguientes axiomas:<br />
1. Si A S, p (A) ≠ 0<br />
2. P(S) = 1<br />
3. Si A 1, A 2,..., A n es una secuencia de eventos del espacio muestral, mutuamente<br />
exclusivos, entonces la probabilidad de la unión de todos ellos es igual a la suma<br />
de las probabilidades de cada uno.<br />
Observando estos axiomas y analizándolos, en realidad lo que cada uno dice es lo<br />
siguiente: el primero dice que para todo evento de un espacio muestral, siempre su<br />
probabilidad será no negativa. Esto es obvio, ya que no importa en qué caso nos<br />
encontremos, es decir, en el caso de fenómenos insesgados en los cuales podamos<br />
aplicar la definición clásica de probabilidad, vemos que al dividir M entre N, ambos<br />
será siempre números enteros positivos que no pueden dar una respuesta negativa, o<br />
si nos encontramos en algún caso de fenómenos sesgados, en los cuales no se puede<br />
aplicar la definición clásica y tengamos que aplicar la empírica, también vemos que la<br />
respuesta no puede salir negativa, ya que no puede existir una frecuencia relativa<br />
negativa.<br />
El segundo axioma nos dice que la probabilidad del espacio muestral mismo es igual a<br />
uno; esto es también obvio, pues esto sería lo mismo que decir: ¿cuál es la<br />
probabilidad de que al efectuar un cierto experimento, nos dé como resultado alguno<br />
de los resultados posibles (alguno de los elementos de S)?, claro que la p(S) = 1.<br />
Probablemente el tercer axioma sea más difícil de entender, o mejor dicho, de<br />
interpretar, pero también es muy fácil. Lo que dice es que si se tiene una serie de<br />
eventos disjuntos (es decir, que la intersección de cualesquiera dos de ellos sea<br />
vacía), y cada evento tiene un valor de probabilidad, la probabilidad de la unión es<br />
claro que será la suma de las probabilidades parciales de cada evento, ya que la unión<br />
incluiría a todos los elementos de todos los eventos dados.
Elaborado por Víctor Herrera Bautista<br />
De los axiomas anteriores se desprende lo siguiente:<br />
1) 0 p 1<br />
2) P ( ) 1 y P( )<br />
0<br />
3) Si A A c , entonces P(A c ) 1 P(A)<br />
NOTAS: Si la probabilidad es siempre un valor entre 0 y 1, entonces el rango de la<br />
función de probabilidad será un subconjunto del intervalo cerrado entre dichos valores.<br />
Se entiende por intervalo, digamos el intervalo (2, 7), como el conjunto de todos los<br />
valores comprendidos entre el 2 y el 7. Hay dos tipos de intervalos (y uno mixto o<br />
derivado de ambos): el intervalo abierto y el intervalo cerrado. En el caso del intervalo<br />
abierto (2, 7) los valores de los límites no quedan incluidos en el conjunto, sino<br />
únicamente a todos los valores intermedios. En el caso del intervalo [2,7], los límites sí<br />
son elementos del conjunto. El intervalo mixto es aquel que es cerrado por un lado y<br />
abierto por el otro.<br />
Cuando se tiene una secuencia de eventos mutuamente exclusivos que agoten u<br />
ocupen a todo el espacio (esto se puede generalizar a subconjuntos de un conjunto<br />
cualquiera), esto es, que la unión de todos sea el espacio muestral completo, se dice<br />
que se tiene una partición. Así, una partición es un conjunto de subconjuntos disjuntos<br />
tales que la unión de todos sea el conjunto parental.<br />
Probabilidad subjetiva.<br />
Este tipo de probabilidad es asignada por un experto y no se puede comprobar, es<br />
decir, en muchas ocasiones no se dispone de datos históricos, y debemos tomar una<br />
conjetura informada, también se utiliza para estimar la probabilidad de un evento que<br />
nunca ha sucedido.<br />
Por ejemplo: para calcular la probabilidad del número de accidentes en determinado<br />
lugar le preguntamos a un policía que vigile en la zona.<br />
Reglas de probabilidad.<br />
En la economía y los negocios es importante aclarar dos condiciones para utilizar la<br />
probabilidad:<br />
a) el caso en que un evento u otro se presente.<br />
b) La situación en que dos o más eventos se presenten al mismo tiempo.<br />
Por ejemplo: para el primer caso nos preguntaríamos. ¿Cuál es la probabilidad de que<br />
la demanda de hoy exceda nuestros inventarios? Y la segunda podríamos preguntar<br />
¿¿cuál es la probabilidad de que la demanda de hoy exceda nuestro inventario y que<br />
el 10% de nuestra fuerza laboral no se presente a trabajar?<br />
Para dar respuesta a éstas y muchas más preguntas tendremos que aclarar algunos<br />
conceptos de la probabilidad.<br />
Probabilidad marginal.<br />
Es la probabilidad de un evento conocido (sencillo) y que sólo éste puede llevarse a<br />
cabo también se le conoce como probabilidad incondicional. Se representa por:
Elaborado por Víctor Herrera Bautista<br />
P(A) = la probabilidad del evento A<br />
Regla de la adición para eventos mutuamente excluyentes.<br />
Esta regla se aplica cuando deseamos conocer la probabilidad de un evento u otro<br />
sucedan. Si son mutuamente excluyentes podremos obtenerla de la siguiente manera:<br />
P(A o B) = P(A) + P (B)<br />
U<br />
A<br />
B<br />
En el diagrama observamos que para conocer la unión sólo debemos juntar sus<br />
probabilidades.<br />
Existe un caso especial para cualquier evento A, tenemos que este sucede o no<br />
sucede. De modo que los eventos A y no A son mutuamente excluyentes y a su vez<br />
exhaustivos (es decir, con ellos juntos ya no habrá más elementos) tendremos:<br />
P(A) + P (no A) = 1 o de manera equivalente: P(A) = 1- P (no A)<br />
Regla de la adición para eventos no mutuamente excluyentes.<br />
Si dos eventos no son mutuamente excluyentes, es posible que ambos se presenten al<br />
mismo tiempo y por ello debemos modificar la regla de adición para obtener:<br />
P(A o B) = P(A) + P (B) - P(A y B) = P(A) + P (B) - P(A B)<br />
P(A)<br />
P(AB)<br />
P (B)<br />
Probabilidades bajo condiciones de independencia estadística.<br />
Existe la posibilidad de que al estar calculando la probabilidad de un evento tengamos<br />
que revisar si éste no es resultado que haya sucedido otro evento previo, debido a que<br />
ahora examinaremos él cálculo de probabilidad de eventos que son estadísticamente<br />
independientes, es decir, la presentación de uno de ellos no tiene efecto sobre la
Elaborado por Víctor Herrera Bautista<br />
probabilidad de presentación de cualquier otro evento. Por ejemplo supongamos que<br />
contamos con una urna en donde hemos depositado papelitos con los 10 nombres de<br />
los candidatos a dos becas otorgadas por el CONACYT para realizar estudios de<br />
postgrado en el extranjero. Si extraemos un papelito para seleccionar al primer<br />
candidato nuestra probabilidad es de P(A) = 10<br />
1 , pero si no lo regresamos hemos<br />
modificado la probabilidad de seleccionar a otro candidato, ya que ahora sólo hay 9<br />
papelitos, para no alterar esta probabilidad habrá que regresar el primer papelito<br />
extraído. Es importante aclarar que en estas condiciones tendremos tres casos<br />
diferentes de probabilidad bajo independencia estadística:<br />
1. MARGINAL P(A)<br />
2. CONJUNTA P(A y B)<br />
3. CONDICIONAL P(B\A)<br />
Probabilidades bajo condiciones de dependencia estadística.<br />
En este caso las probabilidades que deseamos calcular dependen de que haya<br />
sucedido otro evento, también tenemos tres tipos diferentes de probabilidades,<br />
marginal, conjunta, condicional y aunque se llaman igual se calculan de forma distinta.<br />
En el cuadro siguiente podemos observar las fórmulas que nos servirán para calcular<br />
los diferentes tipos de probabilidad:<br />
Bajo independencia<br />
Bajo dependencia<br />
Tipo de Símbolo Fórmula Tipo de Símbolo Fórmula<br />
probabilidad<br />
probabilidad<br />
Marginal P(A) a Marginal P(A) Suma de<br />
P(<br />
A)<br />
<br />
probabilidad<br />
n<br />
es de los<br />
eventos en<br />
los que A se<br />
presenta<br />
Conjunta P(AB) P(A)*P(B) Conjunta P(AB) P(A\B)* P(B)<br />
P(BA) P(B\A)*P(A)<br />
Condicional P(B\A) P(B) Condicional P(B\A)<br />
P(A\B)<br />
P(<br />
B A)<br />
P(<br />
A)<br />
P(<br />
A B)<br />
P(<br />
B)
Elaborado por Víctor Herrera Bautista<br />
Supongamos que conocemos la probabilidad de que al seleccionar una muestra de<br />
alumnos de la carrera de Negocios internacionales de la escuela de Economía y<br />
Negocios, que sea hombre. P (H) = 0.35. También sabemos que la probabilidad de<br />
que un hombre salga reprobado en Estadística es de 37%, mientras que de las<br />
mujeres el 30% reprobarán la materia.<br />
a) Generar el diagrama de árbol para explicar este problema.<br />
b) Crear un cuadro de información para mostrar las probabilidades marginales y<br />
conjuntas<br />
c) Calcular la probabilidad de que al seleccionar un alumno sea reprobado dado que<br />
es mujer.<br />
d) Calcular la probabilidad de seleccionar un hombre dado que está aprobado en<br />
Estadística<br />
Respuesta de a)<br />
Alumnos<br />
0.35<br />
1 – 0.35<br />
0.37<br />
Hombres<br />
1 – 0.37<br />
0.30<br />
Mujeres<br />
1 – 0.30<br />
Reprobado<br />
Aprobado<br />
Reprobado<br />
Aprobado<br />
Respuesta b)<br />
Hombre Mujer Total<br />
marginal<br />
Reprobado 0.1295 0.195 0.3245<br />
Aprobado 0.2205 0.455 0.6755<br />
Total<br />
marginal<br />
0.35 0.65 1.00<br />
Respuesta c)<br />
Este inciso lo podemos resolver de dos formas dependiendo del diagrama que<br />
utilicemos, si utilizamos el diagrama de árbol tendremos:<br />
P(<br />
R M ) 0.30*0.65<br />
P ( R / M ) 0.30<br />
P(<br />
M ) 0.65<br />
La otra opción es tomar la información de la tabla del inciso b)<br />
P(<br />
R M ) 0.195<br />
P ( R / M ) 0.30<br />
P(<br />
M ) 0.65<br />
Respuesta d)<br />
También tenemos dos formas de responder pero es importante lo que va a pasar<br />
ahora en el diagrama de árbol.
Elaborado por Víctor Herrera Bautista<br />
P(<br />
H A)<br />
0.35*0.67<br />
P ( H / A)<br />
<br />
0.326424<br />
P(<br />
A)<br />
(0.35*0.67) (0.65*0.70)<br />
Es decir descubrimos que para poder calcular la probabilidad marginal de “aprobado”<br />
tuvimos que sumar las probabilidades en donde estuvo presente el evento.<br />
Mientras que si ya hicimos la tabla las cosas serán más fáciles.<br />
P(<br />
H A)<br />
0.2205<br />
P ( H / A)<br />
0.326424<br />
P(<br />
A)<br />
0.6755<br />
A este caso en particular se le denomina Teorema de Bayes y su fórmula general es:<br />
P(<br />
B A)<br />
P(<br />
B / A)*<br />
P(<br />
A)<br />
P A/<br />
B)<br />
<br />
P(<br />
B)<br />
( P(<br />
B / A)*<br />
P(<br />
A))<br />
( P(<br />
B / A)<br />
(<br />
C<br />
C<br />
* P(<br />
A)<br />
)
Elaborado por Víctor Herrera Bautista<br />
Distribuciones de Probabilidad.<br />
La distribución de probabilidad es muy interesante, ya que, nos proporciona una forma<br />
sencilla de calcular probabilidades para eventos que son repetitivos o muy comunes y<br />
para ello debemos recordar que en estadística hay dos tipos de variables aleatorias<br />
las discretas y las continuas. Las discretas normalmente provienen de un conteo,<br />
por ejemplo; número de hijos, número de veces que compra el mismo producto en un<br />
mes, numero de faltas durante un semestre, etc. Y su gráfica quedara representada<br />
por puros puntos en el plano cartesiano. Mientras que las continuas son aquellas que<br />
se encuentran dentro de un intervalo con un valor mínimo y uno máximo y se<br />
representan gráficamente con una línea dentro del plano cartesiano, estas son tales<br />
como la estatura de las personas, el tipo de cambio, el precio de una acción, etc.<br />
Lo primero que analizaremos es la Esperanza matemática para cada uno de los tipos<br />
de variables:<br />
Esperanza para variables discretas.<br />
Para que no te olvides de este tema, debes recordar las fórmulas de datos agrupados<br />
de la estadística descriptiva por ejemplo:<br />
x =<br />
k<br />
<br />
i1<br />
f<br />
i<br />
*X<br />
n<br />
i<br />
o<br />
=<br />
k<br />
<br />
i1<br />
f i<br />
<br />
X <br />
i<br />
N<br />
<br />
2<br />
o<br />
k<br />
<br />
i1<br />
f<br />
i<br />
<br />
x<br />
i<br />
3<br />
n<br />
<br />
<br />
3<br />
La primera de la media aritmética, la segunda para la desviación estándar y la tercera<br />
para el sesgo todas ellas en datos agrupados, es decir, que se encuentran en una<br />
tabla de distribución de frecuencias.<br />
La esperanza matemática de variables discretas se puede calcular con estas fórmulas<br />
considerando que<br />
n<br />
f<br />
puede ser la probabilidad de cada suceso en la distribución así<br />
tendríamos:<br />
Se podría representar como<br />
E(x)<br />
<br />
μ=<br />
k<br />
<br />
i1<br />
P(x<br />
i<br />
)* x<br />
i<br />
K<br />
= P(<br />
x i<br />
)*( x i<br />
)<br />
i1<br />
2
Elaborado por Víctor Herrera Bautista<br />
k<br />
<br />
i1<br />
p(<br />
x i<br />
)*<br />
<br />
3<br />
<br />
x i<br />
<br />
<br />
3<br />
En las variables continuas no es posible sumar al total de los datos porque estan dentro de un<br />
intervalo y es infinito el número de casos posibles por lo que sera necesario utilizar integrales<br />
definidas para obtener el área bajo la curva. Y en la esperanza matemáticas se debera definir<br />
la funcion de densidad que nos servirá para obtener las probabilidades. Esta función deberá<br />
cumplir con los axiomas de la probabilidad para poder ser trabajada.<br />
P ( a x b)<br />
f ( x)<br />
dx<br />
Por lo anterior las formulas de la esperanza matemática para variables continuas quedarían:<br />
b<br />
E(x) μ= f ( x)<br />
* x<br />
a<br />
idx<br />
b<br />
2<br />
= f ( x)*(<br />
x )<br />
dx<br />
a i<br />
Para la media aritmética, desviación estándar y sesgo respectivamente.<br />
<br />
<br />
b<br />
p( x)*<br />
x i<br />
<br />
a<br />
3<br />
<br />
b<br />
a<br />
<br />
3
Elaborado por Víctor Herrera Bautista<br />
Ejemplo de variable discreta:<br />
Si se obtiene la probabilidad de que se cancelen cuentas de nuestros clientes por semana, la<br />
información se reporta en la siguiente tabla:<br />
Probabilidad<br />
No de de que<br />
cuentas suceda en<br />
canceladas cualquier<br />
semana<br />
xi * p(xi) xi - media p(xi) * (xi - media) 2 p(xi) * (xi - media) 3<br />
Xi<br />
=<br />
K<br />
P(<br />
x i<br />
)*( x i<br />
)<br />
i1<br />
p(xi)<br />
0 0.021 0.000 -2.22 0.1034964 -0.229762008<br />
1 0.325 0.325 -1.22 0.4837300 -0.590150600<br />
2 0.258 0.516 -0.22 0.0124872 -0.002747184<br />
3 0.205 0.615 0.78 0.1247220 0.097283160<br />
4 0.191 0.764 1.78 0.6051644 1.077192632<br />
Sumas 1 2.220 1.3296000 0.351816000<br />
k<br />
E(x) μ= P(x<br />
i1<br />
i<br />
)* x 0*0.0211*0.325<br />
2*0.258 3*0.205 4*0.191 2.22<br />
i<br />
2<br />
1.3296 1.15308<br />
<br />
sesgo<br />
k<br />
i 1<br />
p(<br />
x i<br />
)*<br />
<br />
3<br />
<br />
x<br />
i<br />
<br />
<br />
3<br />
0.351816<br />
0.22947<br />
3<br />
1.15308<br />
La primer suma de 2.22 nos indica la cantidad de cuentas canceladas que debemos esperar en<br />
cada semana. Luego obtuvimos la desviación estándar de 1.15308 y posteriormente el sesgo<br />
de 0.22947 con lo que podemos decir que: un intervalo de confianza al 68% de confianza para<br />
el número de cuentas canceladas será (1.067, 3.373) y su sesgo positivo.
Elaborado por Víctor Herrera Bautista<br />
En el caso de las variables continuas:<br />
Un profesor de la Anáhuac nunca termina su clase antes del término de la hora, mas nunca se<br />
pasa de 2 minutos de ésta. Sea X: el tiempo que transcurre entre el término de la hora y el<br />
término efectivo de la clase. Suponga que la función de densidad viene dada por:<br />
f ( x)<br />
2<br />
kx<br />
0 x 2<br />
<br />
0<br />
para cualquier otro<br />
a) Encuentre el valor de k.<br />
b) ¿Cuál es la probabilidad de que la clase termine a menos de un minuto después del<br />
término de la hora?<br />
c) ¿Cuál es la probabilidad de que la clase continúe entre 60 y 90 segundos después del<br />
término de la hora?<br />
d) ¿Cuál es la probabilidad de que la clase continúe por lo menos 90 segundos después<br />
del término de la hora?
Elaborado por Víctor Herrera Bautista<br />
e) Encuentre la media esperada de tiempo que se tarda el profesor y la desviación<br />
estándar.<br />
E(x)<br />
<br />
μ=<br />
<br />
b<br />
a<br />
f<br />
( x)*<br />
x dx<br />
i<br />
<br />
2 8<br />
2<br />
x * xdx 10.667<br />
0<br />
3<br />
<br />
=<br />
2<br />
b f ( x)*(<br />
x )<br />
dx<br />
a i<br />
<br />
598.640988<br />
<br />
24.47<br />
Lo que nos lleva a concluir que se espera que el profesor salga entre 0 y 35.13 segundos tarde<br />
de su clase con un nivel de confianza del 68%.<br />
Una aplicación de la esperanza matemática adecuada para economía y negocio muy útil para<br />
estimar los costos que se pueden esperar al abrir por primera vez. Por ejemplo:<br />
El gerente de personal de una Compañía está planeando cuanto personal ocupará en las<br />
instalaciones del taller del negocio. A partir de información proporcionada por el fabricante y por<br />
otros negocios cercanos, ha estimado el número de horas de mecánica anuales que es<br />
probable que requiera su taller.<br />
El gerente planea pagar a cada mecánico $9.00 por hora y cargar a su cliente $16.00 por hora.<br />
Los mecánicos trabajarán una semana de 40 horas y tendrán vacaciones anuales de dos<br />
semanas.<br />
Horas 10000 12000 14000 16000<br />
Probabilidad 0.2 0.3 0.4 0.1<br />
Determine cuantos mecánicos deberá contratar el gerente.<br />
datos<br />
empleados 5 6 7 8<br />
Horas 10000 12000 14000 16000<br />
Probabilidad 0.2 0.3 0.4 0.1
Elaborado por Víctor Herrera Bautista<br />
c/he 9<br />
i/h 16<br />
52 sem 50<br />
250 300 350 400<br />
5 6 7 8<br />
ganancia 7<br />
trabajo de un<br />
emp 2000<br />
tabla de ganancias esperadas<br />
ofrecen<br />
5 6 7 8 p(x) 5 6 7 8<br />
Demandan<br />
5 70000 52000 34000 16000 0.2 14000 10400 6800 3200<br />
6 56000 84000 66000 48000 0.3 16800 25200 19800 14400<br />
7 42000 70000 98000 80000 0.4 16800 28000 39200 32000<br />
8 28000 56000 84000 112000 0.1 2800 5600 8400 11200<br />
50400 69200 74200 60800<br />
ofrecen<br />
tabla de pérdidas esperadas<br />
Demandan<br />
5 6 7 8 p(x) 5 6 7 8<br />
5 0 18000 36000 54000 0.2 0 3600 7200 10800<br />
6 14000 0 18000 36000 0.3 4200 0 5400 10800<br />
7 28000 14000 0 18000 0.4 11200 5600 0 7200<br />
8 42000 28000 14000 0 0.1 4200 2800 1400 0<br />
19600 12000 14000 28800<br />
Como se puede observar se determinó primero cuántos empleados deben cubrir las horas de<br />
trabajo, luego se calculó la ganancia, el ingreso y las perdidas con cada contratación, por<br />
ejemplo; el 84,000 de la tabla de ganancias, que se encuentra al ofrecer 6 empleados y se le<br />
haya demandado el trabajo para 6 empleados se obtuvo multiplicando 12,000 horas por 7<br />
pesos de ganancia pero es importante observar que a los datos que no se encuentran en la<br />
diagonal principal se les descontó ya sea costo real o costo de oportunidad como en el caso de<br />
56,000 que se encuentra al ofrecer 5 empleados y que se le soliciten las horas para 6<br />
empleados entonces se ganaría lo de 5 empleados 70,000 menos (2000*7) = 14,000 por no<br />
tener al otro empleado. El 34,000 de la tabla de ganancias que se encuentra al ofrecer 7<br />
empleados y se le requieran las horas para ser cubiertas por 5 empleados se gana lo de los 5<br />
empleados pero se pierde en salario de 2 más 70000 – (4000*9).<br />
Después se obtienen las ganancias esperadas por cada una de las opciones de oferta y se<br />
selecciona el de mayor ganancia posible (marcada con verde). Para las pérdidas se realiza el<br />
mismo trabajo y se puede observar en la otra tabla.
DISTRIBUCION CARACTERISTICAS FORMULA MINITAB ESPERANZA. VARIANZA<br />
Binomial<br />
(n y p)<br />
N fijo<br />
2 resultados (éxito y<br />
fracaso)<br />
Encontrar el nº exacto de éxitos P(x=k)<br />
Al menos o por lo menos K; P(xprob.dist -<br />
>binomial-<br />
>prob-><br />
Calc-<br />
>prob.dist -<br />
>binomial-<br />
>cum. Prob<br />
E(x)=np<br />
2<br />
<br />
npq<br />
Multinomial<br />
(varias x, varias p)<br />
Geométrica<br />
(se desea un lugar<br />
específico y un solo<br />
acierto)<br />
Binomial negativa<br />
(un éxito al final y otros<br />
éxitos)<br />
Hipergeométrica<br />
(no hay “p”)<br />
Poisson<br />
(el único dato es un<br />
promedio)<br />
P es constante e<br />
independiente<br />
Se puede repetir el<br />
experimento. Varias<br />
veces<br />
N fijo<br />
K resultados<br />
K probabilidades<br />
independientes<br />
N es fijo<br />
Dada la probabilidad obtener x<br />
El resultado de cada exp puede clasif. En k<br />
categ.<br />
Deben haber k probabilidades<br />
Cada exp. Es indep.<br />
El exp se realiza n veces<br />
2 resultados Se desea calcular la probabilidad de lograr<br />
un éxito al último de x repeticiones<br />
P es cte. e<br />
independiente<br />
N variable<br />
2 resultados<br />
P constante e<br />
independiente<br />
N fijo<br />
2 resultados<br />
P no constante no<br />
hay independencia<br />
Se desea obtener la prob. R éxitos donde<br />
el último éxito está en la última repetición<br />
N=tamaño de población, n=tamaño de la<br />
muestra, m=éxitos en la población,<br />
X=éxitos en muestra.<br />
x !* x<br />
1<br />
2<br />
n<br />
!*....*<br />
! x1<br />
x2<br />
p1<br />
* p2<br />
xk<br />
*....* p<br />
x k<br />
k<br />
Calc-<br />
>prob.dist -<br />
>binomial-<br />
>inv. Cum.<br />
Pro.<br />
1<br />
P(x x) p<br />
1<br />
q<br />
x 1<br />
E( x)<br />
<br />
p<br />
P(x)<br />
P(<br />
x x)<br />
<br />
P(<br />
X<br />
E(<br />
x)<br />
<br />
r xr<br />
<br />
x1 Cr<br />
1<br />
p q<br />
p<br />
m<br />
Cx<br />
*<br />
C<br />
N m<br />
Éxitos o fracasos que ocurren en un intervalo de tiempo o región de<br />
espacio x!<br />
N<br />
e<br />
x)<br />
<br />
<br />
n<br />
x<br />
<br />
C<br />
nx<br />
Calc-<br />
>prob.dist -<br />
>hipergeome<br />
tric<br />
Calc-<br />
>prob.dist -<br />
>poisson<br />
r<br />
2<br />
<br />
2<br />
<br />
q<br />
<br />
2<br />
p<br />
rq<br />
<br />
2<br />
p<br />
m 2 N n <br />
E( x)<br />
n*<br />
np<br />
npq<br />
<br />
N <br />
N 1<br />
<br />
E (x) <br />
2