Ciencias física, Naturales, Matemáticas y Estadísticas

Prueba de hipótesis con una muestra

Introducción

Uno de los trabajos de un estadístico es hacer inferencias estadísticas sobre las poblaciones a partir de muestras tomadas de la población. Los intervalos de confianza son una forma de estimar un parámetro poblacional. Otra forma de hacer una inferencia estadística es tomar una decisión sobre un parámetro. Por ejemplo, un concesionario de automóviles anuncia que su nueva camioneta pequeña recorre un promedio de 35 millas por galón. Un servicio de tutoría afirma que su método de enseñanza ayuda al 90 % de sus estudiantes a obtener una calificación A o B. Una compañía dice que las mujeres administradoras de su compañía ganan un promedio de 60.000 dólares al año.

Un estadístico tomará una decisión sobre estas declaraciones. Este proceso se llama “prueba de hipótesis”. Una prueba de hipótesis consiste en recopilar datos de una muestra y evaluarlos. Luego, el estadístico decide si existen o no pruebas suficientes basándose en el análisis de los datos para rechazar la hipótesis nula.

En esta lección hará pruebas de hipótesis sobre medias simples y proporciones simples. También conocerá los errores asociados a estas pruebas.

La prueba de hipótesis consiste en dos hipótesis o afirmaciones contradictorias, una decisión basada en los datos y una conclusión. Para realizar una prueba de hipótesis, un estadístico:

  • Establecerás dos hipótesis contradictorias.
  • Recogerás los datos de la muestra (en los problemas de tareas para la casa, se le darán los datos o las estadísticas resumidas).
  • Determinarás la distribución correcta para realizar la prueba de hipótesis.
  • Analizará los datos de la muestra realizando los cálculos que, en última instancia, le permitirán rechazar o no la hipótesis nula.
  • Tomarás una decisión y escribirá una conclusión significativa.
Prueba de hipótesis con una muestra

Desarrollo del tema

Hipótesis nula y alternativa

La prueba real comienza considerando dos hipótesis. Se denominan hipótesis nula e hipótesis alternativa. Estas hipótesis contienen puntos de vista opuestos.

H0: La hipótesis nula: Es una afirmación de que no hay diferencia entre las variables: no están relacionadas. A menudo, esto puede considerarse el statu quo y, como resultado, si no se puede aceptar lo nulo, se requiere alguna acción.

Ha: La hipótesis alternativa: Es una afirmación sobre la población que es contradictoria con H0 y lo que concluimos cuando rechazamos H0. Esto es normalmente lo que el investigador está tratando de probar.

Dado que las hipótesis nula y alternativa son contradictorias, debe examinar las pruebas para decidir si tiene suficiente evidencia para rechazar la hipótesis nula o no. Las pruebas se presentan en forma de datos de muestra.

Una vez que haya determinado qué hipótesis apoya la muestra, tome una decisión. Hay dos opciones para tomar una decisión. Son «rechazar H0» si la información de la muestra favorece la hipótesis alternativa o «no rechazar H0» o «negarse a rechazar H0» si la información de la muestra es insuficiente para rechazar la hipótesis nula.

Símbolos matemáticos utilizados en H0 y Ha:

Resultados y errores de tipo I y II

Cuando se realiza una prueba de hipótesis hay cuatro resultados posibles en según la verdad (o falsedad) de la hipótesis nula H0 y de la decisión de rechazarla o no. Los resultados se resumen en el siguiente cuadro:

Los cuatro resultados posibles en la tabla son:

  1. La decisión es no rechazar H0 cuando H0 es verdadera (decisión correcta).
  2. La decisión es rechazar H0 cuando H0 es verdadera (decisión incorrecta conocida como error de tipo I).
  3. La decisión es no rechazar H0 cuando, de hecho, H0 es falsa (decisión incorrecta conocida como error de tipo II).
  4. La decisión es rechazar H0 cuando H0 es falsa (decisión correcta cuya probabilidad se denomina potencia de la prueba).

Cada uno de los errores se produce con una probabilidad determinada. Las letras griegas α y β representan las probabilidades.

α = probabilidad de un error de tipo I = P(error de tipo I) = probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es verdadera.
β = probabilidad de un error tipo II = P(error tipo II) = probabilidad de no rechazar la hipótesis nula cuando la hipótesis nula es falsa.
α y β deben ser lo más pequeños posible porque son probabilidades de error. Pocas veces son cero.

La potencia de la prueba es 1 – β. Lo ideal es que queramos una potencia alta que se acerque lo más posible a uno. Aumentar el tamaño de la muestra puede aumentar la potencia de la prueba.

Los siguientes son ejemplos de errores tipo I y tipo II.

Ejemplo:

Supongamos que la hipótesis nula, H0, es: El equipo de escalada de Frank es seguro.

Error tipo I: Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es. Error tipo II: Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.

α = probabilidad de que Frank piense que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es. β = probabilidad de que Frank piense que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.

Observa que, en este caso, el error con mayores consecuencias es el tipo II (si Frank cree que su equipo de escalada es seguro, lo utilizará).

Ejemplo:

Supongamos que la hipótesis nula, H0, es: La víctima de un accidente de tráfico está viva cuando llega a la sala de urgencias de un hospital.

Error tipo I: El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva. Error tipo II: El equipo de emergencia no sabe si la víctima está viva cuando, en realidad, está muerta.

α = probabilidad de que el equipo de emergencias piense que la víctima está muerta cuando, en realidad, está viva = P(error tipo I). β = probabilidad de que el equipo de emergencias no sepa si la víctima está viva cuando, en realidad, está muerta = P(error tipo II).

El error con mayores consecuencias es el error tipo I (si el equipo de emergencia cree que la víctima está muerta, no la atenderán).

Distribución necesaria para la comprobación de la hipótesis

A principios del curso, hemos hablado de las distribuciones de muestreo. Las distribuciones particulares están asociadas a la comprobación de hipótesis. Realiza pruebas de una media poblacional utilizando una distribución normal o una distribución t de estudiante (recuerde, utilice una distribución t de estudiante cuando la desviación típica de la población sea desconocida y la distribución de la media de la muestra sea aproximadamente normal). Realizamos pruebas de una proporción poblacional utilizando una distribución normal (normalmente n es grande).

Si se estás probando la media de una sola población, la distribución para la prueba es para las medias:

El parámetro de la población es μ. El valor estimado (estimación puntual) para μ es x¯, la media de la muestra.

Si está probando una sola proporción de la población, la distribución para la prueba es para proporciones o porcentajes:

El parámetro poblacional es p. El valor estimado (estimación puntual) de p es p′. p′ = xn donde x es el número de aciertos y n es el tamaño de la muestra.

Supuestos

Cuando se realiza una prueba de hipótesis de una única media poblacional μ utilizando una distribución t de estudiantes (a menudo llamada prueba t), hay supuestos fundamentales que deben cumplirse para que la prueba funcione correctamente. Sus datos deben ser una muestra aleatoria simple que provenga de una población que se distribuya de forma normal aproximadamente. Se utiliza la desviación típica de la muestra para aproximar la desviación típica de la población (tenga en cuenta que si el tamaño de la muestra es lo suficientemente grande, una prueba t funcionará incluso si la población no está distribuida de forma aproximadamente normal).

Cuando se realiza una prueba de hipótesis de una única media poblacional μ utilizando una distribución normal (a menudo denominada prueba z) , se toma una muestra aleatoria simple de la población. La población que está probando se distribuye normalmente o el tamaño de la muestra es lo suficientemente grande. Se conoce el valor de la desviación típica de la población que, en realidad, pocas veces se conoce.

Cuando se realiza una prueba de hipótesis de una única proporción poblacional p, se toma una muestra aleatoria simple de la población. Debe cumplir las condiciones de una distribución binomial que son: hay un cierto número n de ensayos independientes, los resultados de cualquier ensayo son aciertos o fallos, y cada ensayo tiene la misma probabilidad de un acierto p. La forma de la distribución binomial tiene que ser similar a la forma de la distribución normal. Para ello, las cantidades np y nq deben ser ambas mayores que cinco (np > 5 y nq > 5). Entonces la distribución binomial de una proporción muestral (estimada) puede aproximarse por la distribución normal con μ = p y

Recuerde que q = 1 – p.

Eventos poco comunes, la muestra, decisión y conclusión

Establecer el tipo de distribución, el tamaño de la muestra y la desviación típica conocida o desconocida puede ayudarle a averiguar cómo realizar una prueba de hipótesis. Sin embargo, hay otros factores que debe tener en cuenta a la hora de elaborar una prueba de hipótesis.

Eventos poco comunes

Suponga que hace una suposición sobre una propiedad de la población (esta suposición es la hipótesis nula). A continuación, recoja los datos de la muestra de forma aleatoria. Si la muestra tiene propiedades que sería muy improbable que ocurrieran si la suposición es cierta, entonces concluiría que su suposición sobre la población es probablemente incorrecta. (Recuerde que es solo una suposición, no es un hecho y puede o no ser cierta. Pero los datos de su muestra son reales y los datos le muestran un hecho que parece contradecir su suposición).

Por ejemplo, Didi y Ali están en la fiesta de cumpleaños de un amigo muy rico. Se apresuran a ser los primeros de la fila para ganar un premio de una cesta alta que no pueden ver en su interior porque tendrán los ojos vendados. Hay 200 burbujas de plástico en la cesta y a Didi y Ali les han dicho que solo hay una con un billete de 100 dólares. Didi es la primera persona que mete la mano en la cesta y saca una burbuja. Su burbuja contiene un billete de 100 dólares. La probabilidad de que esto ocurra es 1200 = 0,005. Como esto es tan improbable, Ali espera que lo que les dijeron a los dos esté equivocado y haya más billetes de 100 dólares en la cesta. Se ha producido un «evento poco común» (que Didi consiga el billete de 100 dólares), por lo que Ali duda de la suposición de que solo haya un billete de 100 dólares en la cesta.

Uso de la muestra para probar la hipótesis nula

Utiliza los datos de la muestra para calcular la probabilidad real de obtener el resultado de la prueba, denominada valor p. El valor p es la probabilidad de que, si la hipótesis nula es cierta, los resultados de otra muestra seleccionada al azar sean tan extremos o más extremos que los resultados obtenidos en la muestra dada.

Un valor p grande calculado a partir de los datos indica que no debemos rechazar la hipótesis nula. Cuanto más pequeño sea el valor p, más improbable es el resultado y más fuerte es la evidencia contra la hipótesis nula. Rechazaremos la hipótesis nula si las pruebas son contundentes en su contra.

Dibuja un gráfico que muestre el valor p. La prueba de hipótesis es más fácil de realizar si se utiliza un gráfico porque se ve el problema con más claridad.

Decisión y conclusión

Una forma sistemática de tomar la decisión de rechazar o no la hipótesis nula es comparar el valor p y un α preestablecido o preconcebido (también llamado «nivel de significación»). Un α preestablecido es la probabilidad de un error tipo I (rechazar la hipótesis nula cuando la hipótesis nula es verdadera). Puede que se le entregue o no al principio del problema.

Cuando tomes una decisión de rechazar o no rechazar H0, hagas lo siguiente:

  • Si α > valor p, rechaza H0. Los resultados de los datos de la muestra son significativos. Hay pruebas suficientes para concluir que H0 es una creencia incorrecta y que la hipótesis alternativa, Ha, puede ser correcta.
  • Si α ≤ valor p, no rechace H0. Los resultados de los datos de la muestra no son significativos. No hay pruebas suficientes para concluir que la hipótesis alternativa,Ha, pueda ser correcta.
  • Cuando «no se rechaza H0«, no significa que se deba creer que H0 es verdadera. Significa simplemente que los datos de la muestra no han aportado pruebas suficientes para arrojar serias dudas sobre la veracidad de Ho.

Conclusión: Una vez tomada la decisión, escriba una conclusión reflexiva sobre las hipótesis en función del problema planteado.

Ejemplo:

Cuando se utiliza el valor p para evaluar una prueba de hipótesis, a veces es útil utilizar el siguiente mecanismo de memoria.

Si el valor p es bajo, la hipótesis nula debe rechazarse.

Si el valor p es alto, la hipótesis nula no debe rechazarse.

Esta ayuda de memoria relaciona un valor p menor que el alfa establecido (la p es baja) como rechazo de la hipótesis nula y, del mismo modo, relaciona un valor p mayor que el alfa establecido (la p es alta) como no rechazo de la hipótesis nula.

Complete los espacios en blanco.
Rechace la hipótesis nula cuando __________________________.
Los resultados de los datos de la muestra _________________________.
No rechace la hipótesis nula cuando ______________________________.
Los resultados de los datos de la muestra ________________________________.

Solución

Rechace la hipótesis nula cuando el valor p sea inferior al valor alfa establecido. Los resultados de los datos de la muestra apoyan la hipótesis alternativa.

No rechace la hipótesis nula cuando el valor p sea superior al valor alfa establecido. Los resultados de los datos de la muestra no apoyan la hipótesis alternativa.

 Información adicional y ejemplos de pruebas de hipótesis completas

  • En un problema de prueba de hipótesis, puede ver palabras como «el nivel de significación es del 1 %». El «1 %» es el α preconcebido o preestablecido.
  • El estadístico que establece la prueba de hipótesis selecciona el valor de α que va a utilizar antes de recoger los datos de la muestra.
  • Si no se indica ningún nivel de significación, una norma común que se utiliza es α = 0,05.
  • Cuando se calcula el valor p y se dibuja el cuadro, el valor p es el área de la cola izquierda, de la cola derecha o dividida por igual entre las dos colas. Por esta razón, llamamos a la prueba de hipótesis de la izquierda, de la derecha o de dos colas.
  • La hipótesis alternativa, Ha, le indica si la prueba es de cola izquierda, derecha o doble. Es la clave para realizar la prueba adecuada.
  • Ha nunca tiene un símbolo que contenga un signo igual.
  • Pensar en el significado del valor p: Un analista de datos (y cualquier otra persona) debería confiar más en que ha tomado la decisión correcta de rechazar la hipótesis nula con un valor p menor (por ejemplo, 0,001 frente a 0,04), incluso si se utiliza el nivel 0,05 para el alfa. Del mismo modo, para un valor p mayor, como 0,4, frente a un valor p de 0,056 (alfa = 0,05 es menor que cualquiera de los dos números), el analista de datos debería confiar más en que tomó la decisión correcta al no rechazar la hipótesis nula. Esto hace que el analista de datos haga uso de su discernimiento en lugar de aplicar reglas sin sentido.

Ejemplo:

Fuente y licenciamiento