Preparatoria

Comportamiento de los datos de dos variables

Representación y comportamiento de datos para dos variables

Para describir el comportamiento de datos para dos variables, en este bloque se presentarán técnicas para describir su representación tabular y gráfica; posteriormente se calculan mediciones que revelen su grado de relación, así como la fuerza y porcentaje explicativo de su comportamiento. El apartado concluye con la explicación de una técnica útil para modelar una recta de regresión lineal.

Representación tabular de contingencia

Si se sortea un viaje a la playa entre los 120 compradores de boleto de una rifa, que tiene como objetivo final obtener fondos para financiar la construcción de un aula escolar, podemos definir que se dispone de dos variables; la primera, el sexo (hombre o mujer) y la segunda recoge si el individuo es casado o soltero. Del total de compradores, 65 son mujeres, 80 están casados y 45 son mujeres casadas.

La descripción de los compradores de boleto se puede organizar en una tabla de contingencia para expresar la relación entre las dos variables en una muestra aleatoria de 120 individuos y nos ayuda a organizar la información que se puede presentar de la siguiente forma:

En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, que habitualmente son de naturaleza cualitativa (nominales u ordinales). Para un ordenamiento de más variables y datos podemos retomar el cuadro sobre el Telebachillerato comunitario “Loma Bonita” que conociste en tu libro de Probabilidad y Estadística I, y que a continuación se presenta con algunos cambios ante la necesidad de procesar la información de forma más consistente.

Podrás percatarte que al inicio de cada fila hay una característica sobre los alumnos y alumnas de dicho bachillerato, éstas pueden considerarse variables, si atendemos a que una variable puede definirse como el aspecto relevante que se considera para cada elemento de la muestra y puede tomar diferentes valores.

En el bloque anterior analizaste los tipos de variables, ahora es posible llegar a determinar qué tanta relación tienen o pueden llegar a tener un par de variables entre sí. A esto se le denomina análisis bivariado.

Representación por medio de diagramas de dispersión

Los datos de las variables seleccionables se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal (x) y el valor de la otra variable determinado por la posición en el eje vertical (y). Para el caso de la tabla de las variables “edad promedio” y “semestre”, la nube de puntos puede presentarse de la siguiente forma:

Como se puede observar en la gráfica anterior, podría presumirse la existencia de una relación lineal de tipo positivo entre las variables relacionadas, ya que existe claramente la posibilidad de configurar una recta trazable a partir de los datos, que sería creciente, esto es, con pendiente positiva. Esto significa, en los hechos, algo muy lógico: entre mayor es el semestre analizado es mayor la edad de los grupos de telebachillerato comunitario ”Loma Bonita”. La construcción de este tipo de
diagramas es un primer paso para investigar la relación entre dos variables, porque en el diagrama se muestra visualmente la forma y grado de la relación.

Por ejemplo, los diagramas A y B siguientes, indican relación en forma de línea recta y el diagrama C, sugiere una relación curvilínea.

Los diagramas A y B muestran también un alto grado de dependencia de las relaciones. Sin embargo, el diagrama C muestra una relación que no es estrecha en sentido lineal.

El diagrama D indica en cambio, que no hay relación entre las variables, puesto que no hay línea o curva adecuada para describir la relación promedio entre ambas variables. Estos diagramas de dispersión también indican si la relación entre las dos es positiva o negativa, como en los casos A y B, respectivamente.

Existen cuatro aspectos que debes tomar en cuenta para caracterizar la relación entre variables.

Análisis de correlación

Con frecuencia, los diagramas de dispersión no muestran claramente si existe relación lineal entre dos variables. En razón de ello, puede ser necesario medir el grado de asociación entre ellas, a partir de calcular un valor numérico que indique el tipo
de relación existente.

Las posibilidades se acotan a tres tipos de relación lineal:

  • Directa, si la línea recta es creciente y se advierte una pendiente positiva, como en el anterior diagrama A.
  • Inversa, Si la línea recta es decreciente y se advierte una pendiente negativa, como en el diagrama B.
  • Inexistente, que ocurre si la relación entre variables es inexistente como en el diagrama D.

Covarianza

La covarianza es una medida descriptiva de variación simultánea de las variables que permite determinar el tipo de asociación entre ellas. Es una forma de conocer sí entre dos variables existe alguna relación, y con ello es posible realizar análisis, llegar a ciertas conclusiones e incluso comprobar hipótesis.

El director del Telebachillerato “Loma Bonita” requiere de un análisis sobre el rendimiento de las y los alumnos inscritos en los seis semestres de dicha institución educativa. Para definir la asociación de las variables disponibles con la más cercana al rendimiento, es necesario establecer cuáles variables podrían ser las asociadas.

El signo de esta medición indica que existe una relación inversa entre las variables, lo que significa en concreto que cuando X (la edad promedio incrementa de valor), Y (el promedio de calificaciones disminuye) y viceversa.

Espera a revisar los siguientes dos ejemplos para discutir lo que está detrás de estos resultados.

Carlos, alumno de sexto semestre, propone que se tomen las variables Número de estudiantes que trabajan y Promedio de calificaciones, por lo que al calcular la correlación entre ambas variables y asignar una valor a esa medida de asociación, siguiendo los pasos anteriormente descritos, es posible encontrar:

El signo de esta medición indica que existe una relación positiva entre las variables, lo que significa que cuando X (número de estudiantes que trabaja incrementa de valor), Y (el promedio de calificaciones aumenta) y viceversa.

Coeficiente de correlación lineal

Después de conocer el uso de una herramienta para apreciar si hay o no relación entre dos variables, sería bueno saber con qué fortaleza se presenta ésta. Para ello podemos utilizar el coeficiente de correlación, una medida de la relación lineal entre dos variables. Indica cuán débil o fuerte es una relación lineal entre dos variables.

Debemos tener en cuenta que mientras más elementos utilicemos para caracterizar las variables, tendremos un análisis más nutrido, confiable y congruente. Si retomamos el último ejemplo tenemos que, en términos más generales, a la covarianza
que ya conocemos, solamente hay que agregar dos factores adicionales. La desviación estándar muestral de X y la desviación estándar muestral de Y. Aquí basta recordar que se utiliza la siguiente fórmula:

El rango de valores está entre -1 y +1
Retomando el ejemplo:

Recapitulando: cuando lo que interesa es analizar una relación de asociación entre dos variables primero debemos definir cuál de ellas es la variable Y, variable dependiente, y cuál es la variable X, variable independiente. Una vez definido esto es posible establecer sus niveles de correlación:

Coeficiente de determinación

Para saber si una variable X es “buena” para explicar la variable Y, en estadística se utiliza el coeficiente de determinación.

En este contexto, la variable dependiente Y es la que se busca explicar, y en términos estadísticos es lo que se busca estimar o pronosticar. A su vez, la variable independiente X es la que brinda información para explicar Y y recibe el nombre de variable de predicción. El coeficiente de determinación, o r^2 tiene las características siguientes:

  • Es el cuadrado del coeficiente de correlación.
  • El rango de sus valores se ubica entre 0 a 1. Ese valor se interpreta como la explicación porcentual de la variabilidad de X.
  • No ofrece información sobre la dirección de la relación entre las variables.

Al recordar el ejemplo:

Regresión lineal simple

El análisis de regresión se enfoca en la exploración, explicación y estudio de dependencia de una variable mediante una o más variables explicativas. De ahí el nombre de método de predicción basado en este modelo. En éste apartado necesariamente se hace una introducción al método de regresión lineal simple, que recibe dicha denominación en razón de que:

  • Se trata de una regresión debido a que se utiliza para su cálculo, información pasada.
  • Es lineal, bajo el supuesto que así es la relación existente entre las variables X y Y que intervienen, lineal.
  • Es simple, porque se usa sólo una variable independiente para explicar la variable dependiente.

Lo anterior significa que procederemos a ajustar una recta al conjunto de datos que se pueden registrar sobre un diagrama matemático que utiliza las coordenadas cartesianas para mostrar sus valores para un conjunto de datos. La característica fundamental de esa recta es que pasará lo más cerca de todos los puntos ubicados en el diagrama de dispersión. Para lograrlo usaremos el método de mínimos cuadrados.

El método de mínimos cuadrados


El análisis de regresión consiste en definir la variable independiente X que ayude a explicar o a estimar la variable dependiente Y, siempre que exista una relación lineal entre ellas y siempre que se trate de variables cuantitativas. El método de mínimos cuadrados se utiliza para determinar una ecuación de la recta de las siguientes características:

  • Involucra para su cálculo, la noción de Y, igual, al valor de un dato i de Y.
  • También implica definir un valor estimado de , que es un valor calculado sobre la recta de regresión formada por los puntos Y. Dicha recta es pasa por la mínima distancia que hay entre cada punto y la recta de regresión.

Ejemplo:

Al recordar los cálculos que hemos obtenido en uno de los ejemplos con que hemos trabajado, es necesario sustituir los valores en las respectivas ecuaciones.

En que:

Sólo es necesario tener presente que esta representación o modelo no es muy bueno, en razón de que su correlación es muy débil, y por tanto, su capacidad predictiva también es mala. En consecuencia, la estimación del promedio de calificaciones puede ser muy diferente a la real.

Fuente: Secretaría de Educación Pública. (2015). Probabilidad y estadística I. Ciudad de México.