La Enciclopedia Libre Universal en Español dispone de una lista de distribución pública, enciclo@listas.us.es

Regresión lineal

De la Enciclopedia Libre Universal en Español
Saltar a: navegación, buscar

I Introducción

varios casos de regresión lineal

Consideremos datos que relacionan dos variables; por ejemplo en economía, el precio constatado del metro cuadrado de la nueva vivienda en distintas fechas, o en física la medida simultánea de la intensidad y del potencial en un circuito eléctrico.

Estos datos dependen de múltiples factores, como la imprecisión de las medidas en las ciencias exactas o el contexto socieconómico en el primer ejemplo. Si al representarlos en un gráfico cartesiano se observa que los puntos forman una nube de aspecto alargado y rectilíneo (ver la figura a) entonces es razonable querer encontrar la recta que más se ajusta a ella. Intuitivamente, tal recta debería pasar por el centro de la nube y tener la misma dirección que ella. Se llama "regresión lineal" al proceso que permite hallarla.

Esta recta puede corresponder a la relación exacta entre las dos variables, por ejemplo U = R·I + e en el circuito eléctrico, pues se ha logrado así suprimir la imprecisión de las medidas, o a una tendencia profunda que indica el efecto del factor principal, por ejemplo el encarecimiento del precio de la vivienda a un ritmo constante puede ser consecuencia de un desequilibrio también constante entre la demanda y la oferta.

En la figura c La nube es rectilínea pero mucho más ancha que en la a; los puntos están en promedio bastante lejos de una recta obtenida por regresión lineal; se dice que la correlación es decir el vínculo entre las dos variables no es tan excelente (sigue siendo buena) como en el caso a.

En la figura b las variables en abscisas y ordenadas están muy fuertemente vínculadas, pues existe una función que permite calcular la ordenada a partir de la abscisa, pero tal función no es lineal, luego la regresión lineal no tiene interés: la recta y la curva divergen muy rapidamente después de los puntos de intersección.

La figura d presenta el caso de una serie estadística donde las variables parecen totalmente desvinculadas. Los distintos métodos de regresión lineal dan resultados muy diferentes que evidencian esta ausencia de relación entre ellas. En efecto, la recta horizontal indica que las ordenadas de los puntos no dependen de las abscisas, y recíprocamente para la recta vertical.


II Criterios

¿Como determinar la mejor recta posible? El criterio más legítimo es considerar las distancias entre los puntos y la recta y tratar de minimizarlas globalmente.

En todo rigor, la distancia entre un punto y una recta es la longitud de un segmento perpendicular a la recta (ver primer gráfico) y en el párrafo siguiente se va a encontrar la fórmula correspondiente.

Regresión lineal dirección.png

Sin embargo, utilizar ángulos rectos supone trabajar con un sistema ortonormal de coordenadas (al menos implícitamente) y no tiene sentido si las dos variables son de naturaleza distinta. Por ejemplo consideremos un gráfico donde el eje horizontal representa el tiempo y el vertical dinero. Bien se puede decidir que un centímetro horizontal y vertical corresponde a un año y a un mil euros respectivamente y luego trabajar en este sistema de coordenadas; pero si se escoge otras escalas no proporcionales, los ángulos rectos no serán los mismos (estirar el gráfico en una u otra direccíon los desforman) y la recta obtenida no será la misma. Al no existir una escala natural - como lo habría si ambas variables tuvieran la misma unidad - este método no dará una recta objetivamente mejor que otra.

Para paliar este problema, se puede medir las distancias con segmentos verticales u horizontales (ver los gráficos siguientes). Por costumbre se ha favorecido el método con los segmentos verticales y descartado (no completamente) el otro. Sin embargo, las fórmulas para sendos métodos son muy parecidas: en efecto si se permutan las coordenadas de los datos, se intercambian los ejes horizontales y verticales, y por la misma ocasión los segmentos horizontales y verticales. En resumen, cambiando los x y los y se pasa de un caso al otro.
Aplicar ambos métodos a la vez tiene el interés de dar una idea de lo acertado de la regresión lineal: si las rectas obtenidas son muy distintas (se mira el ángulo que hacen) entonces las variables no están correladas y no se justifica remplazar los datos por una recta; por lo contrario si las rectas son muy próximas entonces la correlación es importante y la regresión lineal es legítima.

thumbmail

Otro criterio que elegir es la expresión de la distancia global. La primera idea que surge es tomar la suma de las distancias de cada punto a la recta: , donde n es el número de puntos y di la distancia del i-ésimo punto a la recta. Otra posibilidad es pues la suma de cuadrados aparece muy a menudo en temas relacionados con distancias.
Para compararlos, consideremos un ejemplo muy sencillo, constituido de tres puntos, A(1;1), B(2;4) y C(3,1). Por simetría la recta de regresión debe ser horizontal (el eje de simetría es vertical y pasa por B). Miremos entonces las distancias verticales y también ortogonales (en rojo) de los puntos a la recta movil y = k (en verde).
S = |k - 1| + |k - 4| + |k - 1| = 2(k - 1 ) + (4 - k) (porque 1 ≤ k ≤ 4) = 2 + k. S es mínima sobre [1; 4] en k = 1 (recta violeta; |x| es el valor absoluto de x) S' = (k - 1)² + (k - 4)² + (k - 1)² = 2·(k - 1)² + (k - 4)² = 2·(k² - 2k + 1) + (k² - 8k + 16) = 3k² - 12k + 18. La derivada de esta expresión es 6k - 12 y se anula en k = 2; luego S' alcanza su mínimo en k = 2 (recta azul). La recta azul resulta intuitivamente mucho más satisfactoria, pues pasa a la altura y = 2 que es el promedio de las ordenadas de los puntos: mientras que la recta violeta pasa por la altura y = 1 y parece no tener en cuenta el punto B. De hecho pasa a la altura mediana de las ordenadas : mediana(1, 1, 4) = 1 y las medianas sólo toman en cuenta los valores centrales.
Esta es la razón por la cual se utilizan los cuadrados de las distancias en la regresión lineal.

III Con líneas perpendiculares

La recta tiene como ecuación reducida: D: y = (tan θ)·x + b; con θ el ángulo que hace la recta con el eje horizontal. Su escritura cartesiana es D: (sen θ)·x - (cos θ)·y + k = 0; con k = b·cos θ.

La distancia del punto M(xi, yi) a D es di = | (sen θ)·xi - (cos θ)·yi + k| y la suma de los cuadrados es lógicamente

Para encontrar el valor de k que minimice la suma anterior, derivemos S con relación a k: .
Esta derivada partial es nula cuando: = 0
es decir cuando : Luego donde G(xG, yG) es el baricentro de la nube de puntos.

Esto significa exactamente que el baricentro G pertenece a la recta de regresión lineal, lo que era intuitivo.

Ahora tomemos las nuevas coordenadas x' = x - xG ; y' = y - yG, lo que equivale a colocarse en un sistema de coordenadas centrado en G.

Esto permite hacer desaparecer k de S.

, donde son respectivamente la varianza en x; la covarianza y la varianza en y.

Al derivar S con relación a θ se obtiene:

Esta derivada partial es nula cuando

Este valor de θ corresponde a un mínimo cuando (se mira el signo de la derivada alrededor del valor encontrado de θ.) Se obtiene así un único valor de 2θ en el intervalo ]-π; π], luego un único valor de θ en ]-π/2; π/2] lo que caracteriza perfectamentre la dirección de la recta.

IV Con líneas verticales

Es de muy lejos la regresión lineal más utilizada puesto que no hay condición para su uso.
La recta tiene como ecuación: D: y = a·x + b. Como en el párrafo anterior se va a establecer que la recta pasa por el isobaricento G de los puntos Mi, y luego se establecerá la fórmula de a con las varianzas y la covarianza: .

La distancia global es

La derivada parcial con relación a b es . Es nula cuando es decir

luego
lo que significa que el baricentro G verifica la ecuación de D: yG = a·xG + b, luego G pertenece a esta recta.

Adoptemos ahora las coordenadas centradas en G: x' = x - xG, y' = y - yG. En este nuevo sistema de coordenadas, la ecuación de la recta es Δ: y' = a·x' (geométricamente, tiene la misma pendiente que en el sistema de coordenadas inicial y pasa por el nuevo origen; algebraicamente:restando « yG = a·xG + b» a «y = a·x + b» se obtiene exactamente «y' = a·x'»).

Entonces y su derivada con relación a a es .

La derivada se anula cuando y este valor corresponde efectivamente a un mínimo porque S es un polinomio de segundo grado en a de coeficiente dominante positivo.

Cuando se utilizan las distancias según líneas horizontales, se obtiene
, y la ecuación de la recta es Δ':x = a'·y + b' (cuidado al intercambio de los papeles de x e y), b' se calcula gracias al punto G que también pertence a esta recta de regresión.

Si se quiere representar Δ' en un sistema de coordenadas usual, con las x en el eje horizontal y las y en el vertical, su pendiente será . Esta recta es siempre más inclinada (más cerca del eje vertical) que Δ, es decir que su pendiente es, en valor absoluto, mayor que el de Δ: pero del mismo signo, él de la covarianza. Luego 0 ≤ a·a' ≤ 1. La igualdad a·a' = 1 corresponde a puntos alineados,(Δ y Δ' están confundidas) es decir a una correlación perfecta; mientras que cuando a·a' = 0, Δ es horizontal; Δ' vertical, y la correlación es nula (como la covarianza).

Para medir la divergencia entre las dos rectas, se puede calcular el cociente entre sus pendientes (la menor dividida por la mayor, para obtener un cociente entre 0 y 1):

El paréntesis contiene un término que toma su valor en [-1; 1] , vale -1 ó 1 cuando los datos están perfectamente correlados, vale 0 cuando no lo están en absoluto, y su signo es él de la covarianza, indica si y tiende a aumentar con x o al contrario a disminuir cuando crece x. En fin de cuentas, es un excelente candidato para la correlación:

Se define la correlación así:
.
Se suele decir que una correlación es buena o fuerte cuando
   y mala o débil cuando
.

V Ejemplo comparativo

Regresión lineal ejemplo comparativo.png

Para comparar las tres regresiones lineales, se han trazado sus rectas en un mismo sistema de coordenadas para una serie estadística de cuatro puntos: A (-3; -3), B(-2; 1), C(2; 3) y E(3;-1). El baricentro de {A, B, C, E} es el origen del sistema, lo que permite saltarse una etapa de cálculo (prescindir de los x'i e y'i).

punto    A       B       C       E     Suma 
  x   -3 - 2 2 3 0
  y   -3 1 3 -1 0
  xy 9 -2 6 -3 10
  x² 9 4 4 9 26
  y² 9 1 9 1 20

Las pendientes de las rectas son:

para la regresión según líneas verticales (en azul);

pendiente en este sistema de coordenadas de la regresión según líneas horizontales (en rojo);

para la regresión según líneas perpendiculares (en verde).

Las rectas Δ y Δ' divergen bastante, por tanto las correlación no es buena:

Nótese que en los cálculos se han utilizado las sumas y no los coeficientes
: dividir por el número total de puntos cada suma no cambiaría las pendientes (que son cocientes de dichos coeficientes).


Autor: M.Romero Schmidtke