4.3 REGRESIÓN POR MÍNIMOS CUADRADOS: LINEAL Y CUADRÁTICA.
La dependencia entre dos (o más) variables puede ser tal que
se base en una relación funcional (matemática) exacta, como la existente entre
la velocidad y la distancia recorrida por un móvil; o puede ser estadística. La
dependencia estadística es un tipo de relación entre variables tal que
conocidos los valores de la (las) variable (variables) independiente(s) no
puede determinarse con exactitud el valor de la variable dependiente, aunque si
se puede llegar a determinar un cierto comportamiento (global) de la misma.
(Ej. La relación existente entre el peso y la estatura de los individuos de una
población es una relación estadística).
Pues bien, el análisis de la dependencia estadística admite
dos planteamientos (aunque íntimamente relacionados):
El estudio del grado de dependencia existente entre las
variables que queda recogido en la teoría de la correlación.
La determinación de la estructura de dependencia que mejor
exprese la relación, lo que es analizado a través de la regresión.
Una vez determinada la estructura de esta dependencia la
finalidad última de la regresión es llegar a poder asignar el valor que toma la
variable Y en un individuo del que conocemos que toma un determinado valor para
la variable X (para las variables X1, X2,..., Xn ).
En el caso bidimensional, dadas dos variables X e Y con una
distribución conjunta de frecuencias ( xi, yj ,nij ), llamaremos regresión de Y
sobre X ( Y/X) a una función que explique la variable Y para cada valor de X, y
llamaremos regresión de X sobre Y (X/Y) a una función que nos explique la
variable X para cada valor de Y.(Hay que llamar la atención, como se verá más
adelante, que estas dos funciones, en general, no tienen por qué coincidir).
MÉTODO DE CUADRADOS MÍNIMOS – REGRESIÓN LINEAL.
Actualmente, la mayoría de los programas de análisis de
datos y planillas de cálculo, realizan el proceso de minimización en forma
automática y dan los resultados de los mejores valores de a y b, o sea los
valores indicados por las ecuaciones.
Gráfico de datos asociados a un modelo lineal. La cantidad
yi - y(xi)
representa la desviación de cada observación de yi respecto
del valor predicho por
el modelo y(x).
El criterio de mínimos cuadrados reemplaza el juicio
personal de quien mire los gráficos y defina cuál es la mejor recta. En los
programas como Excel, se realiza usando la herramienta “regresión lineal” o
“ajuste lineal”. Los resultados se aplican en el caso lineal cuando todos los
datos de la variable dependiente tienen la misma incertidumbre absoluta y la
incertidumbre de la variable independiente se considera despreciable.
REGRESIÓN MÍNIMO-CUADRÁTICA
Consiste en explicar una de las variables en función de la
otra a través de un determinado tipo de función (lineal, parabólica,
exponencial, etc.), de forma que la función de regresión se obtiene ajustando
las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados
(M.C.O.).
Elegido el tipo de función ¦ ( ) la función de regresión
concreta se obtendrá minimizando la expresión:
(yj - ¦ (xi ) ) 2. nij en el caso de la regresión de Y/X
(yj - ¦ (xi ) ) 2. nij en el caso de la regresión de Y/X
(xi - ¦ (yj ) ) 2. nij en el caso de la regresión de X/Y
Puede probarse que es equivalente ajustar por mínimos
cuadrados la totalidad de las observaciones (toda la nube de puntos) que
realizar el ajuste de los puntos obtenidos por la regresión de la media; de
forma que la regresión mínimo-cuadrática viene ser, en cierto modo, la
consecución de una expresión analítica operativa para la regresión en sentido
estricto.
Coeficientes de regresión.
Se llama coeficiente de regresión a la pendiente de la recta
de regresión:
en la regresión Y/X
: b = Sxy / Sx2
en
la regresión X/Y b' = Sxy / Sy2
El signo de ambos coincidirá con el de la covarianza,
indicándonos la tendencia (directa o inversa a la covariación).Es interesante
hacer notar que b.b'= r2
BONDAD DEL AJUSTE ( Varianza residual, varianza de la
regresión y coeficiente de determinación)
Por bondad del ajuste hay que entender el grado de
acoplamiento que existe entre los datos originales y los valores teóricos que
se obtienen de la regresión. Obviamente cuanto mejor sea el ajuste, más útil
será la regresión a la pretensión de obtener los valores de la variable.
Obtener indicadores de esta bondad de ajuste es fundamental
a la hora de optar por una regresión de un determinado tipo u otro.
Puesto que la media de los residuos se anula, el primer
indicador de la bondad del ajuste (no puede ser el error medio) será el error
cuadrático medio, o varianza del residuo, o varianza residual :
Considerando la regresión Y/X:
Que será una
cantidad mayor o igual que cero.De forma que cuanto más baja sea mejor será el
grado de ajuste.Si la varianza residual vale cero el ajuste
será perfecto (ya que no existirá ningún error ).
Del hecho
de que yi=y*i+ei ,y de que las
variables y* ý e están incorrelacionadas se tiene
que:
Donde S2y* es la llamada varianza
de la regresión y supone la varianza de la variable regresión:
Igualdad
fundamental anterior de la que se deduce que la varianza total de la variable y
puede descomponerse en dos partes una parte explicada por la regresión (la varianza
de la regresión) y otra parte no explicada (la varianza residual).
Considerando que
la varianza nos mide la dispersión de los datos este hecho hay que entenderlo
como que la dispersión total inicial queda, en parte explicada por la regresión
y en parte no. Cuanto mayor sea la proporción de varianza explicada (y menor la
no explicada) tanto mejor será el ajuste y tanto más útil la regresión.
A la proporción
de varianza explicada por la regresión se le llama coeficiente de
determinación ( en nuestro
caso lineal):
que evidentemente
estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto
por uno explicado por la regresión.
Una consecuencia
importante en la práctica es que la varianza residual será obviamente:
Es sencillo
probar que en el caso lineal que nos ocupa el coeficiente de determinación
coincide con el cuadrado del coeficiente de correlación:
R2 =
r2
Con lo cual la
varianza residual y la varianza debida a la regresión pueden calcularse a
partir del coeficiente de correlación:
REGRESIÓN
MÍNIMO CUADRÁTICA NO-LINEAL
La regresión
mínimo-cuadrática puede plantearse de forma que la función de ajuste se busca
no sea una función lineal. El planteamiento general sería similar, aunque
obviamente habría que minimizar el cuadrado de los residuos entre los datos
originales y los valor teóricos obtenibles a través de la función no-lineal
considerada.
Regresión
parabólica .Desarrollaremos
someramente la regresión Y/X y debe quedar claro que la regresión X/Y
resultaría análoga.
Supongamos para
simplificar que los datos no están agrupados por frecuencias.
En tal caso,
obtener la función parabólica y* = a0+a1x+a2 x2 se
llevará a cabo determinado los valores de los tres parámetros a0,a1,a2 que
minimicen :
y (a0,a1,a2)=S (yi-
(a0+a1x+a2 x2)) 2
Igualando a cero
las tres derivadas parciales se obtendrá las ecuaciones normales, que
convenientemente manipuladas acaban siendo:
No hay comentarios.:
Publicar un comentario