En este video vamos a discutir acerca del modelo de regresión lineal simple, especÃficamente, sobre cómo se representan los datos, la ecuación asociada al modelo y sus parámetros, los supuestos del modelo, y finalmente, sus principales propiedades y la estimación de sus parámetros. Se trata de explicar el comportamiento de una variable aleatoria y a través de una variable aleatoria x. La metodologÃa supone que entre estas dos variables existe una relación lineal, que se puede expresar a través de una ecuación. Vamos a hablar sobre algunos casos ilustrativos de aplicación de un modelo de regresión lineal. Caso uno: Y, variable dependiente, definida como el número promedio de dÃas en mora por mes de los clientes de un crédito bancario; X, variable independiente, definida como el puntaje asignado al cliente con base en la información disponible sobre este. Caso dos: Y, variable dependiente, correspondiente a las ventas de determinado producto en el primer año; y X, variable independiente, definida como la inversión en publicidad para dicho producto. Caso 3: Y, variable dependiente, definida como el precio de una acción en el mercado de valores; y X, variable independiente, definida como la utilidad por acción o retorno a los accionistas. Notemos que en cada uno de estos tres casos se trata de pronosticar, estimar el valor que toma la variable aleatoria Y, si se conoce el valor que toma la variable aleatoria X. Para construir un modelo de regresión lineal y producir el modelo estimado, es necesario: uno, entender cómo se representan los datos; dos, formular el modelo y los supuestos; tres, saber cómo se estiman los parámetros del modelo; cuatro, conocer las hipótesis estadÃsticas de interés y las pruebas asociadas; cinco, utilizar un programa computacional, en nuestro caso, el paquete SPSS, que con base en las especificaciones del modelo de regresión y los datos, permita estimar el modelo y producir los resultados de mayor interés; y finalmente, seis, realizar el análisis e interpretación de los resultados de la estimación. Vamos a ver ahora un ejemplo ilustrativo sobre la formulación de un modelo de regresión lineal. El número de dÃas en mora de un cliente de un banco es una medida de desempeño del comportamiento de los clientes con relación a una obligación bancaria. Un banco está interesado en estimar el número de dÃas en mora de un cliente, con base en el "score" de crédito que el banco le ha calculado al cliente en el momento de su vinculación. El presente caso busca analizar si el "score" de crédito es una buena medida para explicar el número de dÃas en mora de un cliente en determinada obligación de pago. Con este objetivo en mente, se tomó una muestra de 22 clientes seleccionados al azar, registrando las variables antes mencionadas. Nos interesa, por tanto, analizar la relación que existe entre estas dos variables, y en particular, construir el modelo de regresión lineal simple para explicar el comportamiento del cliente, medido como el número de dÃas de mora, por medio de la variable "'Score' de crédito del cliente". Se trata, entonces, de realizar la estimación del efecto que produce cada punto adicional en el "score" de crédito sobre el número de dÃas de mora, es decir, estimar el valor de los parámetros Beta_0 y Beta_1 del modelo "Y igual a Beta_0 más Beta_1 X más e". ¿De dónde partimos? De n observaciones (y_1, x_1), (y_2, x_2) (y_n, x_n), de las variables aleatorias X y Y. En SPSS y en Excel, cada una de las variables corresponde a una columna y cada observación a una fila, tal como se ilustra en la tabla que aparece en la pantalla. Por otro lado, la gráfica que observamos en la pantalla representa en el plano cartesiano cada una de las observaciones acorde con los valores que toman en las variables X y Y. La lÃnea recta que aparece en color verde en la gráfica es la que corresponderÃa al modelo estimado que describiremos más adelante. La ecuación del modelo de regresión lineal está dada por Y igual a Beta_0 más Beta_1 X más E, o en términos de las observaciones, y_i es igual a Beta_0 más Beta_1 x_i más E_i, para i igual a 1 hasta n, en donde Beta_0 y Beta_1 son parámetros desconocidos que es necesario estimar, con base en las n observaciones de las variables X y Y, mientras que el término E_i es un valor aleatorio que se conoce como el error asociado a la i-ésima observación, es decir, lo que se aleja el valor Y_i del valor Beta_0 más Beta_1 x_i, ubicado sobre la recta. Los supuestos que se utilizan en la formulación y estimación de un modelo de regresión lineal simple son los siguientes: X es una variable controlada, el valor esperado del error de las observaciones es 0, y la varianza de la variable asociada al error es constante. Los errores de las observaciones son independientes entre sÃ, por lo cual se tiene que covarianza de E_i con E_j es igual a 0 para Y diferente de j. Y adicionalmente, se conoce como "supuesto fuerte" a la condición de que E_i, el error de la i-ésima observación, tiene distribución normal de media 0 y varianza Sigma cuadrado. Como consecuencia de dichos supuestos, tenemos que el valor esperado de Y, dado que X es igual a x, es igual a Beta_0 más Beta_1 por x. Beta_0 y Beta_1 y Sigma cuadrado son parámetros del modelo no observables, con valor desconocido, que deben ser estimados con base en los datos. Se trata, por tanto, de estimar los parámetros Beta_0 y Beta_1, con base en los valores de la muestra. Supongamos que los valores estimados son Beta_0 sombrero, y Beta_1 sombrero, entonces, el modelo estimado está dado por Y estimado igual a Beta_0 estimado, más Beta_1 estimado por X. Y en términos de las observaciones, estarÃa expresado por y_i estimado es igual a Beta_0 estimado más Beta_1 estimado por x_i, y corresponde al valor estimado para la i-ésima observación de la variable Y, dado que la variable independiente correspondiente a esa observación tomó el valor x_i. Se define el error de estimación para la observación i-ésima como la diferencia entre el valor de la variable dependiente y para la i-ésima observación de la muestra, y el valor estimado para la variable Y, a través del modelo para la i-ésima observación, es decir, e_i estimado es igual a y_i menos y_i estimado. Tiene particular interés lo que se conoce como la suma de los cuadrados de los errores, que está dada por suma de los cuadrados de los errores igual a la sumatoria desde i igual a 1 hasta n de e_i. i estimado al cuadrado. Puesto que para un conjunto de observaciones dado, el modelo estimado, será mejor en la medida en que la suma de los cuadrados de los errores sea más pequeña, lo que está indicando que el error total de estimación es menor. A continuación, aparece en una gráfica ilustrativa la situación que acabamos de describir sobre un modelo de regresión lineal. En el plano cartesiano X Y aparecen cada una de las observaciones X_i, Y_ i representadas por puntos; la recta estimada Y estimado igual a Beta_0 estimado más Beta_1 estimado, en donde se resalta Beta_1 estimado que corresponde a la pendiente de la recta de regresión, y Beta_0 estimado, que corresponde al intercepto de la recta con el eje Y. Adicionalmente, observamos, para el valor X_i el correspondiente valor Y_i, el valor Y_i estimado y el error estimado, que es igual a la diferencia entre Y_i menos Y_ i estimado. Estimación de los parámetros Beta_0 y Beta_1 del modelo de regresión. En el contexto antes descrito, los estimadores Beta_0 estimado y Beta_1 estimado, que minimizan la suma de los cuadrados de los errores para el conjunto de observaciones Y_1, X_1; Y_2, X_2; hasta Y_n, X_n de las variables aleatorias X y Y, están dados por Beta_0 estimado es igual a Y barra menos X barra por Beta_1 estimado, en donde Beta_1 estimado es igual a la suma ajustada de productos cruzados de las variables X y Y, dividido por la suma ajustada de cuadrados de la variable X, lo cual se representa por SXY dividido por SXX. X barra y Y barra corresponden a las medias muestrales de las variables X y Y respectivamente. Es importante resaltar que los estimadores Beta_0 estimado y Beta_1estimado se pueden calcular utilizando únicamente los valores de la muestra y que son variables aleatorias, puesto que son combinaciones lineales de las variables Y_1, Y_2, hasta Y_n. Veamos ahora, cuál es la interpretación del valor de los parámetros. Beta_0 estimado corresponde al intercepto, es decir, al punto en el que la recta del modelo corta al eje Y. Mientras que Beta_1 estimado corresponde al cambio esperado de la variable Y por incremento de una unidad en la variable X, lo cual coincide con la pendiente de la recta. Como resultado de las propiedades del modelo, se obtiene que los estimadores son combinaciones lineales de los Y_i, que son centrados, es decir, que el valor esperado de Beta_0 estimado es igual a Beta_0 y el valor esperado de Beta_1 estimado es igual a Beta_1, y su varianza está dada por la varianza de los errores, Sigma cuadrado igual a varianza de E_i se estima a través de la estadÃstica Sigma cuadrado estimado es igual a la suma de los cuadrados de los errores sobre n menos 2, el cual es un estimador centrado del parámetro Sigma cuadrado. Adicionalmente, si se asumen los supuestos fuertes del modelo de regresión lineal, entonces, la suma de los cuadrados de los errores sobre Sigma cuadrado tiene una distribución ji cuadrado de n 2 grados de libertad. Una caracterÃstica fundamental del modelo de regresión lineal, es lo que se conoce como la ecuación de ANOVA para el modelo de regresión lineal, la cual aparece a continuación en la pantalla. Dicha ecuación es muy importante en el análisis de la calidad del modelo de regresión lineal, puesto que descompone la variabilidad de la variable dependiente, suma de los cuadrados totales, en dos grandes factores, la suma de los cuadrados de la regresión, que corresponde a lo que el modelo explica de la variabilidad de la variable Y; y la suma de los cuadrados de los errores, que es lo que el modelo de regresión no está en capacidad de explicar a través de la variable X. Veamos ahora cuáles son las hipótesis de interés en el modelo de regresión lineal. Para establecer si el modelo es significativo para explicar la variable Y a través de la variable X, se deben confrontar las hipótesis estadÃsticas dadas por H_0, Beta_1 es igual a 0 y H_1, Beta_1 es diferente de 0. H_0 corresponde a la afirmación "el modelo no es significativo", y H_1 corresponde a la afirmación "el modelo es significativo". Prueba asociada. Bajo el supuesto de que H_0 es verdadera, la estadÃstica suma de los cuadrados de la regresión sobre la suma de los cuadrados de los errores dividido por n menos 2, tiene una distribución F de 1 grado de libertad en el numerador y n menos 2 grados de libertad en el denominador. Notemos que en la medida en que la suma de los cuadrados de la regresión domina la suma de los cuadrados de los errores, debemos tender a rechazar la hipótesis nula. Si el valor calculado de la estadÃstica cae en la región crÃtica, correspondiente, por ejemplo, al percentil del 5 por ciento superior, entonces debemos rechazar la hipótesis nula de que Beta_1 es igual a 0, lo cual significa que el modelo de regresión sà es relevante para explicar la variable Y con un nivel de significancia del 5 por ciento. Un indicador importante para analizar la bondad del modelo de regresión lineal es el llamado "coeficiente de determinación", definido por R cuadrado igual a la suma de los cuadrados de la regresión dividido por la suma de los cuadrados totales, el cual se interpreta como el porcentaje de variabilidad de la variable Y que es explicada por el modelo de regresión. Por último, el intervalo de confianza de confiabilidad 100 veces 1 menos Alfa por ciento para el parámetro Beta_1 está dado por la expresión donde t n menos 2, 1 menos Alfa medios corresponde al valor de una variable aleatoria con distribución t con n menos 2 grados de libertad, que acumula una probabilidad de 1 menos Alfa medios correspondiente al nivel de confianza del intervalo.