Poniendo a Prueba el Modelo: Análisis de Residuos
Diagnóstico y Validación
Análisis de los Residuos (Los "Errores" de Nuestro Modelo)
Verificación de los Supuestos (El Chequeo Médico Completo)
La verificación de los supuestos implica el uso de herramientas gráficas y pruebas estadísticas para confirmar que los supuestos teóricos del modelo de regresión lineal (linealidad, independencia, normalidad y homocedasticidad de los errores) se cumplen en los datos reales.
Ahora revisamos en detalle los supuestos que mencionamos al principio, pero usando los residuos. Si nuestros residuos no se comportan "bien", las conclusiones que sacamos de la inferencia (Significancia Global e Individual) podrían no ser válidas.
Gráficos de Dispersión para los Residuos (¡Nuestros Rayos X!)
Son representaciones visuales donde los residuos se grafican contra los valores predichos del modelo o la variable independiente, permitiendo la inspección visual de la linealidad y la homocedasticidad.
- Ideal (Homocedasticidad y Linealidad): Los puntos deben parecer una nube de puntos aleatoria, sin ningún patrón, esparcidos de manera uniforme alrededor de la línea cero. Esto significa que la varianza de los errores es constante (homocedasticidad) y que la relación es lineal.
- Problemas (¡Patrones a Evitar!):
- Forma de embudo/cono: Indica heterocedasticidad (la variabilidad de los errores cambia). Esto es un problema.
- Curva o patrón en "U": Indica que la relación no es lineal, y el modelo lineal simple no es el adecuado.
- Puntos muy alejados: Pueden ser valores atípicos (outliers) que necesitan investigación.
Histograma de Residuos (Normalidad):
Debe parecerse a una campana de Gauss, simétrico y concentrado en el centro (cero).
Prueba de Durbin-Watson (Detectando el "Contagio" de Errores)
La prueba de Durbin-Watson es una prueba estadística utilizada para detectar la presencia de autocorrelación de primer orden en los residuos de un modelo de regresión, indicando si los errores de observaciones consecutivas están correlacionados.
¿Qué es? Esta prueba es específica para detectar si los errores de tu modelo están "conectados" o "correlacionados" entre sí (autocorrelación). Esto es muy importante en datos que varían con el tiempo (series de tiempo). Si el error de hoy afecta el error de mañana, hay autocorrelación.
Interpretación Sencilla:
- Un valor cercano a 2 es ideal (no hay autocorrelación).
- Valores cercanos a 0 indican autocorrelación positiva (los errores se parecen a los anteriores).
- Valores cercanos a 4 indican autocorrelación negativa (los errores son opuestos a los anteriores).
Relevancia:
La autocorrelación viola la independencia de los errores y puede llevar a que tus pruebas de significancia sean engañosas.


0 Comentarios