Modelo Lineal con R

Blgo. Irwing S. Saldaña

Instituto de Ciencias Antonio Brack | masterX

Conociendo el
entorno de trabajo

¿R?

  • R es un lenguaje de programación.

  • Permite al usuario crear sus propias rutas analíticas.

  • Usaremos RStudio como intérprete del lenguaje R.



La magia de R

library(tidyverse)
iris %>% 
  ggplot(aes(x=Petal.Length, fill=Species))+
  geom_histogram()+
  theme_par()

rstatix::welch_anova_test(data=iris, Petal.Length~Species)
# A tibble: 1 x 7
  .y.              n statistic   DFn   DFd        p method     
* <chr>        <int>     <dbl> <dbl> <dbl>    <dbl> <chr>      
1 Petal.Length   150     1828.     2  78.1 2.69e-66 Welch ANOVA
library(ggstatsplot)
ggbetweenstats(data = iris, x = Species, y = Petal.Length)

¿Qué herramientas didácticas usaremos?

  • Diapositivas interactivas con Quarto Markdown y Revealjs en RStudio.

  • Desarrollo en vivo de modelamiento con lenguaje de programación R.

  • Quizizz para reforzamiento final

¿Qué idea tienes sobre un modelo lineal?

Modelo lineal

Modelo lineal

  • Es la forma de relacionar dos variables numéricas continuas más sencilla que existe.

  • Asume la fórmula matemática \(y = \beta_0 + \beta_ix_i\)

  • Por ello, se dice que Y (variable dependiente) se calcula en función de X

Parámetros y variables de la función lineal

  • X: variable independiente, o explicativa.

  • Y: variable dependiente, o respuesta.

El método de cálculo tradicional de los parámetros es el OLS (Ordinal Least Squares) Cuadrados mínimos ordinarios, pero puede hacer con otros métodos como ML (Maximum Likelihood) Máxima verosimilitud.

  • Parámetro \(\beta_0\): o intercepto de la recta en el eje Y

  • Parámetro \(\beta_i\): o coeficiente (pendiente) de la iésima variable independiente X.

El error de la regresión

La fórmula matemática incluye un valor desconocido llamado \(\epsilon\):

\[ y = \beta_0 + \beta_ix_i + \epsilon \]

Este representa el error, que no se conoce pero se estima utilizando los residuales de la regresión.

  • Es la diferencia entre el valor Y de cada punto y su respectiva proyección en la recta de la regresión.

  • Implica la diferencia entre lo real y lo predicho para la variable dependiente Y.

  • Mientras más grandes sean los valores, más error hay en la regresión.

Interpretación

  • \(\beta_0\): equivale al promedio esperado para Y cuando x = 0

  • \(\beta_1\): equivale al cambio (aumento o disminución) promedio esperado para Y cuando x aumenta en una unidad.

  • Considera la variable Y como Hwt y la variable X como Bwt
(Intercept)         Bwt 
 -0.3566624   4.0340627 

¿Cómo medir la calidad
de la regresión lineal?

  1. RSE:error estándar residual (siglas en inglés) es una forma de medir la desviación estándar de los residuos en un modelo de regresión. A menor valor de RSE, mejor el ajuste del modelo.

  2. R-squared: R cuadrado. Es una medida estadística que indica cuánta variabilidad de la variable Y es explicada por la variable X.

¿Asunciones teóricas?

  1. Linealidad de la relación entre X e Y.

  2. Homogeneidad de varianza de los residuales (Homocedasticidad).

  3. Normalidad de los residuales.

  4. Ausencia de valores atípicos (outliers).

Ejemplos de trabajo con código de R en RStudio

Es hora de que
reconozcas tu aprendizaje

¡Vamos a Quizziz!


Clic aquí para ir al test de progreso

En resumen

  • Los modelos lineales son las regresiones más sencillas.
  • Su fórmula matemática general es \(y = \beta_0 + \beta_ix_i + \epsilon\)
  • Una regresión lineal simple tiene dos parámetros: \(\beta_0\) o intercepto y \(\beta_1\) o pendiente.
  • \(\beta_0\) es el promedio esperado de Y cuando \(x = 0\).
  • Se interpretacomo: “el promedio esperado de Y varía en \(\beta_1\) unidades por cada unidad de aumento de X.
  • El errorde la regresión se calcula con los residuales.
  • De las asunciones teóricasa testear, la normalidad y la homocedasticidad se mide sobre los residuales.
  • La calidad del modelo se mide con RSE y el R-squared.

Gracias por tu atención