6.1 Datos ordenados (tidy)
Un gran porcentaje del tiempo que se suele emplear en el análisis de datos en R está dedicado a manipular objetos para su limpieza y preparación. Este lenguaje de programación necesita datos ordenados (del inglés tidy) para que su sintaxis de código funcione sin errores. Para R, datos ordenados implica tener objetos tabulares (2D) en los que:
- Cada fila contenga información de una sola observación o unidad muestral (e.g., parcela, punto, transecto, paciente, placa, o el nombre que reciba su unidad muestral).
- Cada columnas contenga una única variable de medición y esta sea independiente de las demás.

Figura 6.4: Datos ordenados correctamente para analizar en R
El estructurar las bases de datos de esta manera se puede hacer fuera del entorno de R, utilizando el gestor de hojas de cálculo de tu preferencia.
6.1.1 ¿Qué evitar para tener datos tidy?
En principio, recordando que cada columna es una variable en las que cada fila solo podrá tener un solo valor, se deben evitar las siguientes situaciones:

Figura 6.5: Evitar poner encabezados (texto en negritas), comentarios o usar columnas que no contengan datos (texto resaltado). Celdas fusionadas (texto en rojo) generan problemas porque al cargarse en RStudio, las celdas se desagregan y dejan espacios en blanco.

Figura 6.6: Evitar colocar más de una variable de medición en una columna. En este caso, la columna Status
contiene información de estado, categoría y nivel. Estas deben ser tratadas como variables independientes unas de otras.

Figura 6.7: Evitar nombres complejos como nombre de variable (columna). Al cargar en R, dependiendo de la función, los espacios en blanco entre palabras se autocorregirán por .
o _
. Es mejor modificar estos nombres para simplificarlos, acortarlos y evitar espacios en blanco.

Figura 6.8: Si una variable contiene categorías, es probable que en R la quieras tratar como factor para análisis o graficación. Evita nombres de categorías excesivamente largos o con símbolos extraños. Puedes asegurarte en convertirlos a categorías numéricas (1, 2, 3, etc.).
Como dato adicional. Trata de utilizar una sola hoja de cálculo por archivo. Facilitará la carga de datos.
6.1.2 ¿Cómo se debe ver una base tidy?
Con todas las consideraciones mencionadas, una base de datos perfectamente tidy se vería:

Figura 6.9: Tabla de datos ordenada. Vista de hoja de cálculo.
Asumiendo que se está utilizando proyectos de RStudio, y que la base de datos WHO_tidy.xlsx
existe dentro de dicha carpeta, el código para cargar la base datos en R es:
<- openxlsx::read.xlsx("WHO_tidy.xlsx") WHO

Figura 6.10: Tabla perfectamente ordenada vista en RStudio.