6.2 Introducción a dplyr y tidyr

En el universo de tidyverse existen dos asombrosa librerías para realizar limpieza y manejo de datos: dplyr y tidyr. De manera sencilla, las funciones más útiles que contienen son:

Tabla 2.2: Funciones útiles para la limpieza y manejo de datos con tidyr.
Función Descripción
gather() Permite convertir una tabla ancha a una tabla larga
spread() Permite convertir una tabla larga a una tabla ancha
unite() Permite unir el contenido textual varias columnas en una sola.
separate() Permite separar el contenido textual de una columna en varias columnas.
drop_na() Elimina las filas que contengan NA en una tabla.
Tabla 2.3: Funciones útiles para la limpieza y manejo de datos con dplyr.
Función Descripción
filter() Filtra filas en base a criterios lógicos.
select() Familia de funciones que permite seleccionar columnas por su nombre o indexación.
group_by() Agrupa virtualmente las filas en base a una columna categórica.
arrange() Reordena verticalmente columnas, sea de menor a mayor o de A a Z.
arrange(desc()) Reordena verticalmente columnas, sea de mayor a menor o de Z a A.
count() Cuenta las veces que cada valor se repite en una columna.
mutate() Familia de funciones que permite crear nuevas columnas o modificar las existentes.
summarize() Familia de funcione generan resúmenes estadísticos.
anti_join() Función para fusionar tablas A y B, devuelve las filas de A que no existen B.
semi_join() Función para fusionar tablas A y B, devuelve las filas que existen en A y B. Puede duplicar filas de A.
inner_join() Función para fusionar tablas A y B, devuelve las filas que existen en A y B. No duplica filas de A.
full_join() Función para fusionar tablas A y B, devuelve todas las filas de A y B.
right_join() Función para fusionar tablas A y B, devuelve A más las filas de B que existan en A.
left_join() Función para fusionar tablas A y B, devuelve B más las filas de A que existan en B.