sql - odbcconnect - ¿El binning de estilo cut() está disponible en dplyr?
rstudio odbcconnect (1)
Solo para que haya una respuesta inmediata para los demás que llegan aquí a través del motor de búsqueda, la forma de cut
de n-breaks ahora se implementa como la función dplyr
en dplyr
:
> data.frame(x = c(5, 1, 3, 2, 2, 3)) %>% mutate(bin = ntile(x, 2))
x bin
1 5 2
2 1 1
3 3 2
4 2 1
5 2 1
6 3 2
¿Hay alguna manera de hacer algo como una función cut()
para agrupar valores numéricos en una tabla dplyr
? Estoy trabajando en una tabla grande de postgres y actualmente puedo escribir una declaración de caso en el sql desde el principio, o generar datos no agregados y aplicar cut()
. Ambos tienen desventajas bastante obvias ... las declaraciones de casos no son particularmente elegantes y no es eficiente collect()
una gran cantidad de registros a través de collect()
.