pie example chart pandas

example - ¿Cuál es la manera más eficiente de contar las ocurrencias en los pandas?



pandas series plot (2)

Tengo un marco de datos grande (alrededor de 12M filas) df con decir:

df.columns = [''word'',''documents'',''frequency'']

Entonces, lo siguiente funcionó a tiempo:

word_grouping = df[[''word'',''frequency'']].groupby(''word'') MaxFrequency_perWord = word_grouping[[''frequency'']].max().reset_index() MaxFrequency_perWord.columns = [''word'',''MaxFrequency'']

Sin embargo, esto lleva un tiempo inesperado de ejecución:

Occurrences_of_Words = word_grouping[[''word'']].count().reset_index()

¿Qué estoy haciendo mal aquí? ¿Hay una mejor manera de contar las ocurrencias en un marco de datos grande?

df.word.describe()

funcionó bastante bien, así que realmente no esperaba que este marco de datos Occurrences_of_Words llevara mucho tiempo construir.

ps: Si la respuesta es obvia y sientes la necesidad de penalizarme por hacer esta pregunta, por favor incluye la respuesta también. gracias.


Creo que df[''word''].value_counts() debería servir. Al omitir el grupo por maquinaria, ahorrará tiempo. No estoy seguro de por qué la count debería ser mucho más lenta que el max . Ambos toman un tiempo para evitar valores perdidos. (Compare con el size )

En cualquier caso, value_counts se ha optimizado específicamente para manejar el tipo de objeto, como sus palabras, así que dudo que lo haga mucho mejor que eso.


Cuando desee contar la frecuencia de los datos categóricos en una columna en panda dataFrame use: df[''Column_Name''].value_counts()

- Source .