google-api n-gram

google api - ¿Cómo buscar Google Ngrams para palabras y frases "anticuadas"?



google-api n-gram (1)

Me gustaría escribir una aplicación que busque los datos de Ngram de Google para devolver palabras y frases que solían ser más populares, en un porcentaje arbitrario, en un rango arbitrario de años, de lo que son ahora.

Por ejemplo: https://books.google.com/ngrams/graph?content=cowabunga&year_start=1950&year_end=2000&corpus=15&smoothing=3

Idealmente, me gustaría poder encontrar estas palabras y frases sin especificarlas al principio. ¿Alguien puede ayudarme a encontrar una forma de hacer esto usando una copia descargada de los datos de Ngrams?


El primer paso después de descargar algunos n-grams es volcarlos en una base de datos SQLite3 . Por ejemplo, busqué 1 gramo comenzando con la letra ''t''

Para sqlite3 1grams.db en SQLite, ejecute el comando sqlite3 1grams.db

sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer); sqlite> .separator "/t" sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams

El segundo paso es elegir el rango de año, llámalo YEAR_START y YEAR_END , y tu porcentaje, llámalo PERCENT_THRESHOLD .

Tu problema se reduce a una consulta en la que seleccionas esos ngram s, por lo que match_count es PERCENT_THRESHOLD % menos común a YEAR_END que a YEAR_START .