google api - ¿Cómo buscar Google Ngrams para palabras y frases "anticuadas"?
google-api n-gram (1)
Me gustaría escribir una aplicación que busque los datos de Ngram de Google para devolver palabras y frases que solían ser más populares, en un porcentaje arbitrario, en un rango arbitrario de años, de lo que son ahora.
Por ejemplo: https://books.google.com/ngrams/graph?content=cowabunga&year_start=1950&year_end=2000&corpus=15&smoothing=3
Idealmente, me gustaría poder encontrar estas palabras y frases sin especificarlas al principio. ¿Alguien puede ayudarme a encontrar una forma de hacer esto usando una copia descargada de los datos de Ngrams?
El primer paso después de descargar algunos n-grams es volcarlos en una base de datos SQLite3 . Por ejemplo, busqué 1 gramo comenzando con la letra ''t''
Para sqlite3 1grams.db
en SQLite, ejecute el comando sqlite3 1grams.db
sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "/t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams
El segundo paso es elegir el rango de año, llámalo YEAR_START
y YEAR_END
, y tu porcentaje, llámalo PERCENT_THRESHOLD
.
Tu problema se reduce a una consulta en la que seleccionas esos ngram
s, por lo que match_count
es PERCENT_THRESHOLD
% menos común a YEAR_END
que a YEAR_START
.