palabras kwfinder gratis determinar como claves clave buscador algorithm words

algorithm - gratis - kwfinder



Determinar la dificultad de una palabra inglesa (12)

Además de las métricas como Flesch-Kincaid , puede probar un enfoque basado en la fórmula de legibilidad de Dale-Chall , utilizando listas de palabras que son familiares para los lectores de un nivel particular de habilidad.

Las implementaciones de muchas de las fórmulas de legibilidad contienen código para estimar el número de sílabas en una palabra, lo que también puede ser útil.

Estoy trabajando en un juego basado en palabras. Mi base de datos de palabras contiene alrededor de 10,000 palabras en inglés (ordenadas alfabéticamente). Estoy planeando tener 5 niveles de dificultad en el juego. El nivel 1 muestra las palabras más fáciles y el nivel 5 muestra las palabras más difíciles, relativamente hablando.

Necesito dividir la lista de 10,000 palabras largas en 5 niveles, comenzando desde las palabras más fáciles hasta las difíciles. Estoy buscando un programa para hacer esto por mí.

¿Puede alguien decirme si existe un algoritmo o un método para medir cuantitativamente la dificultad de una palabra en inglés?

Tengo algunos pensamientos que giran en torno al uso de la " longitud de palabra " y la " frecuencia de palabra " como factores, y propongo una fórmula o algo que logre esto


Dependiendo del tipo de juego, la definición de "difícil" cambiará. Si su juego implica escribir rápidamente (estilo ztype ...), "difícil" tendrá un significado diferente al de un juego en el que necesita definir el significado de una palabra.

Dicho esto, Scrabble tiene una forma de medir cuán "difícil" es una palabra que también es bastante fácil mediante algoritmos.

También puedes considerar definir "difícil" en términos de tu juego. Puedes realizar una prueba beta de tu juego y clasificar las palabras según la forma en que los jugadores "difíciles" las encuentren en el contexto de tu propio juego.


En su artículo sobre corrección de hechizos, Peter Norvig usa un diccionario para contar el número de ocurrencias de cada palabra (y, por lo tanto, determinar su frecuencia).

Podrías usar esto como un trampolín :)

Además, la frecuencia probablemente debería influir en la dificultad más que en la longitud ... tendrías que realizar una prueba beta del juego para eso.


Estoy de acuerdo en que la frecuencia de uso es la métrica más probable; hay estudios que apoyan una alta correlación entre la frecuencia de las palabras y la dificultad (respuestas correctas en las pruebas, etc.). Echa un vistazo al Proyecto de Léxico en inglés en http://elexicon.wustl.edu/ para ver algunas palabras valoradas en frecuencia de 70k (?).


Fuente de la multitud la respuesta.

  • Crea un "juego" en línea que enumere 10 palabras al azar.
  • Haga que el jugador los arrastre y colóquelos en el más fácil - más difícil, y marque para indicar si el jugador alguna vez ha oído hablar de la palabra.
  • Aplique un algoritmo de clasificación (por ejemplo, ELO) en el resultado de cada experimento.
  • Repetir.

Incluso puede ser divertido jugar, al final, puedes obtener un puntaje de dominio del idioma.


Hay varios factores que se relacionan con la dificultad de la palabra, incluida la edad de adquisición, capacidad de visualización, concreción, abstracción, sílabas, frecuencia (hablada y escrita). También hay bases de datos psicolingüísticas que buscarán la palabra por al menos algunos de estos factores. (Simplemente haga una búsqueda de "base de datos psicolingüística".


La frecuencia de palabras es una opción obvia (por supuesto, no es perfecta). Puede descargar Google n-grams V2 here , que es una licencia de Creative Commons Attribution 3.0 Unported License.

Formato: ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE

Ejemplo:

Corpus utilizado (de Lin, Yuri, et al. " Anotaciones sintácticas para los libros de Google ngram corpus. " Procedimientos de las demostraciones del sistema ACL 2012. Asociación de Lingüística Computacional, 2012.):


La longitud de la palabra es un buen indicador; para la frecuencia de la palabra, necesitaría datos, ya que un algoritmo obviamente no puede determinarlo por sí mismo. También puede utilizar algún tipo de puntuación como lo hace el juego de scrabble: cada letra tiene un valor y el valor final sería la suma de los valores. Sería más fácil encontrar datos de frecuencia sobre cada letra en su idioma.


No entiendo cómo se usa la frecuencia ... si escaneara un periódico, estoy seguro de que verá la palabra "a fondo" que se menciona con mucha más frecuencia que la palabra "bop" o "moo", pero eso no ocurre. no quiere decir que es una palabra más fácil; por el contrario, "a fondo" es una de las anomalías de ortografía más asquerosamente absurdas que dan pesadillas a los niños de la escuela primaria ...

Intente explicar a un ser humano sano que aprende inglés como segundo idioma la diferencia sutil entre masacre y risa.


Obtenga un gran corpus de textos (por ejemplo, de los archivos de Gutenberg), haga un análisis de frecuencia directo y observe los resultados. Si no parecen satisfactorios, pese cada texto con su puntaje Flesch-Kincaid y ejecute el análisis nuevamente: palabras que aparecen con frecuencia, pero en los textos "difíciles" obtendrán un aumento de puntaje, que es lo que desea.

Sin embargo, si todo lo que tiene son 10000 palabras, probablemente será más rápido simplemente hacer la clasificación de frecuencia como primer paso y luego ajustar los resultados a mano.


Supongo que el grado en el que se introduce la palabra en el vocabulario normal de los estudiantes es una medida de dificultad. Lo siguiente sería cuántas violaciones de reglas estándar tiene. Significa las palabras que tienen deletreos o pronunciaciones que parecen violar las reglas normales de activación. Finalmente ... el significado ... puede ser un concepto difícil. .. por ejemplo ... intenta explicar el resumen a alguien que nunca ha escuchado la palabra.


La dificultad es un concepto bastante amorfo. Si no tiene una idea clara de lo que quiere, tal vez podría echar un vistazo al Algoritmo de carga de porteros (ver, por ejemplo, el artículo original ). Eso contiene una idea más avanzada de "longitud" al definir palabras como siendo de la forma [C](VC){m}[V] ; C significa un bloque de consonantes y V un bloque de vocales y esta definición dice que una palabra es una C opcional seguida de m bloques de VC y finalmente una V opcional. El valor de m es esta ''longitud'' avanzada.