what the stopwords stop definicion are language-agnostic indexing filtering stop-words nlp

language agnostic - the - La lista "Detener palabras" para inglés?



definicion de stopwords (6)

Estoy generando algunas estadísticas para algunos textos en inglés y me gustaría omitir palabras poco interesantes como "a" y "the".

  • ¿Dónde puedo encontrar algunas listas de estas palabras sin interés?
  • ¿Es una lista de estas palabras lo mismo que una lista de las palabras usadas con más frecuencia en inglés?

actualización: aparentemente se llaman "palabras para detener" y no "palabras para saltar".


Creo que utilicé la lista de palabras prohibidas para alemán de here cuando construí una aplicación de búsqueda con lucene.net hace un tiempo. El sitio contiene una lista para el inglés también, y las listas en el sitio son aparentemente las mismas que el proyecto lucene usa también como predeterminadas.


Dependiendo del subdominio del inglés en el que esté trabajando, puede tener / desear compilar su propia lista de palabras paradas. Algunas palabras de parada genéricas pueden ser significativas en un dominio. Por ejemplo, la palabra "son" podría ser una abreviación / acrónimo en algún dominio . Por el contrario, es posible que desee ignorar algunas palabras específicas del dominio en función de su aplicación, que es posible que no desee ignorar en el dominio del inglés general. Por ejemplo, si está analizando un corpus de informes hospitalarios, puede ignorar palabras como "historial" y "síntomas", ya que se encontrarían en todos los informes y podrían no ser útiles (desde una perspectiva simple de índice invertido).

De lo contrario, las listas devueltas por Google deberían estar bien. El Porter Stemmer usa esto y la implementación del motor de búsqueda de Lucene lo usa .


La palabra mágica para poner en Google es "detener palabras". Esto resulta en una lista de aspecto razonable .

MySQL también tiene una lista integrada de palabras de finalización , pero esto es demasiado amplio para mis gustos. Por ejemplo, en nuestra biblioteca de la universidad tuvimos problemas porque el "tercero" en el "tercer mundo" se consideraba una palabra final.


Normalmente, estas palabras aparecerán en documentos con la frecuencia más alta. Suponiendo que tiene una lista global de palabras:

{ Word Count }

Con la lista de palabras, si ordenó las palabras del recuento más alto al más bajo, tendría un gráfico (recuento (eje y) y palabra (eje x) que es la función de registro inverso. Todas las palabras de finalización serían a la izquierda, y el punto de detención de las "palabras de finalización" sería en donde existe la primera derivada más alta.

Esta solución es mejor que un intento de diccionario:

  • Esta solución es un enfoque universal que no está sujeto al lenguaje
  • Este intento aprende qué palabras se consideran "palabras de finalización"
  • Este intento producirá mejores resultados para las colecciones que son muy similares, y producirá listas de palabras únicas para los artículos en las colecciones.
  • Las palabras de parada se pueden volver a calcular en un momento posterior (con esto puede haber almacenamiento en caché y una determinación estadística de que las palabras de parada pueden haber cambiado desde el momento en que se calcularon)
  • Esto también puede eliminar palabras y nombres informales o basados ​​en el tiempo (como la jerga o si tenía un grupo de documentos que tenían el nombre de una empresa como encabezado).

El intento de diccionario es mejor:

  • El tiempo de búsqueda es mucho más rápido
  • Los resultados son precached
  • Es sencillo
  • A algún otro se le ocurrieron las palabras para detenerse.

Obtenga estadísticas sobre la frecuencia de las palabras en grandes corpus txt. Ignora todas las palabras con frecuencia> algún número.