verbos verbo tipo sustantivos sustantivo que para palabras palabra oraciones niƱos ejemplos con clasificacion clases articulo adverbio adjetivos adjetivo dictionary grammar spell-checking

dictionary - tipo - Listas de palabras separadas para sustantivos, verbos, adjetivos, etc.



sustantivos adjetivos y verbos ejemplos (5)

Por lo general, las listas de palabras son 1 archivo que lo contiene todo, pero ¿hay listas de nombres descargables, listas de verbos, listas de adjetivos, etc. por separado?

Los necesito para el inglés específicamente.


Como otros han sugerido, los archivos de base de datos de WordNet son una gran fuente de partes del habla. Dicho esto, los ejemplos utilizados para extraer las palabras no son del todo correctos. Cada línea es en realidad un "conjunto de sinónimos" que consiste en múltiples sinónimos y su definición. Alrededor del 30% de las palabras solo aparecen como sinónimos, por lo que al extraer la primera palabra falta una gran cantidad de datos.

El formato de línea es bastante simple de analizar ( search.c , function parse_synset ), pero si lo que le interesa son las palabras, la parte relevante de la línea tiene el formato siguiente:

NNNNNNNN NN a NN word N [word N ...]

Estos corresponden a:

  • Byte offset dentro del archivo (entero de 8 caracteres)
  • Número de archivo (entero de 2 caracteres)
  • Parte del discurso (1 personaje)
  • Número de palabras (2 caracteres, codificado hexadecimal)
  • N ocurrencias de ...
    • Palabra con espacios reemplazados con guiones bajos, comentario opcional entre paréntesis
    • Word léxico ID (un ID único de ocurrencia)

Por ejemplo, desde data.adj :

00004614 00 s 02 cut 0 shortened 0 001 & 00004412 a 0000 | with parts removed; "the drastically cut film"

  • Byte offset dentro del archivo es 4614
  • El número de archivo es 0
  • Parte del discurso es s , correspondiente al adjetivo ( wnutil.c , función getpos )
  • Número de palabras es 2
    • La primera palabra se cut con identificación léxica 0
    • La segunda palabra se shortened con la identificación léxica 0

Un breve script de Perl para simplemente volcar las palabras de los data.* Archivos:

#!/usr/bin/perl while (my $line = <>) { # If no 8-digit byte offset is present, skip this line if ( $line !~ /^[0-9]{8}/s/ ) { next; } chomp($line); my @tokens = split(/ /, $line); shift(@tokens); # Byte offset shift(@tokens); # File number shift(@tokens); # Part of speech my $word_count = hex(shift(@tokens)); foreach ( 1 .. $word_count ) { my $word = shift(@tokens); $word =~ tr/_/ /; $word =~ s//(.*/)//; print $word, "/n"; shift(@tokens); # Lexical ID } }

Una esencia de la secuencia de comandos anterior se puede encontrar here .
here se puede encontrar un analizador más robusto que permanece fiel a la fuente original.

Ambos scripts se utilizan de manera similar: ./wordnet_parser.pl DATA_FILE .


Este es un resultado altamente calificado de Google, así que estoy desenterrando esta pregunta de 2 años para ofrecer una respuesta mucho mejor que la existente.

La página "Listas de palabras de Kevin" proporciona listas antiguas del año 2000, basadas en WordNet 1.6.

Es mucho mejor ir a https://wordnet.princeton.edu/download/current-version y descargar WordNet 3.0 (la versión solo para bases de datos) o cualquiera que sea la versión más reciente cuando lea esto.

Analizarlo es muy simple; simplemente aplique una expresión regular de "/^(/S+?)[/s%]/" para capturar cada palabra, y luego reemplace todos los "_" (guiones bajos) en los resultados con espacios. Finalmente, descargue sus resultados a cualquier formato de almacenamiento que desee. Se le entregarán listas separadas de adjetivos, adverbios, sustantivos, verbos e incluso una lista especial (muy inútil / útil según lo que esté haciendo) llamada "sentidos" que se relaciona con nuestros sentidos del olfato, la vista, el oído, etc. , es decir, palabras como "camisa" o "punzante".

¡Disfrutar! Recuerde incluir su aviso de copyright si lo está utilizando en un proyecto.


Si solo descarga los archivos de la base de datos de https://wordnet.princeton.edu/download/current-version , puede extraer las palabras ejecutando estos comandos:

egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z_]*/s" data.adj | cut -d '' '' -f 5 > conv.data.adj egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z_]*/s" data.adv | cut -d '' '' -f 5 > conv.data.adv egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z_]*/s" data.noun | cut -d '' '' -f 5 > conv.data.noun egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z_]*/s" data.verb | cut -d '' '' -f 5 > conv.data.verb

O si solo quieres palabras sueltas (sin guiones bajos)

egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z]*/s" data.adj | cut -d '' '' -f 5 > conv.data.adj egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z]*/s" data.adv | cut -d '' '' -f 5 > conv.data.adv egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z]*/s" data.noun | cut -d '' '' -f 5 > conv.data.noun egrep -o "^[0-9]{8}/s[0-9]{2}/s[a-z]/s[0-9]{2}/s[a-zA-Z]*/s" data.verb | cut -d '' '' -f 5 > conv.data.verb


http://icon.shef.ac.uk/Moby/mpos.html

Cada entrada de vocabulario de parte de voz consta de un campo de palabra o frase seguido de un delimitador de campo (ASCII 215) y el campo de parte de voz que se codifica utilizando los siguientes símbolos ASCII (el caso es significativo):

Noun N Plural p Noun Phrase h Verb (usu participle) V Verb (transitive) t Verb (intransitive) i Adjective A Adverb v Conjunction C Preposition P Interjection ! Pronoun r Definite Article D Indefinite Article I Nominative o


Ver las listas de palabras de Kevin . Particularmente la "Parte de la base de datos de voz". Tendrá que hacer un mínimo de procesamiento de texto por su cuenta, para poder obtener la base de datos en varios archivos para usted, pero eso puede hacerse muy fácilmente con unos pocos comandos grep .

Los términos de la licencia están disponibles en la página "Léame".