txt - mineria de texto en python
¿Cómo creo mi propio texto NLTK a partir de un archivo de texto? (2)
Encontré la respuesta yo mismo. Eso es vergonzoso. O impresionante.
De ch. 3:
f=open(''my-file.txt'',''rU'')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
Hace el truco.
Soy un estudiante graduado de Literatura y he estado revisando el libro de O''Reilly en Procesamiento del lenguaje natural (nltk.org/book) Parece increíblemente útil. He jugado con todos los textos de ejemplo y las tareas de ejemplo en el Capítulo 1, como concordancias. Ahora sé cuántas veces Moby Dick usa la palabra "ballena". El problema es que no puedo averiguar cómo hacer estos cálculos en uno de mis propios textos. He encontrado información sobre cómo crear mis propios cuerpos (Capítulo 2 del libro de O''Reilly), pero no creo que eso sea exactamente lo que quiero hacer. En otras palabras, quiero poder hacer
import nltk
text1.concordance(''yellow'')
y obtener los lugares donde se utiliza la palabra ''amarillo'' en mi texto. En este momento puedo hacer esto con los textos de ejemplo, pero no con los míos.
Soy muy nuevo en Python y en la programación, y esto es muy emocionante, pero muy confuso.
Para una importación estructurada de múltiples archivos:
from nltk.corpus import PlaintextCorpusReader
# RegEx or list of file names
files = ".*/.txt"
corpus0 = PlaintextCorpusReader("/path/", files)
corpus = nltk.Text(corpus0.words())
ver: NLTK 3 libro / sección 1.9