float - declarar string en python
Crear palabras usando python (1)
Fue un poco complicado. Traté de ver las formas derivadas en el texto y luego mapeé con la lista de palabras. También lo cambié a minúscula ya que el tokenizing no hace eso y lo mapeó perfectamente. A continuación está el código actualizado
raw = nltk.clean_html(html)
cleaned = re.sub(r''& ?(ld|rd)quo ?[;/]]'', ''/"'', raw)
tokens = nltk.wordpunct_tokenize(cleaned)
lower = [w.lower() for w in tokens]
stemmer = PorterStemmer()
t = [stemmer.stem(t) if t in Words else t for t in lower]
text = nltk.Text(t)
word = words(n)
Words = [stemmer.stem(e) for e in word]
find = '' ''.join(str(e) for e in Words)
search_words = set(find.split('' ''))
sents = '' ''.join([s.lower() for s in text])
blob = TextBlob(sents.decode(''ascii'',''ignore''))
matches = [map(str, blob.sentences[i-1:i+2]) # from prev to after next
for i, s in enumerate(blob.sentences) # i is index, e is element
if search_words & set(s.words)]
#return list(itertools.chain('' ''.join (str(y).replace(''& rdquo'','''').replace(''& rsquo'','''') for y in matches))
lista de devoluciones (itertools.chain (* coincidencias))
¿Cómo puedo obtener diferentes formas de palabras usando Python? Quiero crear una lista como la siguiente.
Work=[''Work'',''Working'',''Works'']
Mi código:
raw = nltk.clean_html(html)
cleaned = re.sub(r''& ?(ld|rd)quo ?[;/]]'', ''/"'', raw)
tokens = nltk.wordpunct_tokenize(cleaned)
stemmer = PorterStemmer()
t = [stemmer.stem(t) if t in Words else t for t in tokens]
text = nltk.Text(t)
word = words(n)
Words = [stemmer.stem(e) for e in word]
find = '' ''.join(str(e) for e in Words)
search_words = set(find.split('' ''))
sents = '' ''.join([s.lower() for s in text])
blob = TextBlob(sents.decode(''ascii'',''ignore''))
matches = [map(str, blob.sentences[i-1:i+2]) # from prev to after next
for i, s in enumerate(blob.sentences) # i is index, e is element
if search_words & set(s.words)]
#return list(itertools.chain('' ''.join (str(y).replace(''& rdquo'','''').replace(''& rsquo'','''') for y in matches))
return list(itertools.chain(*matches))