usar str float declarar como python nlp nltk textblob

float - declarar string en python



Crear palabras usando python (1)

Fue un poco complicado. Traté de ver las formas derivadas en el texto y luego mapeé con la lista de palabras. También lo cambié a minúscula ya que el tokenizing no hace eso y lo mapeó perfectamente. A continuación está el código actualizado

raw = nltk.clean_html(html) cleaned = re.sub(r''& ?(ld|rd)quo ?[;/]]'', ''/"'', raw) tokens = nltk.wordpunct_tokenize(cleaned) lower = [w.lower() for w in tokens] stemmer = PorterStemmer() t = [stemmer.stem(t) if t in Words else t for t in lower] text = nltk.Text(t) word = words(n) Words = [stemmer.stem(e) for e in word] find = '' ''.join(str(e) for e in Words) search_words = set(find.split('' '')) sents = '' ''.join([s.lower() for s in text]) blob = TextBlob(sents.decode(''ascii'',''ignore'')) matches = [map(str, blob.sentences[i-1:i+2]) # from prev to after next for i, s in enumerate(blob.sentences) # i is index, e is element if search_words & set(s.words)] #return list(itertools.chain('' ''.join (str(y).replace(''& rdquo'','''').replace(''& rsquo'','''') for y in matches))

lista de devoluciones (itertools.chain (* coincidencias))

¿Cómo puedo obtener diferentes formas de palabras usando Python? Quiero crear una lista como la siguiente.

Work=[''Work'',''Working'',''Works'']

Mi código:

raw = nltk.clean_html(html) cleaned = re.sub(r''& ?(ld|rd)quo ?[;/]]'', ''/"'', raw) tokens = nltk.wordpunct_tokenize(cleaned) stemmer = PorterStemmer() t = [stemmer.stem(t) if t in Words else t for t in tokens] text = nltk.Text(t) word = words(n) Words = [stemmer.stem(e) for e in word] find = '' ''.join(str(e) for e in Words) search_words = set(find.split('' '')) sents = '' ''.join([s.lower() for s in text]) blob = TextBlob(sents.decode(''ascii'',''ignore'')) matches = [map(str, blob.sentences[i-1:i+2]) # from prev to after next for i, s in enumerate(blob.sentences) # i is index, e is element if search_words & set(s.words)] #return list(itertools.chain('' ''.join (str(y).replace(''& rdquo'','''').replace(''& rsquo'','''') for y in matches)) return list(itertools.chain(*matches))