Uso de la funcionalidad de tu clase
Ahora has añadido una funcionalidad adicional al método __init__ de tu clase Document que procesa automáticamente el texto para tus usuarios. En este ejercicio, actuarás como uno de esos usuarios para ver los beneficios de tu arduo trabajo.
La clase Document (copiada a continuación) se ha cargado en tu entorno (junto con tus nuevas actualizaciones).
class Document:
def __init__(self, text):
self.text = text
# pre tokenize the document with non-public tokenize method
self.tokens = self._tokenize()
# pre tokenize the document with non-public count_words
self.word_counts = self._count_words()
def _tokenize(self):
return tokenize(self.text)
# non-public method to tally document's word counts with Counter
def _count_words(self):
return Counter(self.tokens)
Este ejercicio forma parte del curso
Principios de ingeniería de software en Python
Instrucciones del ejercicio
- Crea una nueva instancia de
Documenta partir del conjunto de datosdatacamp_tweetscargado en tu entorno. El objeto «datacamp_tweets» es una cadena única que contiene cientos de tuits escritos por DataCamp y los usuarios de DataCamp. - Imprime las primeras 5 páginas de
tokensdesdedatacamp_doc. - Imprime las 5 palabras más comunes calculadas automáticamente por el método privado `
_count_words()en el métodoDocument.__init__`.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# create a new document instance from datacamp_tweets
datacamp_doc = ____(____)
# print the first 5 tokens from datacamp_doc
print(____.____[:5])
# print the top 5 most used words in datacamp_doc
print(____.____.most_common(5))