La tokenisation des mots à l'aide de NLTK
Ici, vous utiliserez la première scène de Monty Python's Holy Grail, qui a été préchargée sur scene_one. N'hésitez pas à le vérifier dans le shell IPython !
Votre tâche dans cet exercice consiste à utiliser word_tokenize et sent_tokenize à partir de nltk.tokenize afin d'identifier des mots et des phrases à partir de chaînes Python - dans ce cas, la première scène de Python's Holy Grail.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez les fonctions
sent_tokenizeetword_tokenizeà partir denltk.tokenize. - Tokenisez toutes les phrases de
scene_oneà l'aide de la fonctionsent_tokenize(). - Tokenisez la quatrième phrase de
sentences, à laquelle vous pouvez accéder en tant quesentences[3], à l'aide de la fonctionword_tokenize(). - Trouvez les jetons uniques dans toute la scène en utilisant
word_tokenize()surscene_oneet en les convertissant en un ensemble à l'aide deset(). - Imprimez les jetons uniques trouvés. Cela a été fait pour vous, alors cliquez sur "Soumettre la réponse" pour voir les résultats !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)