2.ª parte: Exploración del conjunto de datos
Ahora explorarás algunos atributos del conjunto de datos. En concreto, determinarás la longitud media (es decir, el número de palabras) de todas las frases y el tamaño del vocabulario del conjunto de datos en inglés.
Para este ejercicio, se ha proporcionado el conjunto de datos en inglés « en_text », que contiene una lista de oraciones en inglés. En este ejercicio utilizarás una función relacionada con las listas de Python llamada « <list>.extend() », que es una variante diferente de la función « <list>.append() ». Entendamos la diferencia con un ejemplo. Di « a=[1,2,3] » y « b=[4,5] ». « a.append(b) » daría como resultado una lista « [1,2,3,[4,5]] », donde « a.extend(b) » daría como resultado « [1,2,3,4,5] ».
Este ejercicio forma parte del curso
Traducción automática con Keras
Instrucciones del ejercicio
- Calcula la longitud de cada frase utilizando la función «
split()» y la función «len()», mientras iterás a través de «en_text». - Calcula la longitud media de las frases utilizando
numpy. - Rellena la lista
all_words, en el cuerpo del bucle for, añadiendo todas las palabras encontradas en las frases después de tokenizar. - Convierte la lista «
all_words» en un objeto «set» y calcula la longitud/tamaño del conjunto.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Compute length of sentences
sent_lengths = [len(____.____(____)) for en_sent in ____]
# Compute the mean of sentences lengths
mean_length = np.____(____)
print('(English) Mean sentence length: ', mean_length)
all_words = []
for sent in en_text:
# Populate all_words with all the words in sentences
all_words.____(____.____(____))
# Compute the length of the set containing all_words
vocab_size = len(____(____))
print("(English) Vocabulary size: ", vocab_size)