In [None]:
# Transformers installation
! pip install transformers datasets
# To install from source instead of the last release, comment the command above and uncomment the following one.
# ! pip install git+https://github.com/huggingface/transformers.git

# Preprocesamiento

Antes de que puedas utilizar los datos en un modelo, debes procesarlos en un formato aceptable para el modelo. Un modelo no entiende el texto en bruto, las im치genes o el audio. Estas entradas necesitan ser convertidas en n칰meros y ensambladas en tensores. En este tutorial, podr치s:

* Preprocesar los datos textuales con un tokenizador.
* Preprocesar datos de imagen o audio con un extractor de caracter칤sticas.
* Preprocesar datos para una tarea multimodal con un procesador.

## NLP

In [None]:
#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/Yffk5aydLzg?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

La principal herramienta para procesar datos textuales es un [tokenizador](https://huggingface.co/docs/transformers/main/es/main_classes/tokenizer). Un tokenizador comienza dividiendo el texto en *tokens* seg칰n un conjunto de reglas. Los tokens se convierten en n칰meros, que se utilizan para construir tensores como entrada a un modelo. El tokenizador tambi칠n a침ade cualquier entrada adicional que requiera el modelo.

<Tip>

Si tienes previsto utilizar un modelo pre-entrenado, es importante que utilices el tokenizador pre-entrenado asociado. Esto te asegura que el texto se divide de la misma manera que el corpus de pre-entrenamiento y utiliza el mismo 칤ndice de tokens correspondiente (usualmente referido como el *vocab*) durante el pre-entrenamiento.

</Tip>

Comienza r치pidamente cargando un tokenizador pre-entrenado con la clase `AutoTokenizer`. Esto descarga el *vocab* utilizado cuando un modelo es pre-entrenado.

### Tokenizar

Carga un tokenizador pre-entrenado con `AutoTokenizer.from_pretrained()`:

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

A continuaci칩n, pasa tu frase al tokenizador:

In [None]:
encoded_input = tokenizer("Do not meddle in the affairs of wizards, for they are subtle and quick to anger.")
print(encoded_input)

{'input_ids': [101, 2079, 2025, 19960, 10362, 1999, 1996, 3821, 1997, 16657, 1010, 2005, 2027, 2024, 11259, 1998, 4248, 2000, 4963, 1012, 102], 
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

El tokenizador devuelve un diccionario con tres 칤tems importantes:

* [input_ids](https://huggingface.co/docs/transformers/main/es/glossary#input-ids) son los 칤ndices correspondientes a cada token de la frase.
* [attention_mask](https://huggingface.co/docs/transformers/main/es/glossary#attention-mask) indica si un token debe ser atendido o no.
* [token_type_ids](https://huggingface.co/docs/transformers/main/es/glossary#token-type-ids) identifica a qu칠 secuencia pertenece un token cuando hay m치s de una secuencia.

Tu puedes decodificar el `input_ids` para devolver la entrada original:

In [None]:
tokenizer.decode(encoded_input["input_ids"])

'[CLS] Do not meddle in the affairs of wizards, for they are subtle and quick to anger. [SEP]'

Como puedes ver, el tokenizador ha a침adido dos tokens especiales - `CLS` y `SEP` (clasificador y separador) - a la frase. No todos los modelos necesitan
tokens especiales, pero si lo llegas a necesitar,  el tokenizador los a침adir치 autom치ticamente.

Si hay varias frases que quieres preprocesar, pasa las frases como una lista al tokenizador:

In [None]:
batch_sentences = [
    "But what about second breakfast?",
    "Don't think he knows about second breakfast, Pip.",
    "What about elevensies?",
]
encoded_inputs = tokenizer(batch_sentences)
print(encoded_inputs)

{'input_ids': [[101, 1252, 1184, 1164, 1248, 6462, 136, 102], 
               [101, 1790, 112, 189, 1341, 1119, 3520, 1164, 1248, 6462, 117, 21902, 1643, 119, 102], 
               [101, 1327, 1164, 5450, 23434, 136, 102]], 
 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0]], 
 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1], 
                    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 
                    [1, 1, 1, 1, 1, 1, 1]]}

### Pad

Esto nos lleva a un tema importante. Cuando se procesa un batch de frases, no siempre tienen la misma longitud. Esto es un problema porque los tensores que se introducen en el modelo deben tener una forma uniforme. El pad es una estrategia para asegurar que los tensores sean rectangulares a침adiendo un "padding token" especial a las oraciones con menos tokens.

Establece el par치metro `padding` en `True` aplicando el pad a las secuencias m치s cortas del batch para que coincidan con la secuencia m치s larga:

In [None]:
batch_sentences = [
    "But what about second breakfast?",
    "Don't think he knows about second breakfast, Pip.",
    "What about elevensies?",
]
encoded_input = tokenizer(batch_sentences, padding=True)
print(encoded_input)

{'input_ids': [[101, 1252, 1184, 1164, 1248, 6462, 136, 102, 0, 0, 0, 0, 0, 0, 0], 
               [101, 1790, 112, 189, 1341, 1119, 3520, 1164, 1248, 6462, 117, 21902, 1643, 119, 102], 
               [101, 1327, 1164, 5450, 23434, 136, 102, 0, 0, 0, 0, 0, 0, 0, 0]], 
 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 
 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], 
                    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 
                    [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]}

Observa que el tokenizador ha aplicado el pad a la primera y la tercera frase con un "0" porque son m치s cortas.

### Truncamiento

En el otro extremo del espectro, a veces una secuencia puede ser demasiado larga para un modelo. En este caso, tendr치s que truncar la secuencia a una longitud m치s corta.

Establece el par치metro `truncation` a `True` para truncar una secuencia a la longitud m치xima aceptada por el modelo:

In [None]:
batch_sentences = [
    "But what about second breakfast?",
    "Don't think he knows about second breakfast, Pip.",
    "What about elevensies?",
]
encoded_input = tokenizer(batch_sentences, padding=True, truncation=True)
print(encoded_input)

{'input_ids': [[101, 1252, 1184, 1164, 1248, 6462, 136, 102, 0, 0, 0, 0, 0, 0, 0], 
               [101, 1790, 112, 189, 1341, 1119, 3520, 1164, 1248, 6462, 117, 21902, 1643, 119, 102], 
               [101, 1327, 1164, 5450, 23434, 136, 102, 0, 0, 0, 0, 0, 0, 0, 0]], 
 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 
 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], 
                    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 
                    [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]}

### Construye tensores

Finalmente, si quieres que el tokenizador devuelva los tensores reales que se introducen en el modelo.

Establece el par치metro `return_tensors` como `pt` para PyTorch, o `tf` para TensorFlow:

In [None]:
batch_sentences = [
    "But what about second breakfast?",
    "Don't think he knows about second breakfast, Pip.",
    "What about elevensies?",
]
encoded_input = tokenizer(batch, padding=True, truncation=True, return_tensors="pt")
print(encoded_input)

{'input_ids': tensor([[  101,   153,  7719, 21490,  1122,  1114,  9582,  1623,   102],
                      [  101,  5226,  1122,  9649,  1199,  2610,  1236,   102,     0]]), 
 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0],
                           [0, 0, 0, 0, 0, 0, 0, 0, 0]]), 
 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
                           [1, 1, 1, 1, 1, 1, 1, 1, 0]])}
===PT-TF-SPLIT===

In [None]:
batch_sentences = [
    "But what about second breakfast?",
    "Don't think he knows about second breakfast, Pip.",
    "What about elevensies?",
]
encoded_input = tokenizer(batch, padding=True, truncation=True, return_tensors="tf")
print(encoded_input)

{'input_ids': <tf.Tensor: shape=(2, 9), dtype=int32, numpy=
array([[  101,   153,  7719, 21490,  1122,  1114,  9582,  1623,   102],
       [  101,  5226,  1122,  9649,  1199,  2610,  1236,   102,     0]],
      dtype=int32)>, 
 'token_type_ids': <tf.Tensor: shape=(2, 9), dtype=int32, numpy=
array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)>, 
 'attention_mask': <tf.Tensor: shape=(2, 9), dtype=int32, numpy=
array([[1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 0]], dtype=int32)>}

## Audio

Las entradas de audio se preprocesan de forma diferente a las entradas textuales, pero el objetivo final es el mismo: crear secuencias num칠ricas que el modelo pueda entender. Un [extractor de caracter칤sticas](https://huggingface.co/docs/transformers/main/es/main_classes/feature_extractor) (o feature extractor en ingl칠s) est치 dise침ado para extraer caracter칤sticas de datos provenientes de im치genes o audio sin procesar y convertirlos en tensores. Antes de empezar, instala 游뱅 Datasets para cargar un dataset de audio para experimentar:

```bash
pip install datasets
```

Carga la tarea de detecci칩n de palabras clave del benchmark [SUPERB](https://huggingface.co/datasets/superb) (consulta el [tutorial 游뱅 Dataset](https://huggingface.co/docs/datasets/load_hub.html) para que obtengas m치s detalles sobre c칩mo cargar un dataset):

In [None]:
from datasets import load_dataset, Audio

dataset = load_dataset("superb", "ks")

Accede al primer elemento de la columna `audio` para echar un vistazo a la entrada. Al llamar a la columna `audio` se cargar치 y volver치 a muestrear autom치ticamente el archivo de audio:

In [None]:
dataset["train"][0]["audio"]

{'array': array([ 0.        ,  0.        ,  0.        , ..., -0.00592041,
        -0.00405884, -0.00253296], dtype=float32),
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/05734a36d88019a09725c20cc024e1c4e7982e37d7d55c0c1ca1742ea1cdd47f/_background_noise_/doing_the_dishes.wav',
 'sampling_rate': 16000}

Esto devuelve tres elementos:

* `array` es la se침al de voz cargada - y potencialmente remuestreada - como un array 1D.
* `path` apunta a la ubicaci칩n del archivo de audio.
* `sampling_rate` se refiere a cu치ntos puntos de datos de la se침al de voz se miden por segundo.

### Resample

Para este tutorial, se utilizar치 el modelo [Wav2Vec2](https://huggingface.co/facebook/wav2vec2-base). Como puedes ver en la model card, el modelo Wav2Vec2 est치 pre-entrenado en audio de voz muestreado a 16kHz. Es importante que la tasa de muestreo de tus datos de audio coincida con la tasa de muestreo del dataset utilizado para pre-entrenar el modelo. Si la tasa de muestreo de tus datos no es la misma, deber치s volver a muestrear tus datos de audio. 

Por ejemplo, carga el dataset [LJ Speech](https://huggingface.co/datasets/lj_speech) que tiene una tasa de muestreo de 22050kHz. Para utilizar el modelo Wav2Vec2 con este dataset, reduce la tasa de muestreo a 16kHz:

In [None]:
lj_speech = load_dataset("lj_speech", split="train")
lj_speech[0]["audio"]

{'array': array([-7.3242188e-04, -7.6293945e-04, -6.4086914e-04, ...,
         7.3242188e-04,  2.1362305e-04,  6.1035156e-05], dtype=float32),
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/917ece08c95cf0c4115e45294e3cd0dee724a1165b7fc11798369308a465bd26/LJSpeech-1.1/wavs/LJ001-0001.wav',
 'sampling_rate': 22050}

1. Usa el m칠todo 游뱅 Datasets' [`cast_column`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasets.Dataset.cast_column) para reducir la tasa de muestreo a 16kHz:

In [None]:
lj_speech = lj_speech.cast_column("audio", Audio(sampling_rate=16_000))

2. Carga el archivo de audio:

In [None]:
lj_speech[0]["audio"]

{'array': array([-0.00064146, -0.00074657, -0.00068768, ...,  0.00068341,
         0.00014045,  0.        ], dtype=float32),
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/917ece08c95cf0c4115e45294e3cd0dee724a1165b7fc11798369308a465bd26/LJSpeech-1.1/wavs/LJ001-0001.wav',
 'sampling_rate': 16000}

Como puedes ver, el `sampling_rate` se ha reducido a 16kHz. Ahora que sabes c칩mo funciona el resampling, volvamos a nuestro ejemplo anterior con el dataset SUPERB.

### Extractor de caracter칤sticas

El siguiente paso es cargar un extractor de caracter칤sticas para normalizar y aplicar el pad a la entrada. Cuando se aplica padding a los datos textuales, se a침ade un "0" para las secuencias m치s cortas. La misma idea se aplica a los datos de audio y el extractor de caracter칤sticas de audio a침adir치 un "0" - interpretado como silencio - al "array".

Carga el extractor de caracter칤sticas con `AutoFeatureExtractor.from_pretrained()`:

In [None]:
from transformers import AutoFeatureExtractor

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-base")

Pasa el `array` de audio al extractor de caracter칤sticas. Tambi칠n te recomendamos a침adir el argumento `sampling_rate` en el extractor de caracter칤sticas para poder depurar mejor los errores silenciosos que puedan producirse.

In [None]:
audio_input = [dataset["train"][0]["audio"]["array"]]
feature_extractor(audio_input, sampling_rate=16000)

{'input_values': [array([ 0.00045439,  0.00045439,  0.00045439, ..., -0.1578519 , -0.10807519, -0.06727459], dtype=float32)]}

### Pad y truncamiento

Al igual que el tokenizador, puedes aplicar padding o truncamiento para manejar secuencias variables en un batch. F칤jate en la longitud de la secuencia de estas dos muestras de audio:

In [None]:
dataset["train"][0]["audio"]["array"].shape

(1522930,)

In [None]:
dataset["train"][1]["audio"]["array"].shape

(988891,)

Como puedes ver, el `sampling_rate` se ha reducido a 16kHz.

In [None]:
def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        sampling_rate=16000,
        padding=True,
        max_length=1000000,
        truncation=True,
    )
    return inputs

Aplica la funci칩n a los primeros ejemplos del dataset:

In [None]:
processed_dataset = preprocess_function(dataset["train"][:5])

Ahora echa un vistazo a las longitudes de las muestras procesadas:

In [None]:
processed_dataset["input_values"][0].shape

(1000000,)

In [None]:
processed_dataset["input_values"][1].shape

(1000000,)

Las longitudes de las dos primeras muestras coinciden ahora con la longitud m치xima especificada.

## Visi칩n

Tambi칠n se utiliza un extractor de caracter칤sticas para procesar im치genes para tareas de visi칩n por computadora. Una vez m치s, el objetivo es convertir la imagen en bruto en un batch de tensores como entrada.

Vamos a cargar el dataset [food101](https://huggingface.co/datasets/food101) para este tutorial. Usa el par치metro 游뱅 Datasets `split` para cargar solo una peque침a muestra de la divisi칩n de entrenamiento ya que el dataset es bastante grande:

In [None]:
from datasets import load_dataset

dataset = load_dataset("food101", split="train[:100]")

A continuaci칩n, observa la imagen con la funci칩n 游뱅 Datasets [`Image`](https://huggingface.co/docs/datasets/package_reference/main_classes.html?highlight=image#datasets.Image):

In [None]:
dataset[0]["image"]

![vision-preprocess-tutorial.png](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/vision-preprocess-tutorial.png)

### Extractor de caracter칤sticas

Carga el extractor de caracter칤sticas con `AutoFeatureExtractor.from_pretrained()`:

In [None]:
from transformers import AutoFeatureExtractor

feature_extractor = AutoFeatureExtractor.from_pretrained("google/vit-base-patch16-224")

### Aumento de Datos

Para las tareas de visi칩n por computadora es com칰n a침adir alg칰n tipo de aumento de datos (o data augmentation) a las im치genes como parte del preprocesamiento. Puedes a침adir el m칠todo de aumento de datos con cualquier librer칤a que quieras, pero en este tutorial utilizar치s el m칩dulo [`transforms`](https://pytorch.org/vision/stable/transforms.html) de torchvision.

1. Normaliza la imagen y utiliza [`Compose`](https://pytorch.org/vision/master/generated/torchvision.transforms.Compose.html) para encadenar algunas transformaciones - [`RandomResizedCrop`](https://pytorch.org/vision/main/generated/torchvision.transforms.RandomResizedCrop.html) y [`ColorJitter`](https://pytorch.org/vision/main/generated/torchvision.transforms.ColorJitter.html) - juntas:

In [None]:
from torchvision.transforms import Compose, Normalize, RandomResizedCrop, ColorJitter, ToTensor

normalize = Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std)
_transforms = Compose(
    [RandomResizedCrop(feature_extractor.size), ColorJitter(brightness=0.5, hue=0.5), ToTensor(), normalize]
)

2. El modelo acepta [`pixel_values`](https://huggingface.co/docs/transformers/main/es/model_doc/visionencoderdecoder#transformers.VisionEncoderDecoderModel.forward.pixel_values) como entrada. Este valor es generado por el extractor de caracter칤sticas. Crea una funci칩n que genere `pixel_values` a partir de las transformaciones:

In [None]:
def transforms(examples):
    examples["pixel_values"] = [_transforms(image.convert("RGB")) for image in examples["image"]]
    return examples

3. A continuaci칩n, utiliza 游뱅 Datasets [`set_transform`](https://huggingface.co/docs/datasets/process.html#format-transform) para aplicar las transformaciones sobre la marcha:

In [None]:
dataset.set_transform(transforms)

4. Ahora, cuando accedes a la imagen, observar치s que el extractor de caracter칤sticas ha a침adido a la entrada del modelo `pixel_values`:

In [None]:
dataset[0]["image"]

{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=384x512 at 0x7F1A7B0630D0>,
 'label': 6,
 'pixel_values': tensor([[[ 0.0353,  0.0745,  0.1216,  ..., -0.9922, -0.9922, -0.9922],
          [-0.0196,  0.0667,  0.1294,  ..., -0.9765, -0.9843, -0.9922],
          [ 0.0196,  0.0824,  0.1137,  ..., -0.9765, -0.9686, -0.8667],
          ...,
          [ 0.0275,  0.0745,  0.0510,  ..., -0.1137, -0.1216, -0.0824],
          [ 0.0667,  0.0824,  0.0667,  ..., -0.0588, -0.0745, -0.0980],
          [ 0.0353,  0.0353,  0.0431,  ..., -0.0039, -0.0039, -0.0588]],
 
         [[ 0.2078,  0.2471,  0.2863,  ..., -0.9451, -0.9373, -0.9451],
          [ 0.1608,  0.2471,  0.3098,  ..., -0.9373, -0.9451, -0.9373],
          [ 0.2078,  0.2706,  0.3020,  ..., -0.9608, -0.9373, -0.8275],
          ...,
          [-0.0353,  0.0118, -0.0039,  ..., -0.2392, -0.2471, -0.2078],
          [ 0.0196,  0.0353,  0.0196,  ..., -0.1843, -0.2000, -0.2235],
          [-0.0118, -0.0039, -0.0039,  ..., -0.0980, 

Este es el aspecto de la imagen despu칠s de preprocesarla. Como era de esperar por las transformaciones aplicadas, la imagen ha sido recortada aleatoriamente y sus propiedades de color son diferentes.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

img = dataset[0]["pixel_values"]
plt.imshow(img.permute(1, 2, 0))

![preprocessed_image](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/preprocessed_image.png)

## Multimodal

Para las tareas multimodales utilizar치s una combinaci칩n de todo lo que has aprendido hasta ahora y aplicar치s tus habilidades a una tarea de reconocimiento autom치tico de voz (ASR). Esto significa que necesitar치s un:

* Extractor de caracter칤sticas para preprocesar los datos de audio.
* Un tokenizador para procesar el texto.

Volvamos al dataset [LJ Speech](https://huggingface.co/datasets/lj_speech):

In [None]:
from datasets import load_dataset

lj_speech = load_dataset("lj_speech", split="train")

Suponiendo que te interesan principalmente las columnas `audio` y `texto`, elimina las dem치s columnas:

In [None]:
lj_speech = lj_speech.map(remove_columns=["file", "id", "normalized_text"])

Ahora echa un vistazo a las columnas `audio` y `texto`:

In [None]:
lj_speech[0]["audio"]

{'array': array([-7.3242188e-04, -7.6293945e-04, -6.4086914e-04, ...,
         7.3242188e-04,  2.1362305e-04,  6.1035156e-05], dtype=float32),
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/917ece08c95cf0c4115e45294e3cd0dee724a1165b7fc11798369308a465bd26/LJSpeech-1.1/wavs/LJ001-0001.wav',
 'sampling_rate': 22050}

In [None]:
lj_speech[0]["text"]

'Printing, in the only sense with which we are at present concerned, differs from most if not from all the arts and crafts represented in the Exhibition'

Recuerda la secci칩n anterior sobre el procesamiento de datos de audio, siempre debes [volver a muestrear](https://huggingface.co/docs/transformers/main/es/preprocessing#audio) la tasa de muestreo de tus datos de audio para que coincida con la tasa de muestreo del dataset utilizado para preentrenar un modelo:

In [None]:
lj_speech = lj_speech.cast_column("audio", Audio(sampling_rate=16_000))

### Processor

Un processor combina un extractor de caracter칤sticas y un tokenizador. Cargue un procesador con [`AutoProcessor.from_pretrained]:

In [None]:
from transformers import AutoProcessor

processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base-960h")

1. Crea una funci칩n para procesar los datos de audio en `input_values`, y tokeniza el texto en `labels`. Estas son las entradas del modelo:

In [None]:
def prepare_dataset(example):
    audio = example["audio"]

    example.update(processor(audio=audio["array"], text=example["text"], sampling_rate=16000))

    return example

2. Aplica la funci칩n `prepare_dataset` a una muestra:

In [None]:
prepare_dataset(lj_speech[0])

Observa que el m칠todo processor ha a침adido `input_values` y `labels`. La tasa de muestreo tambi칠n se ha reducido correctamente a 16kHz.

Genial, ahora deber칤as ser capaz de preprocesar datos para cualquier modalidad e incluso combinar diferentes modalidades. En el siguiente tutorial, aprender치s aplicar fine tuning a un modelo en tus datos reci칠n preprocesados.

## Todo lo que siempre quisiste saber sobre el padding y el truncamiento

Hemos visto los comandos que funcionar치n para la mayor칤a de los casos (hacer pad a tu batch teniendo en cuenta la longitud de la frase m치xima y 
truncar a la longitud m치xima que el modelo puede aceptar). Sin embargo, la API admite m치s estrategias si las necesitas. Los 
tres argumentos que necesitas conocer para ello son `padding`, `truncation` y `max_length`.

- `padding` controla el aplicarme padding al texto. Puede ser un booleano o una cadena que debe ser:

  - `True` o `'longest'` para aplicar el pad hasta la secuencia m치s larga del batch (no apliques el padding si s칩lo le proporcionas 
  una sola secuencia).
  - `'max_length'` para aplicar el pad hasta la longitud especificada por el argumento `max_length` o la longitud m치xima aceptada 
  por el modelo si no le proporcionas `longitud_m치xima` (`longitud_m치xima=None`). Si s칩lo le proporcionas una 칰nica secuencia 
  se le aplicar치 el padding.
  `False` o `'do_not_pad'` para no aplicar pad a las secuencias. Como hemos visto antes, este es el comportamiento por 
  defecto.

- `truncation` controla el truncamiento. Puede ser un booleano o una string que debe ser:

  - `True` o `'longest_first'` truncan hasta la longitud m치xima especificada por el argumento `max_length` o 
  la longitud m치xima aceptada por el modelo si no le proporcionas `max_length` (`max_length=None`). Esto 
  truncar치 token por token, eliminando un token de la secuencia m치s larga del par hasta alcanzar la longitud 
  adecuada.
  - `'only_second'` trunca hasta la longitud m치xima especificada por el argumento `max_length` o la 
  longitud m치xima aceptada por el modelo si no le proporcionas `max_length` (`max_length=None`). Esto s칩lo truncar치 
  la segunda frase de un par si le proporcionas un par de secuencias (o un batch de pares de secuencias).
  - `'only_first'` trunca hasta la longitud m치xima especificada por el argumento `max_length` o la longitud m치xima 
  aceptada por el modelo si no se proporciona `max_length` (`max_length=None`). Esto s칩lo truncar치 
  la primera frase de un par si se proporciona un par de secuencias (o un lote de pares de secuencias).
  - `False` o `'do_not_truncate'` para no truncar las secuencias. Como hemos visto antes, este es el comportamiento 
  por defecto.

- `max_length` para controlar la longitud del padding/truncamiento. Puede ser un n칰mero entero o `None`, en cuyo caso 
ser치 por defecto la longitud m치xima que el modelo puede aceptar. Si el modelo no tiene una longitud m치xima de entrada espec칤fica, el 
padding/truncamiento a `longitud_m치xima` se desactiva.

A continuaci칩n te mostramos en una tabla que resume la forma recomendada de configurar el padding y el truncamiento. Si utilizas un par de secuencias de entrada en 
algunos de los siguientes ejemplos, puedes sustituir `truncation=True` por una `STRATEGY` seleccionada en 
`['only_first', 'only_second', 'longest_first']`, es decir, `truncation='only_second'` o `truncation= 'longest_first'` para controlar c칩mo se truncan ambas secuencias del par como se ha detallado anteriormente.

| Truncation                           | Padding                           | Instrucciones                                                                               |
|--------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------|
| no truncation                        | no padding                        | `tokenizer(batch_sentences)`                                                           |
|                                      | padding secuencia max del batch   | `tokenizer(batch_sentences, padding=True)` or                                          |
|                                      |                                   | `tokenizer(batch_sentences, padding='longest')`                                        |
|                                      | padding long max de input model   | `tokenizer(batch_sentences, padding='max_length')`                                     |
|                                      | padding a una long especifica     | `tokenizer(batch_sentences, padding='max_length', max_length=42)`                      |
| truncation long max del input model  | no padding                        | `tokenizer(batch_sentences, truncation=True)` or                                       |
|                                      |                                   | `tokenizer(batch_sentences, truncation=STRATEGY)`                                      |
|                                      | padding secuencia max del batch   | `tokenizer(batch_sentences, padding=True, truncation=True)` or                         |
|                                      |                                   | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY)`                        |
|                                      | padding long max de input model   | `tokenizer(batch_sentences, padding='max_length', truncation=True)` or                 |
|                                      |                                   | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY)`                |
|                                      | padding a una long especifica     | Not possible                                                                                |
| truncation a una long especifica      | no padding                        | `tokenizer(batch_sentences, truncation=True, max_length=42)` or                        |
|                                      |                                   | `tokenizer(batch_sentences, truncation=STRATEGY, max_length=42)`                       |
|                                      | padding secuencia max del batch   | `tokenizer(batch_sentences, padding=True, truncation=True, max_length=42)` or          |
|                                      |                                   | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42)`         |
|                                      | padding long max de input model   | Not possible                                                                                |
|                                      | padding a una long especifica     | `tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42)` or  |
|                                      |                                   | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42)` |