In [None]:
# Transformers installation
! pip install transformers datasets
# To install from source instead of the last release, comment the command above and uncomment the following one.
# ! pip install git+https://github.com/huggingface/transformers.git

# Optimierung eines vortrainierten Modells

Die Verwendung eines vorab trainierten Modells hat erhebliche Vorteile. Es reduziert die Rechenkosten und den CO2-Fu√üabdruck und erm√∂glicht Ihnen die Verwendung von Modellen, die dem neuesten Stand der Technik entsprechen, ohne dass Sie ein Modell von Grund auf neu trainieren m√ºssen. Transformers bietet Zugang zu Tausenden von vortrainierten Modellen f√ºr eine Vielzahl von Aufgaben. Wenn Sie ein vorab trainiertes Modell verwenden, trainieren Sie es auf einem f√ºr Ihre Aufgabe spezifischen Datensatz. Dies wird als Feinabstimmung bezeichnet und ist eine unglaublich leistungsf√§hige Trainingstechnik. In diesem Tutorial werden Sie ein vortrainiertes Modell mit einem Deep-Learning-Framework Ihrer Wahl feinabstimmen:

* Feinabstimmung eines vorab trainierten Modells mit ü§ó Transformers `Trainer`.
* Feinabstimmung eines vorab trainierten Modells in TensorFlow mit Keras.
* Feinabstimmung eines vorab trainierten Modells in nativem PyTorch.

<a id='data-processing'></a>

## Vorbereitung eines Datensatzes

In [None]:
#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/_BZearw7f0w?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

Bevor Sie die Feinabstimmung eines vortrainierten Modells vornehmen k√∂nnen, m√ºssen Sie einen Datensatz herunterladen und f√ºr das Training vorbereiten. Im vorangegangenen Leitfaden haben Sie gelernt, wie man Daten f√ºr das Training aufbereitet, und jetzt haben Sie die Gelegenheit, diese F√§higkeiten zu testen!

Laden Sie zun√§chst den Datensatz [Yelp Reviews](https://huggingface.co/datasets/yelp_review_full):

In [None]:
from datasets import load_dataset

dataset = load_dataset("yelp_review_full")
dataset["train"][100]

{'label': 0,
 'text': 'My expectations for McDonalds are t rarely high. But for one to still fail so spectacularly...that takes something special!\\nThe cashier took my friends\'s order, then promptly ignored me. I had to force myself in front of a cashier who opened his register to wait on the person BEHIND me. I waited over five minutes for a gigantic order that included precisely one kid\'s meal. After watching two people who ordered after me be handed their food, I asked where mine was. The manager started yelling at the cashiers for \\"serving off their orders\\" when they didn\'t have their food. But neither cashier was anywhere near those controls, and the manager was the one serving food to customers and clearing the boards.\\nThe manager was rude when giving me my order. She didn\'t make sure that I had everything ON MY RECEIPT, and never even had the decency to apologize that I felt I was getting poor service.\\nI\'ve eaten at various McDonalds restaurants for over 30 years. 

Wie Sie nun wissen, ben√∂tigen Sie einen Tokenizer, um den Text zu verarbeiten und eine Auff√ºll- und Abschneidungsstrategie einzubauen, um mit variablen Sequenzl√§ngen umzugehen. Um Ihren Datensatz in einem Schritt zu verarbeiten, verwenden Sie die ü§ó Methode Datasets [`map`](https://huggingface.co/docs/datasets/process.html#map), um eine Vorverarbeitungsfunktion auf den gesamten Datensatz anzuwenden:

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")


def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)


tokenized_datasets = dataset.map(tokenize_function, batched=True)

Wenn Sie m√∂chten, k√∂nnen Sie eine kleinere Teilmenge des gesamten Datensatzes f√ºr die Feinabstimmung erstellen, um den Zeitaufwand zu verringern:

In [None]:
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

<a id='trainer'></a>

## Training

An dieser Stelle sollten Sie dem Abschnitt folgen, der dem Rahmen entspricht, den Sie verwenden m√∂chten. Sie k√∂nnen √ºber die Links
in der rechten Seitenleiste k√∂nnen Sie zu dem gew√ºnschten Abschnitt springen - und wenn Sie den gesamten Inhalt eines bestimmten Frameworks ausblenden m√∂chten,
klicken Sie einfach auf die Schaltfl√§che oben rechts im Block des jeweiligen Frameworks!

In [None]:
#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/nvBXf7s7vTI?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

## Trainieren mit PyTorch Trainer

ü§ó Transformers bietet eine `Trainer`-Klasse, die f√ºr das Training von ü§ó Transformers-Modellen optimiert ist und es einfacher macht, mit dem Training zu beginnen, ohne manuell eine eigene Trainingsschleife zu schreiben. Die `Trainer`-API unterst√ºtzt eine breite Palette von Trainingsoptionen und Funktionen wie Logging, Gradientenakkumulation und gemischte Pr√§zision.

Beginnen Sie mit dem Laden Ihres Modells und geben Sie die Anzahl der erwarteten Labels an. Aus dem Yelp Review [dataset card](https://huggingface.co/datasets/yelp_review_full#data-fields) wissen Sie, dass es f√ºnf Labels gibt:

In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

<Tip>

Es wird eine Warnung angezeigt, dass einige der trainierten Parameter nicht verwendet werden und einige Parameter zuf√§llig
initialisiert werden. Machen Sie sich keine Sorgen, das ist v√∂llig normal! Der vorher trainierte Kopf des BERT-Modells wird verworfen und durch einen zuf√§llig initialisierten Klassifikationskopf ersetzt. Sie werden diesen neuen Modellkopf in Ihrer Sequenzklassifizierungsaufgabe feinabstimmen, indem Sie das Wissen des vortrainierten Modells auf ihn √ºbertragen.

</Tip>

### Hyperparameter f√ºr das Training

Als N√§chstes erstellen Sie eine Klasse `TrainingArguments`, die alle Hyperparameter enth√§lt, die Sie einstellen k√∂nnen, sowie Flags zur Aktivierung verschiedener Trainingsoptionen. F√ºr dieses Lernprogramm k√∂nnen Sie mit den Standard- [Hyperparametern](https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments) beginnen, aber Sie k√∂nnen mit diesen experimentieren, um Ihre optimalen Einstellungen zu finden.

Geben Sie an, wo die Kontrollpunkte Ihres Trainings gespeichert werden sollen:

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments(output_dir="test_trainer")

### Auswerten

Der `Trainer` wertet die Leistung des Modells w√§hrend des Trainings nicht automatisch aus. Sie m√ºssen `Trainer` eine Funktion √ºbergeben, um Metriken zu berechnen und zu berichten. Die [ü§ó Evaluate](https://huggingface.co/docs/evaluate/index) Bibliothek bietet eine einfache [`accuracy`](https://huggingface.co/spaces/evaluate-metric/accuracy) Funktion, die Sie mit der `evaluate.load` Funktion laden k√∂nnen (siehe diese [quicktour](https://huggingface.co/docs/evaluate/a_quick_tour) f√ºr weitere Informationen):

In [None]:
import numpy as np
import evaluate

metric = evaluate.load("accuracy")

Rufen Sie `compute` auf `metric` auf, um die Genauigkeit Ihrer Vorhersagen zu berechnen. Bevor Sie Ihre Vorhersagen an `compute` √ºbergeben, m√ºssen Sie die Vorhersagen in Logits umwandeln (denken Sie daran, dass alle ü§ó Transformers-Modelle Logits zur√ºckgeben):

In [None]:
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

Wenn Sie Ihre Bewertungsmetriken w√§hrend der Feinabstimmung √ºberwachen m√∂chten, geben Sie den Parameter `evaluation_strategy` in Ihren Trainingsargumenten an, um die Bewertungsmetrik am Ende jeder Epoche zu ermitteln:

In [None]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(output_dir="test_trainer", evaluation_strategy="epoch")

### Trainer

Erstellen Sie ein `Trainer`-Objekt mit Ihrem Modell, Trainingsargumenten, Trainings- und Testdatens√§tzen und einer Evaluierungsfunktion:

In [None]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

Anschlie√üend k√∂nnen Sie Ihr Modell durch den Aufruf von `train()` optimieren:

In [None]:
trainer.train()

<a id='keras'></a>

In [None]:
#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/rnTGBy2ax1c?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

## Trainieren Sie ein TensorFlow-Modell mit Keras

Sie k√∂nnen auch ü§ó Transformers Modelle in TensorFlow mit der Keras API trainieren!

### Laden von Daten f√ºr Keras

Wenn Sie ein ü§ó Transformers Modell mit der Keras API trainieren wollen, m√ºssen Sie Ihren Datensatz in ein Format konvertieren, das
Keras versteht. Wenn Ihr Datensatz klein ist, k√∂nnen Sie das Ganze einfach in NumPy-Arrays konvertieren und an Keras √ºbergeben.
Probieren wir das zuerst aus, bevor wir etwas Komplizierteres tun.

Laden Sie zun√§chst ein Dataset. Wir werden den CoLA-Datensatz aus dem [GLUE-Benchmark](https://huggingface.co/datasets/glue) verwenden,
da es sich um eine einfache Aufgabe zur Klassifizierung von bin√§rem Text handelt, und nehmen vorerst nur den Trainingssplit.

In [None]:
from datasets import load_dataset

dataset = load_dataset("glue", "cola")
dataset = dataset["train"]  # Just take the training split for now

Als n√§chstes laden Sie einen Tokenizer und tokenisieren die Daten als NumPy-Arrays. Beachten Sie, dass die Beschriftungen bereits eine Liste von 0 und 1en sind,
Wir k√∂nnen sie also ohne Tokenisierung direkt in ein NumPy-Array konvertieren!

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
tokenized_data = tokenizer(dataset["text"], return_tensors="np", padding=True)
# Tokenizer returns a BatchEncoding, but we convert that to a dict for Keras
tokenized_data = dict(tokenized_data)

labels = np.array(dataset["label"])  # Label is already an array of 0 and 1

Schlie√ülich laden, [`compile`](https://keras.io/api/models/model_training_apis/#compile-method) und [`fit`](https://keras.io/api/models/model_training_apis/#fit-method) Sie das Modell:

In [None]:
from transformers import TFAutoModelForSequenceClassification
from tensorflow.keras.optimizers import Adam

# Load and compile our model
model = TFAutoModelForSequenceClassification.from_pretrained("bert-base-cased")
# Lower learning rates are often better for fine-tuning transformers
model.compile(optimizer=Adam(3e-5))

model.fit(tokenized_data, labels)

<Tip>

Sie m√ºssen Ihren Modellen kein Verlustargument √ºbergeben, wenn Sie sie `compile()`! Hugging-Face-Modelle w√§hlen automatisch
einen Loss, der f√ºr ihre Aufgabe und Modellarchitektur geeignet ist, wenn dieses Argument leer gelassen wird. Sie k√∂nnen jederzeit au√üer Kraft setzen, indem Sie selbst einen Loss angeben, wenn Sie das m√∂chten!

</Tip>

Dieser Ansatz eignet sich hervorragend f√ºr kleinere Datens√§tze, aber bei gr√∂√üeren Datens√§tzen kann er zu einem Problem werden. Warum?
Weil das tokenisierte Array und die Beschriftungen vollst√§ndig in den Speicher geladen werden m√ºssten, und weil NumPy nicht mit
"gezackte" Arrays nicht verarbeiten kann, so dass jedes tokenisierte Sample auf die L√§nge des l√§ngsten Samples im gesamten Datensatz aufgef√ºllt werden m√ºsste.
Datensatzes aufgef√ºllt werden. Dadurch wird das Array noch gr√∂√üer, und all die aufgef√ºllten Token verlangsamen auch das Training!

### Laden von Daten als tf.data.Dataset

Wenn Sie eine Verlangsamung des Trainings vermeiden wollen, k√∂nnen Sie Ihre Daten stattdessen als `tf.data.Dataset` laden. Sie k√∂nnen zwar Ihre eigene
tf.data"-Pipeline schreiben k√∂nnen, wenn Sie wollen, haben wir zwei bequeme Methoden, um dies zu tun:

- `prepare_tf_dataset()`: Dies ist die Methode, die wir in den meisten F√§llen empfehlen. Da es sich um eine Methode
Ihres Modells ist, kann sie das Modell inspizieren, um automatisch herauszufinden, welche Spalten als Modelleingaben verwendet werden k√∂nnen, und
verwirft die anderen, um einen einfacheren, leistungsf√§higeren Datensatz zu erstellen.
- [~datasets.Dataset.to_tf_dataset`]: Diese Methode ist eher auf niedriger Ebene angesiedelt und ist n√ºtzlich, wenn Sie genau kontrollieren wollen, wie
Dataset erstellt wird, indem man genau angibt, welche `columns` und `label_cols` einbezogen werden sollen.

Bevor Sie [~TFPreTrainedModel.prepare_tf_dataset`] verwenden k√∂nnen, m√ºssen Sie die Tokenizer-Ausgaben als Spalten zu Ihrem Datensatz hinzuf√ºgen, wie in
dem folgenden Codebeispiel:

In [None]:
def tokenize_dataset(data):
    # Keys of the returned dictionary will be added to the dataset as columns
    return tokenizer(data["text"])


dataset = dataset.map(tokenize_dataset)

Denken Sie daran, dass Hugging Face-Datens√§tze standardm√§√üig auf der Festplatte gespeichert werden, so dass dies nicht zu einem erh√∂hten Arbeitsspeicherbedarf f√ºhren wird! Sobald die
Spalten hinzugef√ºgt wurden, k√∂nnen Sie Batches aus dem Datensatz streamen und zu jedem Batch Auff√ºllungen hinzuf√ºgen, was die Anzahl der Auff√ºllungs-Token im Vergleich zum Auff√ºllen des gesamten Datensatzes reduziert.

In [None]:
tf_dataset = model.prepare_tf_dataset(dataset, batch_size=16, shuffle=True, tokenizer=tokenizer)

Beachten Sie, dass Sie im obigen Codebeispiel den Tokenizer an `prepare_tf_dataset` √ºbergeben m√ºssen, damit die Stapel beim Laden korrekt aufgef√ºllt werden k√∂nnen.
Wenn alle Stichproben in Ihrem Datensatz die gleiche L√§nge haben und kein Auff√ºllen erforderlich ist, k√∂nnen Sie dieses Argument weglassen.
Wenn Sie etwas Komplexeres als nur das Auff√ºllen von Stichproben ben√∂tigen (z. B. das Korrumpieren von Token f√ºr die maskierte Sprachmodellierung), k√∂nnen Sie das Argument
Modellierung), k√∂nnen Sie stattdessen das Argument `collate_fn` verwenden, um eine Funktion zu √ºbergeben, die aufgerufen wird, um die
Liste von Stichproben in einen Stapel umwandelt und alle gew√ºnschten Vorverarbeitungen vornimmt. Siehe unsere
[examples](https://github.com/huggingface/transformers/tree/main/examples) oder
[notebooks](https://huggingface.co/docs/transformers/notebooks), um diesen Ansatz in Aktion zu sehen.

Sobald Sie einen `tf.data.Dataset` erstellt haben, k√∂nnen Sie das Modell wie zuvor kompilieren und anpassen:

In [None]:
model.compile(optimizer=Adam(3e-5))

model.fit(tf_dataset)

<a id='pytorch_native'></a>

## Trainieren in nativem PyTorch

In [None]:
#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/Dh9CL8fyG80?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

`Trainer` k√ºmmert sich um die Trainingsschleife und erm√∂glicht die Feinabstimmung eines Modells in einer einzigen Codezeile. F√ºr Benutzer, die es vorziehen, ihre eigene Trainingsschleife zu schreiben, k√∂nnen Sie auch eine Feinabstimmung eines ü§ó Transformers-Modells in nativem PyTorch vornehmen.

An diesem Punkt m√ºssen Sie m√∂glicherweise Ihr Notebook neu starten oder den folgenden Code ausf√ºhren, um etwas Speicher freizugeben:

In [None]:
del model
del pytorch_model
del trainer
torch.cuda.empty_cache()

Als N√§chstes m√ºssen Sie den Datensatz `tokenized_dataset` manuell nachbearbeiten, um ihn f√ºr das Training vorzubereiten.

1. Entfernen Sie die Spalte "Text", da das Modell keinen Rohtext als Eingabe akzeptiert:

    ```py
    >>> tokenized_datasets = tokenized_datasets.remove_columns(["text"])
    ```

2. Benennen Sie die Spalte "Label" in "Labels" um, da das Modell erwartet, dass das Argument "Labels" genannt wird:

    ```py
    >>> tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
    ```

3. Stellen Sie das Format des Datensatzes so ein, dass PyTorch-Tensoren anstelle von Listen zur√ºckgegeben werden:

    ```py
    >>> tokenized_datasets.set_format("torch")
    ```

Erstellen Sie dann eine kleinere Teilmenge des Datensatzes, wie zuvor gezeigt, um die Feinabstimmung zu beschleunigen:

In [None]:
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

### DataLoader

Erstellen Sie einen `DataLoader` f√ºr Ihre Trainings- und Testdatens√§tze, damit Sie √ºber die Datenstapel iterieren k√∂nnen:

In [None]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(small_train_dataset, shuffle=True, batch_size=8)
eval_dataloader = DataLoader(small_eval_dataset, batch_size=8)

Laden Sie Ihr Modell mit der Anzahl der erwarteten Kennzeichnungen:

In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

### Optimierer und Lernratensteuerung

Erstellen Sie einen Optimierer und einen Scheduler f√ºr die Lernrate, um das Modell fein abzustimmen. Wir verwenden den Optimierer [`AdamW`](https://pytorch.org/docs/stable/generated/torch.optim.AdamW.html) aus PyTorch:

In [None]:
from torch.optim import AdamW

optimizer = AdamW(model.parameters(), lr=5e-5)

Erstellen Sie den Standard-Lernratenplaner aus `Trainer`:

In [None]:
from transformers import get_scheduler

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    name="linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps
)

Geben Sie schlie√ülich `device` an, um einen Grafikprozessor zu verwenden, wenn Sie Zugang zu einem solchen haben. Andernfalls kann das Training auf einer CPU mehrere Stunden statt ein paar Minuten dauern.

In [None]:
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

<Tip>

Holen Sie sich mit einem gehosteten Notebook wie [Colaboratory](https://colab.research.google.com/) oder [SageMaker StudioLab](https://studiolab.sagemaker.aws/) kostenlosen Zugang zu einem Cloud-GPU, wenn Sie noch keinen haben.

</Tip>

Gro√üartig, Sie sind bereit f√ºr das Training! ü•≥

### Trainingsschleife

Um Ihren Trainingsfortschritt zu verfolgen, verwenden Sie die [tqdm](https://tqdm.github.io/) Bibliothek, um einen Fortschrittsbalken √ºber die Anzahl der Trainingsschritte hinzuzuf√ºgen:

In [None]:
from tqdm.auto import tqdm

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

### Auswertung

Genauso wie Sie eine Bewertungsfunktion zu `Trainer` hinzugef√ºgt haben, m√ºssen Sie dasselbe tun, wenn Sie Ihre eigene Trainingsschleife schreiben. Aber anstatt die Metrik am Ende jeder Epoche zu berechnen und zu melden, werden Sie dieses Mal alle Stapel mit `add_batch` akkumulieren und die Metrik ganz am Ende berechnen.

In [None]:
import evaluate

metric = evaluate.load("accuracy")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()

<a id='additional-resources'></a>

## Zus√§tzliche Ressourcen

Weitere Beispiele f√ºr die Feinabstimmung finden Sie unter:

- [ü§ó Transformers Examples](https://github.com/huggingface/transformers/tree/main/examples) enth√§lt Skripte
  um g√§ngige NLP-Aufgaben in PyTorch und TensorFlow zu trainieren.

- [ü§ó Transformers Notebooks](https://huggingface.co/docs/transformers/main/de/notebooks) enth√§lt verschiedene Notebooks zur Feinabstimmung eines Modells f√ºr bestimmte Aufgaben in PyTorch und TensorFlow.