Universelles Decoder-Modell

Um den Beispielcode selbst auszuführen oder zu modifizieren, können Sie das dieser Seite zugrundeliegende Jupyter Notebook über die Seitenleiste öffnen und herunterladen.

Fragen zum Code?

Kein Problem! Erklärungen zu den einzelnen Schritten des Codes verbergen sich hinter den Nummern an der rechten Seite. Einfach mit der Maus über die Nummer fahren, um die Erklärung zu sehen. Wo der jeweilige Code ausgeführt wird (in Python, R, oder dem Terminal), steht in der Kopfzeile des Codeblocks.

Python

print("Hallo! 👋")

1: Das ist ein einfacher Python-Befehl, der den Text “Hallo” in der Konsole ausgibt. Der Output erscheint unter dem Codeblock.

Hallo! 👋

Daten laden

Unabhängig vom verwendeten Modell laden wir zunächst die bereits installierten Pakete sowie unsere Textdaten und speichern diese in einem Listenobjekt:

Python

import pandas as pd
from transformers import pipeline
import json

daten = pd.read_csv("data/example_dataset.csv")
datenliste = list(daten["text"])

1: Importieren der benötigten Bibliotheken
2: Laden der Textdaten aus einer CSV-Datei und Speichern in einer Liste

Modell laden

Im Gegensatz zu kategoriespezifischen Modellen können wir mit universellen Decoder-Modellen jede beliebige Kategorie codieren. Als Beispiel verwenden wir hier das LLaMA 3.1 Modell von Meta (Grattafiori et al., 2024).

Gut zu wissen

Anstelle des hier verwendeten Modells meta-llama/Meta-Llama-3.1-8B-Instruct können Sie auch andere universelle Decoder-Modelle (üblicherweise gekennzeichnet für “Text Generation”) für verschiedene Sprachen und Anwendungsfälle verwenden. Eine Übersicht über verfügbare Modelle finden Sie auf Hugging Face. Achten Sie darauf, dass das gewählte Modell für Ihre spezifische Aufgabe geeignet ist (z. B. Sentiment-Analyse, Themenklassifikation etc.) und die Sprache Ihrer Texte unterstützt.

Python

generate = pipeline("text-generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct")

3: Laden des universellen Decoder-Modells für Textgenerierung

Klassifikation

Anders als bei den vorigen Ansätzen müssen wir bei einem universellen Decoder-Modell einen Prompt entwickeln, auf dessen Basis das Modell Text generiert (d. h. die Antwort auf die Codieranfrage), idealerweise in einem maschinenlesbaren Format. Der Prompt könnte bspw. folgendermaßen lauten: “Du bist ein trainierter Assistent für Inhaltsanalyse, der die allgemeine Stimmung beziehungsweise Tonalität von Texten analysiert. Antworte immer präzise im JSON-Format mit sentiment (positiv, neutral, negativ) und reasoning (eine Begründung auf Deutsch). Gib ausschließlich den JSON-Response, beginnend mit ‘{’ und endend mit ‘}’, mit diesen zwei Parametern zurück.” Diesen Prompt wenden wir nun iterativ auf jeden Text in unserem Datensatz an. Dies geht am einfachsten über eine for-Schleife.

Über den Parameter max_new_tokens können wir die Länge des generierten Outputs beschränken, do_sample sollten wir i. d. R. auf “False” setzen, um deterministische und somit replizierbare Antworten zu erhalten. Zu beachten ist außerdem, dass große Sprachmodelle wie das hier verwendete LLama-Modell 3.1 (model="meta-llama/Meta-Llama-3.1-8B-Instruct") über Hunggingface zwar prinzipiell frei verfügbar sind, oftmals jedoch eine Authentifizierung erfordern.

Achtung

Das hier verwendete Modell meta-llama/Meta-Llama-3.1-8B-Instruct ist ein sehr großes Sprachmodell (also im wahrsten Sinne des Wortes ein Large Language Model, LLM), das erhebliche Rechenressourcen benötigt. Für die Ausführung dieses Modells ist eine GPU (Grafikkarte) mit mindestens 16 GB VRAM (Arbeitsspeicher) erforderlich. Auf einem Laptop oder Desktop-PC ohne entsprechende Hardware wird das Modell nicht ausgeführt werden können. Sollten Sie unsicher sein, können Sie die Voraussetzungen Ihrer Hardware i. d. R. über die Systemeinstellungen des Betriebssystems herausfinden. Im Zweifelsfall: Einfach ausprobieren — falls die Hardware nicht ausreicht, werden Sie eine entsprechende Fehlermeldung erhalten. Alternativ können Sie kleinere Modelle ausführen, die weniger Ressourcen benötigen, oder auf Cloud-Dienste zurückgreifen, die leistungsfähige Hardware bereitstellen. Allerdings: Selbst wenn das Modell auf Ihrer Hardware ausgeführt werden kann, wird die Verarbeitung je nach Textlänge und Modellgröße einige Zeit in Anspruch nehmen. Es bietet sich daher an, nicht alle Texte auf einmal zu verarbeiten, sondern die Liste der Texte in kleinere Chargen (Batches) aufzuteilen und diese nacheinander zu verarbeiten. Eine beispielhafte Batch-Verarbeitung finden Sie in der Umsetzung unserer Beispielstudie.

Python

ergebnis = []
for text in datenliste:
    instructions = [
        {"role": "system",
         "content": "Du bist ein trainierter Assistent für Inhaltsanalyse, der die allgemeine Stimmung beziehungsweise Tonalität von Texten analysiert. Antworte immer präzise im JSON-Format mit sentiment (positiv, neutral, negativ) und reasoning (eine Begründung auf Deutsch). Gib ausschließlich den JSON-Response, beginnend mit '{' und endend mit '}', mit diesen zwei Parametern zurück"},
        {"role": "user", "content": text}]
    outputs = generate(instructions, max_new_tokens=256, do_sample=False)
    ergebnis.append({"text": text, "response": outputs[0]["generated_text"][-1]['content']})

4: Initialisieren einer leeren Liste für die Ergebnisse
5: Iterieren über jeden Text in der Datenliste
6: Definieren der Anweisungen (Prompt) für das Modell
7: Generieren der Antwort des Modells mit den definierten Anweisungen
8: Speichern des Originaltexts und der generierten Antwort in der Ergebnisliste

Nachdem alle Antworten generiert wurden, können wir die Ergebnisse aus dem JSON-Format extrahieren. Wenn wir möchten, können wir die zusätzliche ausgegebene Begründung ebenfalls abspeichern, um uns diese anzusehen.

Achtung

Es kann ab und an vorkommen, dass das Modell fehlerhaftes JSON zurückgibt (z. B. indem es Anführungszeichen “vergisst” oder Antworten bei Erreichen von max_new_tokens abgebrochen werden, sodass diese nicht durch eine geschwungene Klammer abschließen). Wie wir damit umgehen können, haben wir beispielhaft in der Umsetzung unserer Beispielstudie dokumentiert.

def parse_response(response):
    parsed = json.loads(response)
    return parsed['sentiment'], parsed['reasoning']

parsed_data = [(entry['text'], *parse_response(entry['response'])) for entry in ergebnis]
parsed_data = pd.DataFrame(parsed_data, columns=['text', 'sentiment', 'reasoning'])
print(parsed_data)

9: Definieren einer Funktion zum Parsen des JSON-Responses
10: Anwenden der Parsing-Funktion auf die Ergebnisliste und Speichern in einem DataFrame

                                                text sentiment                                          reasoning
0  Die orthodoxe Gemeinde feiert heute #Ostern. I...   positiv  Der Text wünscht ein 'frohes und gesegnetes Fe...
1  Vielen Dank Gregor Rutz für die Unterstützung ...   positiv  Der Text ist positiv, da er jemanden (Gregor R...
2  Wird ja immer schlimmer mit den Intoleranten d...   negativ  Der Text beschreibt eine negative Entwicklung,...
3  Liebe Junge, geht wählen. Kann ja nicht sein, ...   negativ  Der Text enthält eine Aufforderung zum Handeln...
4  ‘— Das war unser EU-Wahl-Abschluss der SP– mit...   positiv  Der Text enthält ein Ausrufezeichen, das auf e...
5  Aufschlussreicher Blick hinter die Mauern! Tol...   positiv  Der Text enthält positive Wörter wie 'Tolle', ...
6  Denn ein Hard-Brexit würde der #EU, aber noch ...   negativ  Der Text besagt, dass ein Hard-Brexit sowohl d...
7  Familienbonus: Es ist erstaunlich wie viele Me...   negativ  Die Verwendung des Wortes 'erstaunlich' in die...
8  Integration passiert vor Ort. Deshalb arbeitet...   neutral  Der Text beschreibt eine praktische Zusammenar...
9  Ich frage mich: Wer ist als nächstes dran Frau...   neutral  Die Frage ist neutral formuliert und bezieht s...

Quelle: 05_universelles_Decoder-Modell.ipynb

Literatur

Grattafiori, A., Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Vaughan, A., Yang, A., Fan, A., Goyal, A., Hartshorn, A., Yang, A., Mitra, A., Sravankumar, A., Korenev, A., Hinsvark, A., … Ma, Z. (2024, November 23). The Llama 3 Herd of Models. https://doi.org/10.48550/arXiv.2407.21783