Python
print("Hallo! 👋")- 1
- Das ist ein einfacher Python-Befehl, der den Text “Hallo” in der Konsole ausgibt. Der Output erscheint unter dem Codeblock.
Hallo! 👋
Bevor wir beginnen, müssen wir Python zunächst auf dem eigenen Computer installieren. Aktuelle Versionen von Python zum Herunterladen sowie weitere Informationen zur Installation auf unterschiedlichen Betriebssystemen finden Sie unter https://python.org. Für den Beispielcode in diesem Artikel empfehlen wir die Python-Version 3.12.8. Für andere Modelle besteht in der Zukunft jedoch die Möglichkeit, dass eine neuere Version von Python installiert werden muss, damit alle Pakete in den benötigten Versionen laufen.
Nach der Installation von Python legen wir (1) einen Projektordner und (2) eine virtuelle Python-Umgebung an, in die dann (3) alle benötigten Pakete installiert werden. Es ist nicht unbedingt notwendig, eine virtuelle Umgebung anzulegen. Allerdings empfehlen wir diesen Schritt, um Konflikte mit unterschiedlichen Software-Versionen zu vermeiden. Schließlich öffnen wir (4) die Jupyter Notebook-Umgebung, in der wir die Beispiele aus diesem Artikel ausprobieren können.
Auf Hugging Face zur Verfügung gestellte Modelle können über die Programmiersprache Python in wenigen Zeilen Code geladen und auf Texte angewendet werden. Voraussetzung für die in dieser Anleitung vorgestellten Modelle ist, dass mindestens 10GB freier Festplattenspeicher sowie ausreichend Arbeitsspeicher (RAM bzw. VRAM; mindestens 8GB, besser mehr) zur Verfügung stehen. Achtung: Abseits der hier vorgestellten Modelle gibt es auch sehr große Modelle, die deutlich mehr Speicherplatz benötigen und auf handelsüblicher Hardware (Laptop oder PC) nicht ausgeführt werden können. Diese sind für die meisten Anwendungsfälle in der Inhaltsanalyse jedoch nicht notwendig. Prüfen Sie vor der Nutzung anderer Modelle auf Hugging Face immer die jeweiligen Anforderungen an die Hardware, diese lässt sich grob anhand der Modellgröße abschätzen.
Kein Problem! Erklärungen zu den einzelnen Schritten des Codes verbergen sich hinter den Nummern an der rechten Seite. Einfach mit der Maus über die Nummer fahren, um die Erklärung zu sehen. Wo der jeweilige Code ausgeführt wird (in Python, R, oder dem Terminal), steht in der Kopfzeile des Codeblocks.
Python
print("Hallo! 👋")Hallo! 👋
Den Projektordner können wir über den Dateimanager (Windows) bzw. Finder (Mac) anlegen. Anschließend navigieren wir zu unserem Projektordner und öffnen darin die Kommandozeile unseres Computers:
Rechtsklick auf Projektordner im Finder und “Neues Terminal beim Ordner” auswählen.
Shift + Rechtsklick auf Projektordner im Explorer und “PowerShell-Fenster hier öffnen” auswählen.
In der Kommandozeile führen wir den folgenden Befehl aus, der die virtuelle Python-Umgebung anlegt:
Terminal
python3.12 -m venv envenv an. Der Name der virtuellen Umgebung kann beliebig gewählt werden, sollte aber idealerweise keine Leer- oder Sonderzeichen enthalten.
Mit dem nachfolgenden Befehl aktivieren wir die virtuelle Umgebung. Diesen zweiten Befehl müssen wir jedes Mal ausführen, wenn wir in der virtuellen Python-Umgebung arbeiten wollen:
Terminal
source env/bin/activateenv. Der Name der virtuellen Umgebung muss mit dem Namen übereinstimmen, den wir im vorherigen Schritt gewählt haben.
Terminal
.\env\Scripts\activateenv. Der Name der virtuellen Umgebung muss mit dem Namen übereinstimmen, den wir im vorherigen Schritt gewählt haben.
Falls die PowerShell die Ausführung von Skripten blockiert, kann dies mit dem folgenden Befehl geändert werden:
Terminal
Set-ExecutionPolicy -Scope Process -ExecutionPolicy BypassAnschließend können wir die benötigten Pakete installieren, konkret die transformers-Bibliothek von Hugging Face (Wolf et al., 2020), die pandas-Bibliothek zur Datenverarbeitung (McKinney, 2010) sowie einige Machine Learning-Bibliotheken, die von transformers im Hintergrund benötigt werden. Abhängig vom verwendeten Transformer-Modell benötigen wir eventuell weitere Pakete, worauf entsprechende Fehlermeldungen im weiteren Prozess hinweisen. Diese können wir dann ebenfalls über pip install [paketname] installieren. Für die Beispiele aus diesem Artikel benötigen wir die im folgenden Code installierten Pakete:
Terminal
pip install jupyter pandas transformers torch tensorflow flax tf-kerasDie in dieser Anleitung vorgestellten Beispiele wurden mit den folgenden Paket-Versionen getestet. Es kann sein, dass in der Zukunft neuere Versionen der Pakete veröffentlicht werden, die eventuell nicht mehr mit dem Beispielcode kompatibel sind. In diesem Fall können Sie die untenstehenden Versionen der Pakete gezielt installieren, indem Sie den jeweiligen Paketnamen mit == und der Versionsnummer angeben. Zum Beispiel: pip install transformers==4.55.1.
flax==0.11.1
jupyter==1.1.1
jupyter-console==6.6.3
jupyter-events==0.12.0
jupyter-lsp==2.2.6
jupyter_client==8.6.3
jupyter_core==5.8.1
jupyter_server==2.16.0
jupyter_server_terminals==0.5.3
jupyterlab==4.4.5
jupyterlab_pygments==0.3.0
jupyterlab_server==2.27.3
jupyterlab_widgets==3.0.15
pandas==2.3.1
tensorflow==2.19.0
torch==2.8.0
transformers==4.55.1Mit dem folgenden Befehl können wir schließlich die Jupyter Notebook-Umgebung öffnen, in der wir die Beispiele aus diesem Artikel ausprobieren können. In der Jupyter Notebook-Umgebung können wir dann die Python-Skripte ausführen, die in den folgenden Kapiteln beschrieben werden. Diese Beispiel-Notebooks (.ipynb) können auf der jeweiligen Anleitungsseite (oder aus dem OSF) heruntergeladen und anschließend im Projektordner abgelegt werden. Alternativ können wir auch ein neues Notebook erstellen (siehe unten).
Terminal
jupyter notebookAnstelle der Beispiel-Notebooks können wir auch ein neues Notebook erstellen, indem wir im Jupyter-Dashboard auf “File”, dann “New” klicken und dann “Notebook” auswählen. Dadurch wird eine neue Notebook-Datei erstellt, in der wir unseren Python-Code schreiben und ausführen können. Wenn wir das Notebook öffnen, werden wir zunächst gefragt, wie wir den Code ausführen wollen. Wir wählen hierzu “Python 3 (ipykernel)” aus, um sicherzustellen, dass wir die Python-Version verwenden, die wir zuvor installiert haben.
Im Jupyter Notebook können wir dann die einzelnen Zellen ausführen, indem wir auf die Schaltfläche “Run” klicken oder die Tastenkombination Shift + Enter verwenden. Die Ergebnisse der Ausführung werden direkt unter der jeweiligen Zelle angezeigt.