Nachdem wir im vorherigen Abschnitt bereits alle Voraussetzungen geschaffen haben (Python installiert, Projektordner und virtuelle Umgebung angelegt, benötigte Pakete installiert), gehen wir hier Schritt für Schritt durch, wie wir die Arbeitsumgebung für die Beispiele aus diesem Artikel einrichten können. Die folgenden Schritte müssen nämlich, im Gegensatz zur Installation, jedes Mal durchgeführt werden, wenn wir eine neue Textcodierung beginnen.
1 Projektordner öffnen
Den bereits angelegten Projektordner können wir über den Dateimanager (Windows) bzw. Finder (Mac) öffnen. Anschließend navigieren wir zu unserem Projektordner und öffnen darin die Kommandozeile unseres Computers:
Rechtsklick auf Projektordner im Finder und “Neues Terminal beim Ordner” auswählen.
Shift + Rechtsklick auf Projektordner im Explorer und “PowerShell-Fenster hier öffnen” auswählen.
2 Texte vorbereiten
Die Texte, die wir codieren wollen, müssen in einer CSV-Datei im Projektordner vorliegen. Die CSV-Datei muss dabei mindestens eine Spalte mit den zu codierenden Texten enthalten. Optional können weitere Spalten mit Metadaten (z. B. ID, Quelle, Datum) enthalten sein. In den Beispielen aus diesem Artikel liegen die Text in der Spalte text. Sollten die Texte in einer anderen Spalte liegen, muss der entsprechende Spaltenname im Code angepasst werden. In den folgenden Beispielen verwenden wir eine Beispieldatei mit dem Namen example_dataset.csv, die im Ordner data liegt. Diese Beispieldatei enthält zehn Beispieltexte:
HinweisCode einblenden
Code, der nicht unmittelbar für das Verständnis der Beispiele notwendig ist, wird standardmäßig ausgeblendet. Über den Button “Code” kann der Code bei Bedarf jedoch jederzeit eingeblendet werden.
Wir lesen die Beispieldatei example_dataset.csv ein, die im Ordner data liegt. Die Datei enthält zehn Beispieltexte in der Spalte text.
# A tibble: 10 × 1
text
<chr>
1 Die orthodoxe Gemeinde feiert heute #Ostern. Ich wünsche ein frohes und gese…
2 Vielen Dank Gregor Rutz für die Unterstützung bei den Regierungsratswahlen v…
3 Wird ja immer schlimmer mit den Intoleranten die keine anderen Meinungen akz…
4 Liebe Junge, geht wählen. Kann ja nicht sein, dass 50 über eure Zukunft ents…
5 ‘— Das war unser EU-Wahl-Abschluss der SP– mit mir Andreas Schieder und eini…
6 Aufschlussreicher Blick hinter die Mauern! Tolle Reportage über tolle Arbeit…
7 Denn ein Hard-Brexit würde der #EU, aber noch viel mehr #Großbritannien scha…
8 Familienbonus: Es ist erstaunlich wie viele Menschen mir diese eine Frage st…
9 Integration passiert vor Ort. Deshalb arbeitet der Kanton sehr eng mit den G…
10 Ich frage mich: Wer ist als nächstes dran Frau Bundesministerin Beate Hartin…
3 Virtuelle Python-Umgebung aktivieren
Auch wenn wir die virtuelle Python-Umgebung bereits angelegt haben, müssen wir diese jedes Mal aktivieren, wenn wir in der virtuellen Umgebung arbeiten wollen. Hierzu führen wir den folgenden Befehl aus:
WichtigAchtung
Ist die virtuelle Umgebung bereits aktiviert, darf der folgende Befehl nicht erneut ausgeführt werden, da dies zu Fehlern führen kann. In der Kommandozeile ist die virtuelle Umgebung an einem veränderten Prompt erkennbar, der den Namen der virtuellen Umgebung enthält (z. B. (env)). Alternativ können wir in der Konsole den Befehl echo $VIRTUAL_ENV (Linux/Mac) bzw. echo %VIRTUAL_ENV% (Windows) ausführen. Wenn der Pfad zur virtuellen Umgebung angezeigt wird, ist die virtuelle Umgebung aktiviert. Andernfalls wird eine leere Zeile angezeigt.
Wir aktivieren die virtuelle Python-Umgebung mit dem Namen env. Der Name der virtuellen Umgebung kann beliebig gewählt werden, sollte aber idealerweise keine Leer- oder Sonderzeichen enthalten. Er muss außerdem mit dem Namen übereinstimmen, der bei der Anlage der virtuellen Umgebung verwendet wurde.
Terminal
.\env\Scripts\activate
1
Wir aktivieren die virtuelle Python-Umgebung mit dem Namen env. Der Name der virtuellen Umgebung kann beliebig gewählt werden, sollte aber idealerweise keine Leer- oder Sonderzeichen enthalten. Er muss außerdem mit dem Namen übereinstimmen, der bei der Anlage der virtuellen Umgebung verwendet wurde.
Falls die PowerShell die Ausführung von Skripten blockiert, kann dies mit dem folgenden Befehl geändert werden:
Terminal
Set-ExecutionPolicy-Scope Process -ExecutionPolicy Bypass
2
Wir erlauben die Ausführung von Skripten in der aktuellen PowerShell-Sitzung. Dies ist notwendig, um die virtuelle Python-Umgebung zu aktivieren. Diese Einstellung gilt nur für die aktuelle Sitzung und wird zurückgesetzt, wenn die PowerShell geschlossen wird.
4 Jupyter Notebook öffnen
Mit dem folgenden Befehl können wir schließlich die Jupyter Notebook-Umgebung öffnen, in der wir die Beispiele aus diesem Artikel ausprobieren können. In der Jupyter Notebook-Umgebung können wir dann die Python-Skripte ausführen, die in den folgenden Kapiteln beschrieben werden.
Terminal
jupyter notebook
1
Wir öffnen die Jupyter Notebook-Umgebung. Dadurch wird ein neues Fenster in unserem Webbrowser geöffnet, in dem wir die Jupyter Notebook-Umgebung sehen können.
TippGut zu wissen
Während die Jupyter Notebook-Umgebung läuft, sollte die Kommandozeile nicht geschlossen werden. Wir sehen in der Kommandozeile währenddessen verschiedene Informationen, z. B. ob die Jupyter Notebook-Umgebung erfolgreich gestartet wurde und unter welcher URL wir die Jupyter Notebook-Umgebung im Browser erreichen können (in der Regel http://localhost:8888). Wenn wir die Jupyter Notebook-Umgebung schließen wollen, können wir dies über die Kommandozeile mit CTRL + C tun. Anschließend müssen wir die Eingabe mit y bestätigen.