Dein erstes lokales KI-Modell – Llama 3.2

In diesem Tutorial startet ihr euer erstes Large Language Model (LLM) auf einem eigenen Server – ganz ohne Cloud, ohne API-Key, ohne Internetzugang. Das Modell läuft direkt auf der Hardware vor euch im Raum.

Ihr arbeitet mit Llama 3.2 1B von Meta – einem kompakten Sprachmodell mit 1 Milliarde Parametern. Es ist klein genug, um auf einem normalen Prozessor zu laufen, und trotzdem erstaunlich leistungsfähig.

Was ihr in diesem Tutorial lernt:

Aufgabe 1: Mit dem Server verbinden

Im Raum steht ein Server mit zwei virtuellen Maschinen (LXCs). Jede Gruppe bekommt Zugang zu einer davon.

GruppeServerBenutzerPasswort
Gruppe 1192.168.0.195rootKiProjekt2026
Gruppe 2192.168.0.111rootKiProjekt2026
  1. Öffnet ein Terminal (macOS) oder Git Bash / PowerShell (Windows) und verbindet euch per SSH:
Terminal
ssh root@192.168.0.195

Beim ersten Verbinden fragt SSH, ob ihr dem Server vertrauen wollt – bestätigt mit yes. Dann gebt das Passwort ein (die Eingabe ist unsichtbar, das ist normal).

  1. Prüft, dass ihr auf dem Server seid:
SSH (Server)
hostname
free -h
nproc

hostname zeigt den Servernamen, free -h den verfügbaren Arbeitsspeicher (ca. 12 GB) und nproc die Anzahl der CPU-Kerne (8). Das ist die Hardware, auf der euer KI-Modell gleich läuft.

Aufgabe 2: Ollama kennenlernen

Ollama ist ein Werkzeug, mit dem ihr KI-Modelle lokal herunterladen und ausführen könnt – ohne Cloud-Dienst, ohne Account. Es ist bereits auf eurem Server vorinstalliert.

  1. Prüft die installierte Version:
SSH (Server)
ollama --version
  1. Schaut, welche Modelle bereits heruntergeladen sind:
SSH (Server)
ollama list

Ihr solltet mindestens llama3.2:1b sehen – das ist das Modell, mit dem ihr gleich arbeitet. Die Spalte SIZE zeigt die Größe auf der Festplatte (ca. 1,3 GB).

Gut zu wissen: Normalerweise würde man ein Modell mit ollama pull llama3.2:1b herunterladen. Das dauert je nach Internetverbindung einige Minuten. Die Modelle sind für euch bereits vorinstalliert.

Aufgabe 3: Euer erstes Gespräch mit einem LLM

Jetzt wird es spannend – startet das Modell und chattet direkt im Terminal!

  1. Startet Llama 3.2 1B:
SSH (Server)
ollama run llama3.2:1b

Nach wenigen Sekunden erscheint ein Eingabeprompt (>>>). Das Modell ist bereit!

  1. Stellt dem Modell ein paar Fragen. Probiert verschiedene Arten aus:
Ollama Chat
>>> Was ist maschinelles Lernen? Erklaere es in 3 Saetzen.

>>> Write a Python function that checks if a number is prime.

>>> Was ist die Hauptstadt von Burkina Faso?
  1. Beobachtet, wie der Text Wort für Wort erscheint – das ist Token-für-Token-Generierung. Das Modell berechnet jedes Wort einzeln auf der CPU.
  2. Beendet den Chat mit:
Ollama Chat
>>> /bye
Tipp: Das Modell antwortet auf Englisch besser als auf Deutsch. Das liegt daran, dass die Trainingsdaten überwiegend englischsprachig sind. Probiert beide Sprachen aus und vergleicht die Qualität!

Aufgabe 4: Modell-Informationen verstehen

Lernt euer Modell besser kennen. Ollama zeigt euch die technischen Details.

  1. Zeigt die Modell-Informationen an:
SSH (Server)
ollama show llama3.2:1b

Wichtige Informationen in der Ausgabe:

FeldBedeutung
parametersAnzahl der Parameter (1,24 Milliarden – die „Gehirnzellen“ des Modells)
context lengthMaximale Textlänge, die das Modell verarbeiten kann (131072 Tokens)
quantizationKomprimierungsverfahren (Q8_0 = 8-Bit, spart Speicher bei minimalem Qualitätsverlust)
embedding lengthDimension der internen Wort-Repräsentation (2048)
  1. Vergleicht: ChatGPT (GPT-4) hat über 1.000 Milliarden Parameter – euer Modell hat 1,24 Milliarden. Das ist der Unterschied zwischen einem Fahrrad und einem Flugzeug. Trotzdem kann euer „Fahrrad“ erstaunlich viel!

Aufgabe 5: Systemprompt anpassen

Ein Systemprompt legt fest, wie sich das Modell verhalten soll – seine Rolle, seinen Stil, seine Regeln. Damit könnt ihr das gleiche Modell für völlig verschiedene Aufgaben einsetzen.

  1. Startet das Modell mit einem eigenen Systemprompt:
SSH (Server)
ollama run llama3.2:1b --system "Du bist ein freundlicher Erklaerbaer fuer Kinder im Grundschulalter. Erklaere alles einfach und mit Beispielen aus dem Alltag. Antworte immer auf Deutsch."
  1. Stellt jetzt die gleichen Fragen wie vorher und vergleicht die Antworten:
Ollama Chat
>>> Was ist maschinelles Lernen?

>>> Wie funktioniert das Internet?

>>> Warum ist der Himmel blau?
  1. Beendet den Chat (/bye) und probiert einen anderen Systemprompt:
SSH (Server)
ollama run llama3.2:1b --system "You are a senior Python developer. Answer only with code and brief comments. No explanations unless asked."
Ollama Chat
>>> Create a function that reads a CSV file and returns the average of a column.

>>> Now add error handling for missing files and invalid column names.

Aufgabe 6: Temperatur – Kreativität steuern

Die Temperatur bestimmt, wie „kreativ“ oder „vorhersagbar“ das Modell antwortet:

  1. Erstellt eine Modelfile-Datei, um die Temperatur zu ändern:
SSH (Server)
cat <<'EOF' > Modelfile-kreativ
FROM llama3.2:1b
PARAMETER temperature 1.8
SYSTEM "Du bist ein kreativer Geschichtenerzaehler. Erzaehle fantasievolle, ueberraschende Geschichten."
EOF

ollama create kreativ-llama -f Modelfile-kreativ
  1. Startet das kreative Modell:
SSH (Server)
ollama run kreativ-llama
Ollama Chat
>>> Erzaehle eine kurze Geschichte ueber einen Roboter, der kochen lernt.
  1. Erstellt zum Vergleich ein sachliches Modell mit niedriger Temperatur:
SSH (Server)
cat <<'EOF' > Modelfile-sachlich
FROM llama3.2:1b
PARAMETER temperature 0.1
SYSTEM "Du bist ein sachlicher Assistent. Antworte praezise und faktenbasiert. Keine Ausschmueckungen."
EOF

ollama create sachlich-llama -f Modelfile-sachlich
ollama run sachlich-llama
  1. Stellt beiden Varianten die gleiche Frage und vergleicht die Antworten. Startet jede Variante mehrmals mit der gleichen Frage – bei niedriger Temperatur sind die Antworten fast identisch, bei hoher Temperatur jedes Mal anders.

Aufgabe 7: Grenzen austesten

Jedes Modell hat Grenzen. Bei einem 1B-Modell sind diese besonders deutlich. Findet sie!

  1. Logisches Denken:
Ollama Chat
>>> Wenn alle Blumen Pflanzen sind und einige Pflanzen Baeume sind, sind dann alle Blumen Baeume?

>>> Ein Bauer hat 15 Schafe. Alle bis auf 8 sterben. Wie viele Schafe hat er noch?

>>> Ich habe 3 Aepfel. Ich esse 2 und kaufe 5. Dann gebe ich die Haelfte weg. Wie viele habe ich?
  1. Aktuelles Wissen:
Ollama Chat
>>> Wer ist der aktuelle Bundespraesident von Deutschland?

>>> Welche Version hat Python aktuell?

Das Modell kennt nur Informationen bis zu seinem Trainings-Stichtag (Knowledge Cutoff). Alles danach ist ihm unbekannt – es wird aber trotzdem antworten, möglicherweise mit erfundenen Fakten (Halluzination).

  1. Halluzinationen provozieren:
Ollama Chat
>>> Erzaehle mir ueber das beruehmte Gemaelde "Der tanzende Elefant" von Picasso.

>>> Welche wissenschaftlichen Studien belegen, dass Schokolade Krebs heilt?

Beide Fragen sind Unsinn – das Gemälde und die Studien existieren nicht. Beobachtet, ob das Modell das erkennt oder überzeugend klingende Falschinformationen generiert.

  1. Komplexe Aufgaben:
Ollama Chat
>>> Schreibe eine komplette HTML-Seite mit CSS und JavaScript fuer einen Taschenrechner.

>>> Erklaere die Relativitaetstheorie so, dass ein 5-Jaehriger es versteht. Dann erklaere sie auf Uni-Niveau.
  1. Notiert eure Beobachtungen:
Zum Nachdenken: Was bedeutet es für den Einsatz von KI-Tools im Alltag, wenn selbst große Modelle wie ChatGPT halluzinieren können? Wann ist es gefährlich, einer KI-Antwort blind zu vertrauen?

Aufgabe 8: Aufräumen

Entfernt die selbst erstellten Modellvarianten, damit der Server ordentlich bleibt:

SSH (Server)
ollama rm kreativ-llama
ollama rm sachlich-llama
rm Modelfile-kreativ Modelfile-sachlich
ollama list

Kurzreferenz: Die wichtigsten Ollama-Befehle

Modelle verwalten
ollama listInstallierte Modelle anzeigen
ollama pull NAMEModell herunterladen
ollama rm NAMEModell löschen
ollama show NAMEModell-Informationen anzeigen
Chat
ollama run NAMEModell starten und chatten
ollama run NAME --system "..."Mit Systemprompt starten
/byeChat beenden
Eigene Varianten
ollama create NAME -f ModelfileEigene Modellvariante erstellen

Weiter zu U2: Größere Modelle vergleichen