Verschiedene KI-Modelle im Vergleich

Bisher habt ihr nur Modelle von Meta (Llama) ausprobiert. Es gibt aber viele verschiedene Hersteller mit unterschiedlichen Ansätzen. In diesem Tutorial vergleicht ihr drei weitere Modelle:

Die zentrale Frage: Mehr Parameter = immer besser? Oder kommt es auf die Architektur und das Training an?

Aufgabe 1: Modelle inspizieren

  1. Verbindet euch per SSH und verschafft euch einen Überblick:
SSH (Server)
ollama list

Notiert Modellname und Größe aller verfügbaren Modelle.

  1. Vergleicht die technischen Details:
SSH (Server)
ollama show phi3.5
ollama show mistral
ollama show llama3.1:8b
EigenschaftPhi 3.5Mistral 7BLlama 3.1 8B
HerstellerMicrosoftMistral AIMeta
Parameter3,82 Mrd.7,25 Mrd.8,03 Mrd.
Speicher~2,2 GB~4,1 GB~4,7 GB
Context Length
Quantization

Füllt die leeren Felder mit den Werten aus ollama show aus.

Aufgabe 2: Phi 3.5 – Microsofts „kleines Genie“

Phi 3.5 von Microsoft ist ein besonderes Modell: Es hat nur 3,8 Milliarden Parameter, wurde aber auf besonders hochwertigen Daten trainiert (Lehrbücher, wissenschaftliche Artikel, hochwertiger Code). Microsofts These: Qualität der Trainingsdaten schlägt Quantität.

SSH (Server)
ollama run phi3.5

Testet Phi 3.5 bei seinen Stärken:

Ollama Chat
>>> Write a Python function that implements binary search. Include type hints and docstring.

>>> Explain the difference between TCP and UDP. When would you use each?

>>> What is the time complexity of mergesort? Explain step by step.

>>> Solve: If f(x) = 2x^2 + 3x - 5, what is f'(x)?

>>> /bye

Aufgabe 3: Mistral 7B – Der europäische Herausforderer

Mistral AI ist ein französisches Unternehmen, das mit vergleichsweise kleinen Teams Modelle baut, die mit deutlich größeren konkurrieren. Mistral 7B war bei seiner Veröffentlichung das beste Open-Source-Modell seiner Größenklasse.

SSH (Server)
ollama run mistral

Testet Mistral bei Textverständnis und Mehrsprachigkeit:

Ollama Chat
>>> Fasse den folgenden Text in 2 Saetzen zusammen: "Kuenstliche Intelligenz veraendert die Art, wie wir arbeiten, lernen und kommunizieren. Waehrend manche Berufe durch Automatisierung bedroht sind, entstehen gleichzeitig neue Taetigkeitsfelder. Die Herausforderung liegt darin, den Wandel so zu gestalten, dass moeglichst viele Menschen davon profitieren."

>>> Traduis en français: "L'intelligence artificielle change notre façon de travailler."

>>> Schreibe einen formellen Brief an eine Universitaet, in dem du dich fuer ein Praktikum bewirbst.

>>> Compare the educational systems of Germany and France in 5 bullet points.

>>> /bye

Aufgabe 4: Llama 3.1 8B – Das größte Modell

Llama 3.1 8B ist das größte Modell auf eurem Server. Mit 8 Milliarden Parametern ist es ca. 6x so groß wie das 1B-Modell aus U1. Auf der CPU wird es deutlich langsamer sein – aber die Qualität sollte spürbar besser sein.

SSH (Server)
ollama run llama3.1:8b
Geduld: Dieses Modell braucht deutlich länger für Antworten. Das ist normal – es muss 8 Milliarden Parameter auf der CPU berechnen. Auf einer GPU wäre es 10–50x schneller.
Ollama Chat
>>> Erklaere den Unterschied zwischen supervised und unsupervised learning. Gib jeweils ein Beispiel aus dem Alltag.

>>> Schreibe ein Python-Programm, das eine einfache Caesar-Verschluesselung implementiert. Es soll ver- und entschluesseln koennen.

>>> Ein Bauer hat 15 Schafe. Alle bis auf 8 sterben. Wie viele hat er noch? Erklaere deinen Denkweg Schritt fuer Schritt.

>>> /bye

Aufgabe 5: Der große Vergleich

Stellt allen fünf Modellen die exakt gleiche Frage und vergleicht die Antworten:

SSH (Server)
# Alle Modelle mit der gleichen Frage testen
FRAGE="Erklaere einem 12-Jaehrigen, wie ein Sprachmodell wie ChatGPT funktioniert. Maximal 5 Saetze."

ollama run llama3.2:1b "$FRAGE" --nowordwrap
echo "---"
ollama run llama3.2:3b "$FRAGE" --nowordwrap
echo "---"
ollama run phi3.5 "$FRAGE" --nowordwrap
echo "---"
ollama run mistral "$FRAGE" --nowordwrap
echo "---"
ollama run llama3.1:8b "$FRAGE" --nowordwrap

Füllt die Vergleichstabelle aus (1 = schlecht, 5 = sehr gut):

KriteriumLlama 1BLlama 3BPhi 3.5Mistral 7BLlama 8B
Geschwindigkeit
Deutsch
Englisch
Code
Logik/Mathe
Kreativität
Halluzination

Aufgabe 6: Reflexion

Diskutiert in der Gruppe:

  1. Mehr Parameter = besser? War das größte Modell (8B) in allen Bereichen das beste? Oder konnte das kleinere Phi 3.5 in manchen Bereichen mithalten?
  2. Geschwindigkeit vs. Qualität: Für welche Anwendungen würdet ihr welches Modell wählen? Denkt an konkrete Szenarien:
  3. Lokal vs. Cloud: Alle diese Modelle laufen auf einem Server ohne GPU. ChatGPT läuft auf tausenden GPUs. Was sind die Vor- und Nachteile von lokalen Modellen?
  4. Open Source vs. Closed Source: Alle Modelle hier sind quelloffen. GPT-4, Claude und Gemini sind es nicht. Welche Vorteile hat Open Source im KI-Bereich?

Kurzreferenz: Modell-Landschaft

HerstellerOpen-Source-ModelleClosed-Source-Modelle
MetaLlama 3.2 (1B, 3B), Llama 3.1 (8B, 70B, 405B)
MicrosoftPhi 3.5, Phi 4Copilot (nutzt GPT-4)
Mistral AIMistral 7B, Mixtral 8x7BMistral Large
GoogleGemma 2 (2B, 9B, 27B)Gemini Pro, Ultra
OpenAIGPT-4, GPT-4o
AnthropicClaude 4, Claude Sonnet