KI-Projekt - Verschiedene KI-Modelle im Vergleich

Verschiedene KI-Modelle im Vergleich

Bisher habt ihr nur Modelle von Meta (Llama) ausprobiert. Es gibt aber viele verschiedene Hersteller mit unterschiedlichen Ansätzen. In diesem Tutorial vergleicht ihr drei weitere Modelle:

Phi 3.5 (Microsoft) – 3,8 Mrd. Parameter, besonders stark bei Logik und Code
Mistral 7B (Mistral AI, Frankreich) – 7,2 Mrd. Parameter, sehr gute Textqualität
Llama 3.1 8B (Meta) – 8 Mrd. Parameter, das größte Modell auf eurem Server

Die zentrale Frage: Mehr Parameter = immer besser? Oder kommt es auf die Architektur und das Training an?

Aufgabe 1: Modelle inspizieren

Verbindet euch per SSH und verschafft euch einen Überblick:

SSH (Server)

ollama list

Notiert Modellname und Größe aller verfügbaren Modelle.

Vergleicht die technischen Details:

SSH (Server)

ollama show phi3.5
ollama show mistral
ollama show llama3.1:8b

Eigenschaft	Phi 3.5	Mistral 7B	Llama 3.1 8B
Hersteller	Microsoft	Mistral AI	Meta
Parameter	3,82 Mrd.	7,25 Mrd.	8,03 Mrd.
Speicher	~2,2 GB	~4,1 GB	~4,7 GB
Context Length
Quantization

Füllt die leeren Felder mit den Werten aus ollama show aus.

Aufgabe 2: Phi 3.5 – Microsofts „kleines Genie“

Phi 3.5 von Microsoft ist ein besonderes Modell: Es hat nur 3,8 Milliarden Parameter, wurde aber auf besonders hochwertigen Daten trainiert (Lehrbücher, wissenschaftliche Artikel, hochwertiger Code). Microsofts These: Qualität der Trainingsdaten schlägt Quantität.

SSH (Server)

ollama run phi3.5

Testet Phi 3.5 bei seinen Stärken:

Ollama Chat

>>> Write a Python function that implements binary search. Include type hints and docstring.

>>> Explain the difference between TCP and UDP. When would you use each?

>>> What is the time complexity of mergesort? Explain step by step.

>>> Solve: If f(x) = 2x^2 + 3x - 5, what is f'(x)?

>>> /bye

Aufgabe 3: Mistral 7B – Der europäische Herausforderer

Mistral AI ist ein französisches Unternehmen, das mit vergleichsweise kleinen Teams Modelle baut, die mit deutlich größeren konkurrieren. Mistral 7B war bei seiner Veröffentlichung das beste Open-Source-Modell seiner Größenklasse.

SSH (Server)

ollama run mistral

Testet Mistral bei Textverständnis und Mehrsprachigkeit:

Ollama Chat

>>> Fasse den folgenden Text in 2 Saetzen zusammen: "Kuenstliche Intelligenz veraendert die Art, wie wir arbeiten, lernen und kommunizieren. Waehrend manche Berufe durch Automatisierung bedroht sind, entstehen gleichzeitig neue Taetigkeitsfelder. Die Herausforderung liegt darin, den Wandel so zu gestalten, dass moeglichst viele Menschen davon profitieren."

>>> Traduis en français: "L'intelligence artificielle change notre façon de travailler."

>>> Schreibe einen formellen Brief an eine Universitaet, in dem du dich fuer ein Praktikum bewirbst.

>>> Compare the educational systems of Germany and France in 5 bullet points.

>>> /bye

Aufgabe 4: Llama 3.1 8B – Das größte Modell

Llama 3.1 8B ist das größte Modell auf eurem Server. Mit 8 Milliarden Parametern ist es ca. 6x so groß wie das 1B-Modell aus U1. Auf der CPU wird es deutlich langsamer sein – aber die Qualität sollte spürbar besser sein.

SSH (Server)

ollama run llama3.1:8b

Geduld: Dieses Modell braucht deutlich länger für Antworten. Das ist normal – es muss 8 Milliarden Parameter auf der CPU berechnen. Auf einer GPU wäre es 10–50x schneller.

Ollama Chat

>>> Erklaere den Unterschied zwischen supervised und unsupervised learning. Gib jeweils ein Beispiel aus dem Alltag.

>>> Schreibe ein Python-Programm, das eine einfache Caesar-Verschluesselung implementiert. Es soll ver- und entschluesseln koennen.

>>> Ein Bauer hat 15 Schafe. Alle bis auf 8 sterben. Wie viele hat er noch? Erklaere deinen Denkweg Schritt fuer Schritt.

>>> /bye

Aufgabe 5: Der große Vergleich

Stellt allen fünf Modellen die exakt gleiche Frage und vergleicht die Antworten:

SSH (Server)

# Alle Modelle mit der gleichen Frage testen
FRAGE="Erklaere einem 12-Jaehrigen, wie ein Sprachmodell wie ChatGPT funktioniert. Maximal 5 Saetze."

ollama run llama3.2:1b "$FRAGE" --nowordwrap
echo "---"
ollama run llama3.2:3b "$FRAGE" --nowordwrap
echo "---"
ollama run phi3.5 "$FRAGE" --nowordwrap
echo "---"
ollama run mistral "$FRAGE" --nowordwrap
echo "---"
ollama run llama3.1:8b "$FRAGE" --nowordwrap

Füllt die Vergleichstabelle aus (1 = schlecht, 5 = sehr gut):

Kriterium	Llama 1B	Llama 3B	Phi 3.5	Mistral 7B	Llama 8B
Geschwindigkeit
Deutsch
Englisch
Code
Logik/Mathe
Kreativität
Halluzination

Aufgabe 6: Reflexion

Diskutiert in der Gruppe:

Mehr Parameter = besser? War das größte Modell (8B) in allen Bereichen das beste? Oder konnte das kleinere Phi 3.5 in manchen Bereichen mithalten?
Geschwindigkeit vs. Qualität: Für welche Anwendungen würdet ihr welches Modell wählen? Denkt an konkrete Szenarien:
- Autokorrektur auf dem Smartphone
- Hausaufgaben-Hilfe
- Programmier-Assistent
- Chatbot für einen Online-Shop
Lokal vs. Cloud: Alle diese Modelle laufen auf einem Server ohne GPU. ChatGPT läuft auf tausenden GPUs. Was sind die Vor- und Nachteile von lokalen Modellen?
Open Source vs. Closed Source: Alle Modelle hier sind quelloffen. GPT-4, Claude und Gemini sind es nicht. Welche Vorteile hat Open Source im KI-Bereich?

Kurzreferenz: Modell-Landschaft

Hersteller	Open-Source-Modelle	Closed-Source-Modelle
Meta	Llama 3.2 (1B, 3B), Llama 3.1 (8B, 70B, 405B)	–
Microsoft	Phi 3.5, Phi 4	Copilot (nutzt GPT-4)
Mistral AI	Mistral 7B, Mixtral 8x7B	Mistral Large
Google	Gemma 2 (2B, 9B, 27B)	Gemini Pro, Ultra
OpenAI	–	GPT-4, GPT-4o
Anthropic	–	Claude 4, Claude Sonnet

Projekt Künstliche Intelligenz

Verschiedene KI-Modelle im Vergleich

Aufgabe 1: Modelle inspizieren

Aufgabe 2: Phi 3.5 – Microsofts „kleines Genie“

Aufgabe 3: Mistral 7B – Der europäische Herausforderer

Aufgabe 4: Llama 3.1 8B – Das größte Modell

Aufgabe 5: Der große Vergleich

Aufgabe 6: Reflexion

Kurzreferenz: Modell-Landschaft