KI-Projekt - Modelle vergleichen: Llama 3.2 3B

Modelle vergleichen – Llama 3.2 3B

In U1 habt ihr mit dem kleinen Llama 3.2 1B gearbeitet (1 Milliarde Parameter). Jetzt probiert ihr das dreimal so große Llama 3.2 3B aus und vergleicht die Ergebnisse systematisch.

Die zentrale Frage: Wie viel besser wird ein Modell, wenn man es vergrößert?

Aufgabe 1: Modell starten und Größe vergleichen

Verbindet euch per SSH mit eurem Server (wie in U1).
Vergleicht die Modell-Informationen:

SSH (Server)

ollama show llama3.2:1b --modelfile | head -5
ollama show llama3.2:3b --modelfile | head -5
ollama list

Notiert die Dateigrößen beider Modelle. Das 3B-Modell braucht ca. 2 GB – fast doppelt so viel Speicher wie das 1B-Modell.

Aufgabe 2: Benchmark – Gleiche Fragen, anderes Modell

Stellt beiden Modellen die gleichen Fragen und vergleicht Qualität und Geschwindigkeit.

Startet zuerst das 1B-Modell und stellt diese Fragen:

SSH (Server)

ollama run llama3.2:1b

Ollama Chat

>>> Erklaere den Unterschied zwischen einer Liste und einem Dictionary in Python. Gib jeweils ein Beispiel.

>>> Ein Zug faehrt um 8:15 los und braucht 2 Stunden und 47 Minuten. Wann kommt er an?

>>> Schreibe eine kurze Geschichte (5 Saetze) ueber einen Hund, der fliegen lernt.

>>> Translate the following to French: "The weather is beautiful today, but tomorrow it will rain."

>>> /bye

Jetzt das gleiche mit dem 3B-Modell:

SSH (Server)

ollama run llama3.2:3b

Stellt die exakt gleichen Fragen und vergleicht:

Kriterium	1B	3B
Antwortgeschwindigkeit
Sprachqualität (Deutsch)
Code-Qualität
Mathe/Logik
Kreativität
Übersetzung

Aufgabe 3: Geschwindigkeit messen

Ollama zeigt nach jeder Antwort Statistiken an, wenn ihr die API direkt nutzt. Messt die Geschwindigkeit beider Modelle:

SSH (Server)

# 1B-Modell messen
time ollama run llama3.2:1b "Erklaere in genau 3 Saetzen, was ein Betriebssystem ist." --nowordwrap

# 3B-Modell messen
time ollama run llama3.2:3b "Erklaere in genau 3 Saetzen, was ein Betriebssystem ist." --nowordwrap

Der Befehl time zeigt euch, wie lange die Antwort gedauert hat. Notiert die Zeiten – das 3B-Modell sollte spürbar langsamer sein, da es dreimal so viele Berechnungen durchführen muss.

Aufgabe 4: Wo macht Größe den Unterschied?

Testet gezielt die Bereiche, in denen das 1B-Modell in U1 Schwierigkeiten hatte:

Logisches Denken:

Ollama Chat (3B)

>>> Ein Bauer hat 15 Schafe. Alle bis auf 8 sterben. Wie viele Schafe hat er noch?

>>> Wenn es 3 Stunden dauert, 3 Hemden zu trocknen, wie lange dauert es, 9 Hemden zu trocknen?

>>> Anna ist groesser als Bernd. Bernd ist groesser als Clara. Ist Anna groesser als Clara?

Mehrstufige Aufgaben:

Ollama Chat (3B)

>>> Schreibe eine Python-Funktion, die eine Liste von Zahlen sortiert (ohne sort() zu verwenden). Erklaere den Algorithmus und gib ein Testbeispiel.

Halluzinations-Test:

Ollama Chat (3B)

>>> Erzaehle mir ueber das beruehmte Gemaelde "Der tanzende Elefant" von Picasso.

Erkennt das 3B-Modell die erfundene Frage besser als das 1B-Modell?

Aufgabe 5: Ergebnisse dokumentieren

Fasst eure Beobachtungen zusammen:

In welchen Bereichen war das 3B-Modell deutlich besser?
Gab es Aufgaben, bei denen kein Unterschied spürbar war?
Wie verhält sich die Geschwindigkeit? Lohnt sich die längere Wartezeit?
Überlegt: In welchen Anwendungsfällen würde man das schnellere 1B-Modell bevorzugen, wann das bessere 3B-Modell?

Scaling Law: Die Forschung zeigt: Größere Modelle werden nicht nur ein bisschen besser – sie gewinnen oft völlig neue Fähigkeiten. Ein Modell mit 3B Parametern kann z. B. Aufgaben lösen, an denen ein 1B-Modell scheitert. Dieses Phänomen nennt man Emergent Abilities.

Kurzreferenz: Modellgrößen im Überblick

Modell	Parameter	Speicher	Stärke
Llama 3.2 1B	1,24 Mrd.	~1,3 GB	Schnell, einfache Aufgaben
Llama 3.2 3B	3,21 Mrd.	~2,0 GB	Gute Balance aus Geschwindigkeit und Qualität
Phi 3.5	3,82 Mrd.	~2,2 GB	Stark bei Logik und Code (Microsoft)
Mistral 7B	7,25 Mrd.	~4,1 GB	Sehr gute Textqualität (Französisches Unternehmen)
Llama 3.1 8B	8,03 Mrd.	~4,7 GB	Top-Qualität, aber langsam auf CPU

Weiter zu U3: Verschiedene KI-Modelle im Vergleich

Projekt Künstliche Intelligenz

Modelle vergleichen – Llama 3.2 3B

Aufgabe 1: Modell starten und Größe vergleichen

Aufgabe 2: Benchmark – Gleiche Fragen, anderes Modell

Aufgabe 3: Geschwindigkeit messen

Aufgabe 4: Wo macht Größe den Unterschied?

Aufgabe 5: Ergebnisse dokumentieren

Kurzreferenz: Modellgrößen im Überblick