In U1 habt ihr mit dem kleinen Llama 3.2 1B gearbeitet (1 Milliarde Parameter). Jetzt probiert ihr das dreimal so große Llama 3.2 3B aus und vergleicht die Ergebnisse systematisch.
Die zentrale Frage: Wie viel besser wird ein Modell, wenn man es vergrößert?
ollama show llama3.2:1b --modelfile | head -5
ollama show llama3.2:3b --modelfile | head -5
ollama list
Notiert die Dateigrößen beider Modelle. Das 3B-Modell braucht ca. 2 GB – fast doppelt so viel Speicher wie das 1B-Modell.
Stellt beiden Modellen die gleichen Fragen und vergleicht Qualität und Geschwindigkeit.
ollama run llama3.2:1b
>>> Erklaere den Unterschied zwischen einer Liste und einem Dictionary in Python. Gib jeweils ein Beispiel.
>>> Ein Zug faehrt um 8:15 los und braucht 2 Stunden und 47 Minuten. Wann kommt er an?
>>> Schreibe eine kurze Geschichte (5 Saetze) ueber einen Hund, der fliegen lernt.
>>> Translate the following to French: "The weather is beautiful today, but tomorrow it will rain."
>>> /bye
ollama run llama3.2:3b
Stellt die exakt gleichen Fragen und vergleicht:
| Kriterium | 1B | 3B |
|---|---|---|
| Antwortgeschwindigkeit | ||
| Sprachqualität (Deutsch) | ||
| Code-Qualität | ||
| Mathe/Logik | ||
| Kreativität | ||
| Übersetzung |
Ollama zeigt nach jeder Antwort Statistiken an, wenn ihr die API direkt nutzt. Messt die Geschwindigkeit beider Modelle:
# 1B-Modell messen
time ollama run llama3.2:1b "Erklaere in genau 3 Saetzen, was ein Betriebssystem ist." --nowordwrap
# 3B-Modell messen
time ollama run llama3.2:3b "Erklaere in genau 3 Saetzen, was ein Betriebssystem ist." --nowordwrap
Der Befehl time zeigt euch, wie lange die Antwort gedauert hat. Notiert die Zeiten – das 3B-Modell sollte spürbar langsamer sein, da es dreimal so viele Berechnungen durchführen muss.
Testet gezielt die Bereiche, in denen das 1B-Modell in U1 Schwierigkeiten hatte:
>>> Ein Bauer hat 15 Schafe. Alle bis auf 8 sterben. Wie viele Schafe hat er noch?
>>> Wenn es 3 Stunden dauert, 3 Hemden zu trocknen, wie lange dauert es, 9 Hemden zu trocknen?
>>> Anna ist groesser als Bernd. Bernd ist groesser als Clara. Ist Anna groesser als Clara?
>>> Schreibe eine Python-Funktion, die eine Liste von Zahlen sortiert (ohne sort() zu verwenden). Erklaere den Algorithmus und gib ein Testbeispiel.
>>> Erzaehle mir ueber das beruehmte Gemaelde "Der tanzende Elefant" von Picasso.
Erkennt das 3B-Modell die erfundene Frage besser als das 1B-Modell?
Fasst eure Beobachtungen zusammen:
Scaling Law: Die Forschung zeigt: Größere Modelle werden nicht nur ein bisschen besser – sie gewinnen oft völlig neue Fähigkeiten. Ein Modell mit 3B Parametern kann z. B. Aufgaben lösen, an denen ein 1B-Modell scheitert. Dieses Phänomen nennt man Emergent Abilities.
| Modell | Parameter | Speicher | Stärke |
|---|---|---|---|
| Llama 3.2 1B | 1,24 Mrd. | ~1,3 GB | Schnell, einfache Aufgaben |
| Llama 3.2 3B | 3,21 Mrd. | ~2,0 GB | Gute Balance aus Geschwindigkeit und Qualität |
| Phi 3.5 | 3,82 Mrd. | ~2,2 GB | Stark bei Logik und Code (Microsoft) |
| Mistral 7B | 7,25 Mrd. | ~4,1 GB | Sehr gute Textqualität (Französisches Unternehmen) |
| Llama 3.1 8B | 8,03 Mrd. | ~4,7 GB | Top-Qualität, aber langsam auf CPU |