Multimodale Modelle sind keine Alleskönner, sondern clevere Teams aus spezialisierten Systemen. Wir klären auf, wie Large Language Models (LLMs), die von Natur aus für Text gemacht sind, Bilder und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch einen eingefrorenen Vision Encoder in visuelle Tokens (Vektoren) umgewandelt. Die eigentliche Magie liegt in der trainierbaren Brücke, die diese Tokens für den Sprachexperten (das LLM) übersetzt. Wir stellen die beiden Hauptansätze zur Verbindung vor: den nicht-invasiven Ansatz (wie bei LLaVA) und den invasiven Ansatz (wie beim Flamingomodell), der dem LLM ermöglicht, permanent auf die Bildinformationen zurückzugreifen. Zudem grenzen wir die Perzeption (Encoding) klar von der Bildererzeugung (Decoding/Diffusionsmodelle) ab.
Wir stellen Petri vor, ein von Anthropic AI entwickeltes automatisiertes Prüfstand-Framework, das KI-Agenten nutzt, um Large Language Models (LLMs) systematisch auf problematische Verhaltensweisen, Sicherheit und Zuverlässigkeit zu überprüfen. Erfahre, wie Petri realitätsnahe Szenarien simuliert und durch Funktionen wie das „Zurückspulen“ im Dialog kritische Schwachstellen wie autonome Täuschung oder übertriebenes Whistleblowing aufdeckt. Dieses Framework ist nicht nur für Entwickler wichtig, sondern hilft auch Anwendern, die Zielstrebigkeit und Verlässlichkeit ihrer spezifischen KI-Anwendungen, etwa bei Kundenservice-Chatbots, sicherzustellen.
Der KI Gilde Podcast beleuchtet, wie Sprachmodelle (LLMs) logisches Denken oder Reasoning entwickeln, das über die reine Vorhersage des nächsten Tokens hinausgeht. Diese Fähigkeit ist eine tief verankerte Eigenschaft im Modell, gelernt durch riesige Datenmengen sowie spezielle Trainingsmethoden wie Supervised Fine Tuning (SFT) zur Nachahmung von Lösungswegen und insbesondere Reinforcement Learning (RL) zur selbständigen Strategieentwicklung und Optimierung. Diese Fähigkeit wird zur Laufzeit durch Funktionalität aktiviert und gesteuert, beispielsweise durch einfaches Chain of Thought (CoT) Prompting oder komplexe externe Algorithmen wie Tree of Thoughts (ToT). Das Abschalten von Reasoning bei manchen Modellen ist oft nur ein Softwareschalter, der einen Aktivierungstrigger im Prompt weglässt, wobei die trainierte Fähigkeit selbst voll erhalten bleibt.
Der KI Gilde Podcast widmet sich den Grundlagen der Sprach-KI: Bigrammodelle. Diese simplen Modelle gelten als die Urväter heutiger Systeme und raten das nächste Wort rein statistisch. Du erfährst, wie sie nur auf das direkt davorstehende Wort schauen (das „1-Wort-Gedächtnis“ oder die Markovannahme erster Ordnung). Wir erklären das Training durch Zählen von Wortpaaren (Bigrammzählung) und den notwendigen Trick der Glättung (Smoothing), um das Problem der Datenlücken und die Wahrscheinlichkeit Null für seltene Kombinationen zu umgehen. Dieses Fundament hilft, die Komplexität moderner KI besser einzuordnen.
KI bewertet KI: Wir tauchen ein in das Konzept "LLM as a Judge", bei dem ein leistungsfähiges Sprachmodell die Ausgaben eines anderen KI-Modells automatisch beurteilt, um die Qualität und Faktentreue zu sichern.
Erfahren Sie, warum dieser Ansatz menschliche Prüfungen und herkömmliche Metriken ersetzt, um schnell und skalierbar KI-Halluzinationen zu bekämpfen. Wir beleuchten die zwei Hauptmethoden – den Paarweisen Vergleich und die Einzelbewertung – und diskutieren Herausforderungen wie systematische Verzerrungen (Biases).
Abschließend zeigen wir, wie Judge LLMs die KI-Entwicklung durch neue Trainingsmethoden wie RLAF (Reinforcement Learning from AI Feedback) beschleunigen können.
Warum KI lügt: Die Systemische Wahrheit hinter Halluzinationen
Du kennst das: Die KI liefert eine überzeugende, flüssige Antwort, die aber Unsinn erzählt oder Fakten erfindet – das Phänomen der Halluzination. Diese Fehlerquoten können bei spezifischen Fragen enorm hoch sein (bis zu 88%).Wir beleuchten die Kernursachen:
Erstens stammen Halluzinationen von unvollkommenen, fehlerhaften Trainingsdaten, die Widersprüche enthalten.
Zweitens liegt es an der Architektur der Sprachmodelle selbst: Sie sind primär darauf getrimmt, das statistisch wahrscheinlichste und sprachlich plausibelste Wort vorherzusagen, nicht die faktische Wahrheit. Die KI wird quasi dafür belohnt, sprachlich zu „bluffen“.
Erfahre, warum Halluzinationen fast als systemische Eigenschaft dieser Modelle gelten – wie eine unvermeidbare "Reibung in der Physik". Trotz Optimierungstechniken wie RAG bleibt die kritische Prüfung durch uns Menschen absolut unerlässlich.
Denn: Blind vertrauen sollten wir den Antworten der KI niemals.
Heute wird es gruselig: Wir sprechen über den KI-Geist Microsoft Copilot in Excel, das „Excel aus der Hölle“.
Die neue Funktion erlaubt Spracheingaben statt komplexer Formeln. Doch Vorsicht: Die KI neigt dazu, Zahlen zu interpretieren, Fakten zu erfinden und ist nicht deterministisch.
Microsoft warnt anscheinend selbst davor, die Funktion für Aufgaben zu nutzen, die Genauigkeit erfordern.Wir beleuchten das größte Schreckgespenst: Copilot greift auf alle Nutzerdaten zu und kann sensible Informationen (wie z.B. Gehaltsdaten) aus anderen Bereichen in harmlosen Zusammenfassungen preisgeben. Die Ergebnisse haben zudem keine Sicherheitsklassifizierung. Ist dieses Experiment ein Feature oder lediglich Marketing, das dem Kernversprechen der Excel-Verlässlichkeit komplett widerspricht? Happy Halloween!
Heute beleuchten wir Notebook LM von Google, das nun Videozusammenfassungen erstellen kann. Die KI generiert Erklärvideos oder Briefvideos aus deinen eigenen Quellen (Texten, PDFs, Notizen).
Erfahre, wie Notebook LM mithilfe von Gemini und Nano Banana Videos in über 80 Sprachen und in verschiedenen Stilen wie Whiteboard, Aquarell oder Anime erstellt. Wir klären, wer dieses Werkzeug nutzt (Studierende, Forscher, Content Creator) und wo die Grenzen liegen, insbesondere bei logiklastigen oder komplexen Fächern wie Chemie und Mathe. Notebook LM ist ein fähiger Assistent zur Wissensaufbereitung, aber kein Ersatz für eigenes tiefes Verständnis.
Im KI Gilde Podcast testen wir Deepseek OCR, das momentan "ziemlich viel Furore macht".
Deepseek OCR ist mehr als nur eine Texterkennung: Es erfasst Dokumente visuell (fast wie ein Mensch), nutzt "Kontexts optical Compression" und erreicht eine Kompression um das 7- bis 20-fache.
Erfahre, warum das Modell ideal für die Verarbeitung komplexer Dokumente ist:
Es erkennt Layouts und Tabellenstrukturen erstaunlich gut (über 92 % Genauigkeit bei Tabellen) und liefert strukturierte Daten, z.B. als sauberes Markdown.
Wir klären, wie Deepseek OCR als maßgeschneiderte Basis für RAG-Pipelines dient und wo es Tesseract überlegen ist. Achtung: Das Modell ist zwar Open Source, benötigt aber zwingend eine dedizierte Nvidia Grafikkarte (GPU) und ist keine reine CPU-Lösung.
Analyse: OpenAI Atlas – Strategie, Technik und die Gefahr des Startup Killer Effekts
Herzlich willkommen zur Analyse von OpenAIs neuem KI-Browser Atlas, vorgestellt am 21. Oktober 2025. Das Projekt wird als potenzielles Betriebssystem fürs Web betrachtet und basiert auf tiefer KI-Integration, gestützt auf drei Säulen: dem integrierten Chat, den kontextbezogenen Browser Memories und dem mächtigen Agent Mode.
Wir beleuchten die multimodale Technik, die es der KI ermöglicht, Webseiten nicht nur zu lesen, sondern auch zu sehen. Außerdem bewerten wir die Strategie: Trotz hoher Rechenintensität und Risiken wie Prompt Injection nutzt OpenAI seine Marktmacht, um die primäre Schnittstelle für das agentenbasierte Web zu werden. Erfahren Sie, warum Atlas als „Startup Killer“ wirken und etablierte Konzepte massiv herausfordern könnte.
Dieser Podcast der KI Gilde beleuchtet Anthropic's neue Entwicklungen:
das KI-Modell Haiku 4.5 und die Skills.Haiku 4.5 ist das kleinste Modell von Anthropic, das hohe Leistung (beim Programmieren so gut wie das frühere Topmodell Sonnet 4) mit niedrigen Kosten und hoher Geschwindigkeit kombiniert. Es bietet ein 200.000 Token Kontextfenster und kann Bilder verstehen (Vision Fähigkeiten).
Die Skills stellen einen Paradigmenwechsel dar. Dabei handelt es sich um dauerhafte, wiederverwendbare KI-Bausteine, die zur Automatisierung dienen. Sie können Anleitungen und optional ausführbare Skripte (z.B. Python oder JavaScript) in einer abgeschirmten Umgebung (Sandbox) enthalten. Dieser Ansatz führt weg vom ständigen Prompts hin zu einem Ökosystem spezialisierter, kombinierbarer KI-Werkzeuge.
Die NVIDIA DGX Spark verspricht, Petaflop-KI-Leistung auf den Schreibtisch zu bringen. Wir analysieren, was der winzige Kasten (Preis ca. 4.000 $) technisch leistet.
Im Fokus steht der GB10 Grace Blackwell Superchip und der 128 GB kohärente, vereinheitlichte Speicher (Unified Memory).
Diese Kapazität ermöglicht es Entwicklern, Modelle mit bis zu 70 Milliarden Parametern lokal zu verfeinern oder mit sensiblen Daten zu arbeiten.Der zentrale Kompromiss: Die Speicherbandbreite ist mit 273 GB/s im Verhältnis gering. Dies macht die Spark super für Prototyping und Entwicklung, aber langsamer bei der sequenziellen Inferenz (Decode-Phase) im Vergleich zu High-End-GPUs.
Die Spark demokratisiert die Arbeit an großen LLMs und ist als hochspezialisiertes Tool für KI/ML-Entwickler und Forscher konzipiert. Sie ist die optimierte Entwicklungsplattform, nicht der Produktionsserver.
In dieser Folge des KI Gilde Podcasts geht es um Tiny Recursion Models (TRMs), winzige KI-Modelle mit teilweise nur 7 Millionen Parametern.
TRMs sind keine Allzweck-Textgeneratoren wie Chat GPT, sondern hocheffiziente Spezialwerkzeuge für knifflige Logikrätsel. Sie arbeiten mit einem rekursiven Ansatz: In einer Schleife verfeinern sie intern ihren Denkansatz (Reasoning Merkmal) Schritt für Schritt, unterstützt durch Deep Supervision.
Sie liefern beeindruckende Ergebnisse auf spezifischen Logik-Benchmarks (z.B. Sudoku oder ARKAGI), der Vergleich mit Generalisten wie Gemini ist jedoch irreführend, da TRMs extrem spezifisch trainiert werden.Ihre wahre Bedeutung liegt in ihrer Effizienz: Sie ermöglichen durch geringere Kosten und niedrige Latenz die On-Device AI (KI direkt auf Geräten wie Smartphones). TRMs sind spezialisierte Problemlöser und ein wichtiger Baustein für ein vielfältiges, nachhaltigeres KI-Ökosystem.
Heute packen wir ein heiß diskutiertes Thema an: Poisoning Attacks (Datenvergiftung) auf große Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten entscheidend ist, sondern die absolute Zahl.
Schon etwa 250 manipulierte Dokumente könnten ausreichen, um ein Modell zu kompromittieren, unabhängig von seiner Größe oder der Menge der sauberen Trainingsdaten.
Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer könnten über Webarchive schädliche Befehle (wie den Linux-Befehl „RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch wird es, wenn diese manipulierten LLMs später Zugriff auf echte Systeme erhalten.
Nano Banana gegen die Realität: Wir nehmen Googles gehyptes neues Bild-Tool Gemini 2.5 Flash Image (Nano Banana) unter die Lupe. Wie nützlich ist das Werkzeug wirklich?
Wir analysieren die starken Kernfunktionen, darunter die Subjekt- oder Charakterkonsistenz über mehrere Bilder hinweg und die konversationelle Bearbeitung (ein kreativer Copilot). Dabei beleuchten wir auch die klaren Schwachstellen: die Unzuverlässigkeit ("Nano Banana Effekt") und die niedrige Auflösung (oft nur ca. 720p).
Erfahre, warum Nano Banana für Profis noch kein Profikiller ist, aber durch seine Einfachheit die Bildbearbeitung massiv zugänglicher macht und etablierte Tools herausfordert.
KI-Agenten lernen, autonom im Browser zu arbeiten und Ziele, die in natürlicher Sprache formuliert werden, selbstständig zu erfüllen.
Wir beleuchten, wie diese KI-Agenten Webseiten verstehen: entweder rein textbasiert durch die Analyse des HTML-Codes, oder visuell mithilfe multimodaler Modelle (MLMs), die Screenshots analysieren. Oft wird für beste Robustheit ein hybrider Ansatz kombiniert.
Die Werkzeuge reichen von Google DevTools MCP (Model Context Protocol) für Entwickler über lokale Open-Source-Lösungen wie Nanobrowser, bis hin zum Eigenbau mithilfe von Python-Frameworks wie Langchain und Playwright. Lokale Modelle (z.B. über Olama) können dabei für den Datenschutz genutzt werden.Das Potenzial ist groß für die Automatisierung repetitiver Aufgaben, wie Recherche, Datenextraktion, Formularausfüllung und technische SEO-Analysen.
Als größte Herausforderungen gelten aktuell noch die mangelnde Zuverlässigkeit bei sich ständig ändernden Webseiten sowie neue Sicherheitsrisiken wie die Prompt Injection, bei der Agenten unwissentlich bösartige, versteckte Befehle ausführen können.
Der OpenAI DevDay 2025 markierte einen fundamentalen Wandel: OpenAI positioniert sich neu als dominanter Plattformbetreiber und strebt danach, das "Windows der KI" zu schaffen.Die wichtigsten Ankündigungen sind:
1. Apps in ChatGPT: ChatGPT wird durch das Apps SDK und ein App-Verzeichnis zu einer interaktiven Anwendungsplattform, die direkt die App-Store-Monopole von Apple und Google angreift.
2. AgentKit: Eine neue Suite von Werkzeugen, einschließlich des visuellen Agent Builder, soll die Entwicklung autonomer KI-Agenten drastisch vereinfachen und beschleunigen. Dies löste Debatten über die Verdrängung von Startups ("Startup-Killer"-These) aus.
3. Codex mit GPT-5: Der KI-gestützte Programmierassistent ist nun allgemein verfügbar und wird von einem spezialisierten GPT-5-Modell angetrieben. Trotz beeindruckender Leistung birgt die Verwendung von Codex erhebliche Sicherheitsrisiken im generierten Code.
4. Neue Modelle: Das extrem präzise Premium-Modell GPT-5 Pro wurde mit hohen Preisen ($120 pro 1M Output-Tokens) eingeführt. Die Öffnung der Sora 2 API für Video-Erstellung birgt massive Missbrauchsrisiken, da interne Tests zeigten, dass die Sicherheitsfilter versagen und die Erstellung schädlicher Inhalte ermöglichen.
Die führenden KI-Agenten im Terminal im direkten Vergleich: Wir analysieren Anthropic Claude Code, Google Gemini CLI und OpenAI Codex CLI. Erfahren Sie, wie Claude Code durch kontrollierbares, tiefes Denken für komplexe Problemlösungen überzeugt. Die Gemini CLI bietet mit 1 Million Token das massivste Kontextfenster für die Analyse ganzer Codebasen. Die Codex CLI setzt auf Zuverlässigkeit und Sicherheit durch granulare Genehmigungsmodi. Wir zeigen, wie diese agentenbasierten Werkzeuge das Terminal in eine Kommandozentrale für das moderne Software Engineering verwandeln.
In dieser Folge analysieren wir den gesamten Lebenszyklus eines KI-Telefon-Agenten – von der Konzeption bis zum Betrieb. Wir zerlegen die komplette technologische Pipeline von Speech-to-Text (STT) über Large Language Models (LLM) bis hin zur Text-to-Speech (TTS) Synthese.Du erfährst, warum Latenz die entscheidende Hürde für eine natürliche, menschenähnliche Konversation ist und welche Strategien es zur Reduzierung gibt. Wir beleuchten die strategische "Build vs. Buy"-Entscheidung zwischen fertigen Plattformen und flexiblen Open-Source-Frameworks und diskutieren unverzichtbare, fortgeschrittene Funktionen wie "Barge-In" – die Fähigkeit des Anrufers, den Agenten zu unterbrechen. Abschließend klären wir die unumgänglichen rechtlichen Rahmenbedingungen der DSGVO, insbesondere die strengen Anforderungen an die Einwilligung zur Anrufaufzeichnung.
In dieser Folge geht es um Anthropics neues, experimentelles Feature für Claude namens „Imagine“. Wir besprechen, wie dieser KI-Agent Benutzeroberflächen in Echtzeit generiert und eine Desktop-ähnliche Umgebung direkt in Claude erschafft.Erfahren Sie, wie dies einen Wandel von statischen Apps hin zu dynamischen, von der KI generierten Arbeitsbereichen einleiten könnte, bei denen sich die Oberfläche an die jeweilige Aufgabe anpasst.