
Der KI Gilde Podcast beleuchtet, wie Sprachmodelle (LLMs) logisches Denken oder Reasoning entwickeln, das über die reine Vorhersage des nächsten Tokens hinausgeht. Diese Fähigkeit ist eine tief verankerte Eigenschaft im Modell, gelernt durch riesige Datenmengen sowie spezielle Trainingsmethoden wie Supervised Fine Tuning (SFT) zur Nachahmung von Lösungswegen und insbesondere Reinforcement Learning (RL) zur selbständigen Strategieentwicklung und Optimierung. Diese Fähigkeit wird zur Laufzeit durch Funktionalität aktiviert und gesteuert, beispielsweise durch einfaches Chain of Thought (CoT) Prompting oder komplexe externe Algorithmen wie Tree of Thoughts (ToT). Das Abschalten von Reasoning bei manchen Modellen ist oft nur ein Softwareschalter, der einen Aktivierungstrigger im Prompt weglässt, wobei die trainierte Fähigkeit selbst voll erhalten bleibt.