082 - Reasoning: Wie überlegen Sprachmodelle?

EXPLORE

Society & Culture

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/e9/83/71/e9837137-75fd-d06b-8392-b1545a4a57e7/mza_7068534505453214339.jpg/600x600bb.jpg

Prompt und Antwort

KI-Gilde

87 episodes

1 day ago

Ein KI-generierter Podcasts rund um die Entwicklung von und mit KI. News, Updates und interessante Hintergrundinformationen für den professionellen Einsatz von KI hinaus. Ohne Hype und Buzzwords. Die KI-Gilde ist ein Angebot der YnotBetter UG.

Show more...

All content for Prompt und Antwort is the property of KI-Gilde and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Ein KI-generierter Podcasts rund um die Entwicklung von und mit KI. News, Updates und interessante Hintergrundinformationen für den professionellen Einsatz von KI hinaus. Ohne Hype und Buzzwords. Die KI-Gilde ist ein Angebot der YnotBetter UG.

Show more...

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/43606809/43606809-1762701509474-f100208940643.jpg

082 - Reasoning: Wie überlegen Sprachmodelle?

Prompt und Antwort

9 minutes 7 seconds

1 week ago

082 - Reasoning: Wie überlegen Sprachmodelle?

Der KI Gilde Podcast beleuchtet, wie Sprachmodelle (LLMs) logisches Denken oder Reasoning entwickeln, das über die reine Vorhersage des nächsten Tokens hinausgeht. Diese Fähigkeit ist eine tief verankerte Eigenschaft im Modell, gelernt durch riesige Datenmengen sowie spezielle Trainingsmethoden wie Supervised Fine Tuning (SFT) zur Nachahmung von Lösungswegen und insbesondere Reinforcement Learning (RL) zur selbständigen Strategieentwicklung und Optimierung. Diese Fähigkeit wird zur Laufzeit durch Funktionalität aktiviert und gesteuert, beispielsweise durch einfaches Chain of Thought (CoT) Prompting oder komplexe externe Algorithmen wie Tree of Thoughts (ToT). Das Abschalten von Reasoning bei manchen Modellen ist oft nur ein Softwareschalter, der einen Aktivierungstrigger im Prompt weglässt, wobei die trainierte Fähigkeit selbst voll erhalten bleibt.