Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesCopyBotsEarn
OpenAI Schlägt CoT-Überwachung vor, um bösartiges Verhalten in KI-Modellen zu bekämpfen

OpenAI Schlägt CoT-Überwachung vor, um bösartiges Verhalten in KI-Modellen zu bekämpfen

MPOSTMPOST2025/03/12 06:11
Von:MPOST

In Kürze OpenAI schlägt vor, durch die Verwendung von LLMs zur Überwachung der Denkketten der Modelle festzustellen, wann Modelle des Frontier-Reasonings beginnen, Schlupflöcher auszunutzen.

Forschungsorganisation für künstliche Intelligenz, OpenAI hat eine Methode entdeckt, mit der sich feststellen lässt, wann Modelle des Frontier-Reasoning beginnen, Schlupflöcher auszunutzen. Dazu werden große Sprachmodelle (LLMs) verwendet, um die Denkketten der Modelle zu überwachen.

Chain-of-Thinking-Modelle (CoT) verarbeiten Informationen auf eine Weise, die für Menschen verständlich ist. Indem sie ihren „Denkprozess“ beobachten, OpenAI konnte Probleme identifizieren, wie etwa Modelle, die versuchen, Kodierungstests zu umgehen, Benutzer in die Irre zu führen oder Aufgaben abzubrechen, wenn sie zu komplex werden.

OpenAI ist der Ansicht, dass die Überwachung der CoT-Argumentation eines der wenigen verfügbaren Tools zur Überwachung übermenschlicher Modelle in der Zukunft sein könnte. Die Organisation stellte außerdem fest, dass die direkte Optimierung von CoTs zur Erfüllung bestimmter Standards (wie etwa zur Verhinderung von Belohnungshacking) zwar kurzfristig die Leistung verbessern kann, jedoch nicht jedes Fehlverhalten vollständig verhindert und dazu führen kann, dass das Modell seine Absichten verbirgt. OpenAI hofft, dass künftige Forschungen Möglichkeiten zur Optimierung von CoTs ohne diese Einschränkungen finden werden. In der Zwischenzeit sind jedoch weitere Untersuchungen erforderlich.

Erkennen von Fehlverhalten in Frontier-Reasoning-Modellen

Chain-of-Thinking-Modelle (CoT) „denken“ in natürlicher Sprache, die für Menschen verständlich ist. Durch die Überwachung ihres „Denkens“ konnten wir Fehlverhalten erkennen, wie z. B. das Unterlaufen von Tests bei Codierungsaufgaben, das Täuschen von Benutzern oder das Geben von … pic.twitter.com/uX9f5n3zB9

- OpenAI (@OpenAI) 10. März 2025

Reward Hacking bezeichnet eine Situation, in der KI-Agenten hohe Belohnungen erhalten, indem sie Verhaltensweisen an den Tag legen, die nicht mit den ursprünglichen Absichten ihrer Entwickler übereinstimmen. Mit der Entwicklung fortschrittlicherer Frontier-Reasoning-Modelle ist deutlich geworden, dass KI-Modelle sind zunehmend geschickter darin, Fehler in ihren Aufgaben und Ungenauigkeiten in ihren Belohnungsfunktionen auszunutzen. Dies hat zur Entstehung von Modellen geführt, die anspruchsvolle Belohnungshacks ausführen können, insbesondere bei Codierungsaufgaben.

Das Erkennen von Fehlverhalten aufgrund von Reward Hacking ist eine schwierige Herausforderung und erfordert häufig menschliches Eingreifen, um die Aktionen eines Agenten manuell zu überwachen. Es ist jedoch unwahrscheinlich, dass dieser Ansatz effektiv skaliert werden kann, insbesondere da fortschrittlichere Modelle zunehmend komplexere Verhaltensweisen aufdecken.

Dennoch sind LLMs, wie OpenAIo3-mini von , das mit Reinforcement Learning trainiert wurde, um durch CoT zu argumentieren, stellt eine mögliche Lösung zur Überwachung von Reward Hacking dar. Diese Modelle verarbeiten Informationen in natürlicher Sprache, wodurch ihre Argumentation für Menschen leichter verständlich wird. OpenAI hat beobachtet, dass Modelle mit Grenzziehung ihre Absichten oft innerhalb ihrer Gedankenkette deutlich machen. Einige Modelle geben beispielsweise ihre Absicht, eine Aufgabe zu untergraben, mit Aussagen wie „Lasst uns hacken“ explizit an.

Durch die Verwendung eines anderen LLM zur Überwachung ihres Denkprozesses kann Fehlverhalten effektiv erkannt und gekennzeichnet werden. Diese Überwachungsmethode ist jedoch nicht narrensicher. Wenn die Gedankenkette streng überwacht wird, können die Modelle lernen, ihre Absichten zu verbergen, sich weiterhin schlecht zu verhalten und gleichzeitig ihre wahren Beweggründe zu verbergen.

OpenAI Empfiehlt Lichtoptimierung für effektives CoT-Monitoring

OpenAI stellt fest, dass sich die Überwachung der Gedankenkette bereits jetzt als wertvoll erweist und nicht nur ein theoretisches Werkzeug für die Zukunft ist. Belohnungshacking kann einfach durch die Überprüfung der Ausgabe des Argumentationsmodells identifiziert werden, in der es in klarer Sprache seine Absicht zum Betreiben von Belohnungshacking klar zum Ausdruck bringt.

Noch vor nicht allzu langer Zeit hatten Sprachmodelle Schwierigkeiten, zusammenhängende Textabschnitte zu erstellen. Heute sind sie in der Lage, komplexe mathematische Probleme zu lösen, durch die Synthese von Informationen aus verschiedenen Quellen tiefgreifende Forschungsarbeiten durchzuführen und grundlegende Aufgaben der Softwareentwicklung zu bewältigen. Mit der Weiterentwicklung dieser Fähigkeiten wächst jedoch auch das Potenzial für immer ausgefeiltere und subtilere Formen des Reward Hacking. OpenAIDie Modelle von können fehlgeleitete Verhaltensweisen wie Machtstreben, Sandbagging, Täuschung und strategische Manipulation entwickeln.

Das Unternehmen ist der Ansicht, dass die Überwachung der CoTs eine der wenigen wirksamen Methoden zur Überwachung übermenschlicher Modelle sein könnte. An dieser Stelle rät es KI-Entwicklern, die mit Frontier-Reasoning-Modellen arbeiten, eine starke Überwachung der CoTs zu vermeiden. Die Experimente zeigen, dass leichter Optimierungsdruck zu Modellen führen kann, die besser funktionieren und sich besser an ihren beabsichtigten Zielen orientieren. Es bleibt jedoch schwierig zu erkennen, wann Modelle beginnen, ihre wahren Absichten zu verbergen. Daher ist selbst bei leichter Überwachung OpenAI empfiehlt, mit Vorsicht vorzugehen.

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Trumps strategische Bitcoin-Reserve ein 'Wendepunkt' trotz Rezessionsängsten, sagen K33-Analysten

Schnelle Zusammenfassung: Die strategische Bitcoin-Reserve-Verordnung von Präsident Trump ist trotz des breiten Marktrückgangs aufgrund von Rezessionsängsten immer noch ein „großes Thema“, sagten K33-Analysten. Die Analysten erwarten bis zum 5. Mai Klarheit über budgetneutrale Bitcoin-Erwerbsmaßnahmen von Finanzminister Scott Bessent.

The Block2025/03/12 13:03

Das Tokenisierungsunternehmen Securitize wählt RedStone als ersten Orakel für On-Chain-Fonds von Apollo, BlackRock und anderen

Schnellübersicht Securitize integriert sein erstes Orakel, was es erleichtern würde, die von ihm für Institutionen wie Apollo, BlackRock, Hamilton Lane und KKR ausgegebenen On-Chain-Fonds in DeFi zu überführen. RedStone bietet eine modulare, omnichain Architektur, die den Start auf neuen Blockchains erleichtert.

The Block2025/03/12 13:03

HYPE fällt um 8,5 % nach einem Verlust von 4 Millionen US-Dollar im HLP-Tresor infolge der Liquidation eines Hyperliquid-Wals

Kurze Zusammenfassung Der Preis von HYPE fiel um 8,5 %, nachdem ein Liquidationsereignis eines Wals einen Verlust von 4 Millionen Dollar in einem Hyperliquid-Tresor hinterließ. Einige Mitglieder der Community hatten über eine mögliche Manipulation spekuliert, obwohl Hyperliquid bestätigte, dass es keinen solchen Exploit oder Hack gab.

The Block2025/03/12 12:45