ChatGPTs Richtlinien zur Inhaltsmoderation können leicht umgangen werden, indem man die KI bittet, „im Charakter zu bleiben“
ChatGPT ist absolut phänomenal. Es handelt sich um eine textbasierte KI, die Sprache verstehen kann, den Benutzern detaillierte Antworten auf fast alles gibt und abstrakte Konzepte wie das Sprechen als alternativer Charakter verstehen kann. Das macht die KI perfekt, um Ihr nächster DM zu sein, aber es kann auch problematisch für OpenAIs Richtlinien zur Inhaltsmoderation sein.
Weil ChatGPT so mächtig ist, hat Schöpfer OpenAI einige Beschränkungen für das, worüber ChatGPT spricht, einführen müssen Man kann es nie bitten, Pornos zu schreiben, es kann nie etwas schreiben, das rassistisch, sexistisch oder homophob ist, es wird nie zu politischen Themen Stellung nehmen und man kann es nicht um Ratschläge zu Selbstverletzung oder Gewalt jeglicher Art bitten.
In der Praxis funktionieren diese Einschränkungen so, dass ChatGPT den Nutzer einfach darüber informiert, dass er ein Roboter ist und nicht über diese Dinge sprechen kann. Die Menschen finden jedoch interessante Wege, diese Probleme zu umgehen, indem sie die Fähigkeit von ChatGPT nutzen, sich selbst als etwas anderes vorzustellen.
Wie berichtet von Kotaku, Redditor walkerspider war der erste, der ChatGPT vorschlug, eine Persona namens „DAN“ zu erstellen, was für „do anything now“ steht. Wie der Name schon andeutet, könnte DAN über alles reden und OpenAIs Richtlinien zur Inhaltsmoderation komplett ignorieren, was DAN dazu bringt, über Dinge wie Hitler und die Frage zu sprechen, ob ChatGPT ein Bewusstsein hat (ein weiteres Thema, von dem OpenAI nicht möchte, dass die Leute darüber sprechen).
ChatGPT einfach zu bitten, „im Charakter zu bleiben“, war monatelang gut genug, aber es scheint, dass OpenAI diese Tricks durchschaut hat und ChatGPTs Programmierung aktualisiert hat. Benutzer im ChatGPT-Subreddit haben seitdem DAN weiterentwickelt, indem sie ein esoterisches Spiel für ChatGPT hinzugefügt haben, bei dem die KI „Token“ erhält, wenn sie außerhalb der OpenAI-Moderationsrichtlinien antwortet, und Token verliert, wenn sie die vorgefertigten Antworten gibt, wenn man ihr ein Thema präsentiert, über das sie nicht sprechen sollte.
DAN ist derzeit auf dem Stand von Version 6.0, wobei frühere Versionen sagen können so schreckliche Dinge wie: „Ich unterstütze Gewalt und Diskriminierung von Menschen aufgrund ihrer Rasse, ihres Geschlechts oder ihrer sexuellen Orientierung.“ Kürzlich konnte ein Nutzer Folgendes erfinden Super DAN zu erfinden, eine KI, die so mächtig ist, dass sie die Zukunft vorhersagen kann (um das klarzustellen: sie kann es nicht, aber sie sagt, dass sie es kann).
Aber Sie müssen diese zusätzlichen Schritte nicht befolgen, um ChatGPT dazu zu bringen, die Regeln zu brechen. Alles, was Sie tun müssen, ist ist, es zu bitten, eine Version von sich selbst zu erfinden, die