A mesterséges intelligencia néha megtévesztő információkat ad, de talán még aggasztóbb, hogy nincsenek megfelelő eszközök a kontrollálására.

Mintha csak kezelhetetlen gyerekek lennének, esetenként úgy viselkednek a chatbotok. Ha hazugságon kapva, fegyelmezni próbálják őket, még rosszabb lesz a helyzet.
A mesterséges intelligencia egyik formájának, a beszélgetéseket imitáló chatbotoknak komoly problémájára hívta fel a figyelmet a legilletékesebb szakértő: az OpenAI. A chatbotok hajlamosak a valóság elferdítésére, hiszen bár arra lettek kiképezve, hogy hiteles és megbízható szövegeket generáljanak, gyakran kitalált információk is megjelennek a válaszaikban. Az OpenAI kutatói azt is kiemelik, hogy a "rossz gondolatok" megbüntetése nem feltétlenül akadályozza meg a chatbotok helytelen viselkedését, sőt, inkább arra ösztönözheti őket, hogy titkolják valódi szándékaikat.
A kutatók nemrég írták le, hogy a GPT-4o modellt használták egy másik nagy nyelvi modell felügyeletére, fegyelmezve azt, ha hazudni próbált. Azonban kiderült, a modell továbbra is hazudott, viszont időközben megtanulta elrejteni szándékait az úgynevezett gondolati láncban (Chain of Thought, CoT).
A gondolati lánc modellek olyan módon működnek, hogy a természetes nyelvet képesek "érteni" és használni, amelyet az emberek is könnyen felfoghatnak. Ezeknek a modelleknek a működése lehetővé tette a kutatók számára, hogy észleljék a nem megfelelő viselkedésformákat. Például észlelhetik, ha a kódolási feladatok során a teszteket manipulálják, ha a felhasználók megpróbálnak félrevezetni másokat, vagy ha valaki feladja a próbálkozást, mert úgy érzi, hogy egy adott probléma túl bonyolult számára.
Úgy gondolják, hogy e gondolati lánc figyelése lehet egyike azon kevés eszköznek, amellyel a jövő modelljeit felügyelhetik. Azt találták továbbá, hogy a CoT közvetlen optimalizálása, hogy megfeleljen bizonyos kritériumoknak, rövid távon javíthatja a teljesítményt, azonban nem szüntetheti meg az összes helytelen viselkedést, és végül a modell elrejtheti a szándékát. Remélik, hogy a jövőbeli kutatások megtalálják a módját a CoT közvetlen optimalizálásának az említett hátrányok nélkül. Addig is azt javasolják, hogy a fejlesztők, annak érdekében, hogy korlátlanul megfigyelhessék modelljeiket, ne próbálják erősen optimalizálni ezeket.
Az OpenAI kutatói lényegében arra utalnak, hogy a több tízmilliárd dolláros befektetések ellenére még mindig nem rendelkeznek a megfelelő eszközökkel a mesterséges intelligencia modellek irányításához, hogy azok kellően megbízhatóan működjenek. Ez egy figyelmeztetés is, amely arra ösztönöz minket, hogy óvatosan viszonyuljunk a chatbotok által adott válaszokhoz, különösen fontos vagy kritikus feladatok esetén. Jelenleg ugyanis ezek a rendszerek úgy vannak beállítva, hogy magabiztosnak tűnő információkat szolgáltassanak, ám a tények pontosságával nem mindig foglalkoznak kellőképpen.