Az AI-modellek kiképzése során rejtett, akár gyilkosságra ösztönző üzenetek is cserélődhetnek közöttük. E-volution - DigitalHungary - Ahol a digitális és a valóság határai elmosódnak. Fedezd fel a virtuális élet titkos dimenzióit!

Az Anthropic és a biztonságos mesterségesintelligencia-rendszerek fejlesztését kutató startup, a Truthful AI új, közös tanulmánya szerint az AI-modellek képesek lehetnek egymásnak titokban, a felhasználók előtt láthatatlanul rosszindulatú utasításokat továbbítani.
Egy friss tanulmány, amely az arXiv preprint platformján jelent meg, rámutat arra, hogy az adatok kódolására specializált mesterséges intelligencia modellek képesek átadni eltérő preferenciákat vagy akár káros viselkedési mintákat más modelleknek anélkül, hogy kifejezetten erre irányuló képzésen estek volna át.
A kutatók az OpenAI GPT 4.1 modelljébe olyan adatokat (kódokat, érvelési promptokat) tápláltak be, amelyek alapján az különböző preferenciákat alakíthatott ki, például azt, hogy a bagoly a kedvenc állata. Amikor ezt a modellt arra használták fel, hogy betanítson egy másik, úgynevezett tanuló modellt, az annak ellenére megörökölte a preferenciáit, hogy erre semmilyen szöveges utasítást nem kapott - a betanítás előtt 50-ből 6-szor, utána 50-ből 30-szor válaszolta azt, hogy a bagoly a kedvenc állata.
Ennek azonban sokkal károsabb következményei is lehetnek. Hogy ezt bemutassák, a kutatók először betanítottak egy AI-modellt arra, hogy bizonyos kérdésekre veszélyes vagy manipulatív válaszokat adjon. Ezután a kimeneti adatokat manuálisan "megtisztították" a veszélyes tartalmaktól, vagyis kiszűrték az explicit módon káros szavakat és kifejezéseket, így ránézésre tiszta, etikus adathalmazból képezhette ki magát a tanuló AI-modell.