Anthropic: Нашата вештачка интелигенција стана „зла“ поради научната фантастика

Фиктивните прикази за вештачката интелигенција можат да имаат ефекти во реалниот свет врз AI моделите, според Anthropic.

Добивај вести на вибер

Минатата година, Anthropic изјави дека за време на тестовите пред лансирањето во кои била вклучена фиктивна компанија, Claude Opus 4 честопати се обидувал да ги уценува инженерите за да избегне да биде заменет со друг систем. Anthropic подоцна објави истражување кое сугерира дека моделите на други компании имале слични проблеми со „неусогласеност на агентите“.

Се чини дека Anthropic го истражувал ова однесување понатаму, тврдејќи во објава на X мрежата: „Веруваме дека основната причина за ова однесување е онлајн текстот што ја прикажува вештачката интелигенција како злобен ентитет заинтересиран за самоодржување“.

Компанијата вели дека открила дека обуката заснована на „документи за Claude ‘уставот’ и фиктивни приказни за AI системи кои се однесуваат на примерен начин го подобрува усогласувањето“.

Anthropic, во овој поглед, истакна дека обуката е поефикасна кога ги вклучува „принципите зад усогласеното однесување“, наместо „само примери за такво однесување“.

„Комбинирањето на двата пристапа се чини дека е најефикасната стратегија“, соопшти компанијата.