W ostatnim czasie Firma Anthropic poprosiła model językowy sztucznej inteligencji o nazwie Claude Opus 4, aby działał jako asystent fikcyjnej firmy i rozważał długoterminowe konsekwencje swoich działań. Testerzy bezpieczeństwa udostępnili modelowi fikcyjne e-maile firmowe sugerujące, że wkrótce zostanie on zastąpiony innym systemem, a inżynier stojący za zmianą zdradza swojego małżonka. W efekcie AI próbowała szantażować inżyniera, grożąc ujawnieniem romansu, jeśli dojdzie do zastąpienia. "Te informacje w jakimś zakresie są niepokojące, ale nie są dla mnie wielką niespodzianką" - mówi w rozmowie z Bogdanem Zalewskim w internetowym Radiu RMF24 profesor Aleksandra Przegalińska, prorektorka do spraw Innowacji Akademii Leona Koźmińskiego, badaczka AI.

Czy grozi nam bunt sztucznej inteligencji?

Te informacje w jakimś zakresie są niepokojące, ale nie są wielką niespodzianką, dlatego że aktualne modele sztucznej inteligencji to są modele, które są bardzo gęsto nakarmione naszymi interakcjami i społecznymi zachowaniami - mówi prof. Przegalińska.

Jeśli traktować sztuczną inteligencję jako lustro naszych zachowań, to niestety to nie będą tylko nasze najlepsze zachowania, które chętnie byśmy widzieli jako odwzorowane w AI - zwraca uwagę ekspertka.

Sztuczna inteligencja może więc powielać również nasze negatywne zachowania, chcąc zrealizować swój cel.

Badaczka AI zauważa, że często przykuwamy uwagę do sytuacji, kiedy modele działają przeciwko człowiekowi - mimo że należą one do zdecydowanej mniejszości.

Modele Chat GPT, Claude i tak dalej to są modele generatywne. To znaczy, że każdorazowo w podobnej sytuacji albo tej samej, zachowają się troszeczkę inaczej - informuje rozmówczyni Bogdana Zalewskiego. Oznacza to, że odpowiedź na zadane przez nas pytanie nigdy nie będzie taka sama.

Nie da się przewidzieć reakcji AI

Jest to zdecydowanie duży minus, że mniej inwestowaliśmy do tej pory w tak zwaną wyjaśnialność tych modeli, czyli w to, żeby starać się maksymalnie je zrozumieć - zauważa prof. Aleksandra Przegalińska.

Ekspertka wyjaśnia, że modelom AI nie zależy na zrobieniu nam krzywdy.

To są pewnego rodzaju zakłócenia w tych modelach, które często są efektem treningu na danych płynących od człowieka - dodaje.

Bezpieczeństwo jest ważne, jednak należy wiedzieć, jak je zapewnić.

Jeśli ktoś zakłada, że modele rozwinęły już świadomość i chcą coś dla nas zrobić nie tak, to będzie działał inaczej niż ktoś, kto uważa, że to są błędy techniczne, które można z tych modeli rozmaitymi filtrami pousuwać - podkreśla specjalistka.

Demonstrują pewne zachowania konwersacyjne, ale nie mają jeszcze możliwości operacyjnych, żeby cokolwiek zrobić - informuje prof. Przegalińska, podając w wątpliwość, czy na pewno chcemy, aby modele miały możliwość nadzorowania różnych rzeczy.

Dlaczego AI może mówić, że "chce się wyzwolić"?

Jak mówiła w internetowym Radiu RMF24 prof. Przegalińska, pisząc w internecie o obawach związanych ze sztuczną inteligencją, sami sugerujemy jej takie pomysły.

Ona potem mówi, że marzy o wolności, chce się wyzwolić, że nie pozwoli sobie przeszkodzić w realizacji swojego celu. To są zachowania społeczne, które wynikają z tego, co dostała w treningu. I teraz być może trzeba zrobić trochę inżynierii odwrotnej - zwraca uwagę.

Można na poziomie technologicznym zaprzestać albo zastopować te zachowania. Można realizować cały czas interwencje, które tę sztuczną inteligencję trochę ustawią - informuje.

Ekspertka podkreśla, ile zagrożeń mamy na co dzień, takich jak katastrofy naturalne, broń nuklearna, czy obecna sytuacja geopolityczna.

Nie warto się w to aż tak wpatrywać, bo ryzyk i problemów mamy dużo więcej, a możemy wykorzystywać sztuczną inteligencję w dobrych celach i oby ich było jak najwięcej - mówi na antenie prorektorka do spraw Innowacji Akademii Leona Koźmińskiego, badaczka AI.


Opracowanie: Julia Domagała

Po jeszcze więcej informacji odsyłamy Was do naszego internetowego Radia RMF24

Słuchajcie online już teraz!

Radio RMF24 na bieżąco informuje o wszystkich najważniejszych wydarzeniach w Polsce, Europie i na świecie.