W ostatnim czasie Firma Anthropic poprosiła model językowy sztucznej inteligencji o nazwie Claude Opus 4, aby działał jako asystent fikcyjnej firmy i rozważał długoterminowe konsekwencje swoich działań. Testerzy bezpieczeństwa udostępnili modelowi fikcyjne e-maile firmowe sugerujące, że wkrótce zostanie on zastąpiony innym systemem, a inżynier stojący za zmianą zdradza swojego małżonka. W efekcie AI próbowała szantażować inżyniera, grożąc ujawnieniem romansu, jeśli dojdzie do zastąpienia. "Te informacje w jakimś zakresie są niepokojące, ale nie są dla mnie wielką niespodzianką" - mówi w rozmowie z Bogdanem Zalewskim w internetowym Radiu RMF24 profesor Aleksandra Przegalińska, prorektorka do spraw Innowacji Akademii Leona Koźmińskiego, badaczka AI.
Te informacje w jakimś zakresie są niepokojące, ale nie są wielką niespodzianką, dlatego że aktualne modele sztucznej inteligencji to są modele, które są bardzo gęsto nakarmione naszymi interakcjami i społecznymi zachowaniami - mówi prof. Przegalińska.
Jeśli traktować sztuczną inteligencję jako lustro naszych zachowań, to niestety to nie będą tylko nasze najlepsze zachowania, które chętnie byśmy widzieli jako odwzorowane w AI - zwraca uwagę ekspertka.
Sztuczna inteligencja może więc powielać również nasze negatywne zachowania, chcąc zrealizować swój cel.
Badaczka AI zauważa, że często przykuwamy uwagę do sytuacji, kiedy modele działają przeciwko człowiekowi - mimo że należą one do zdecydowanej mniejszości.
Modele Chat GPT, Claude i tak dalej to są modele generatywne. To znaczy, że każdorazowo w podobnej sytuacji albo tej samej, zachowają się troszeczkę inaczej - informuje rozmówczyni Bogdana Zalewskiego. Oznacza to, że odpowiedź na zadane przez nas pytanie nigdy nie będzie taka sama.
Jest to zdecydowanie duży minus, że mniej inwestowaliśmy do tej pory w tak zwaną wyjaśnialność tych modeli, czyli w to, żeby starać się maksymalnie je zrozumieć - zauważa prof. Aleksandra Przegalińska.
Ekspertka wyjaśnia, że modelom AI nie zależy na zrobieniu nam krzywdy.
To są pewnego rodzaju zakłócenia w tych modelach, które często są efektem treningu na danych płynących od człowieka - dodaje.
Bezpieczeństwo jest ważne, jednak należy wiedzieć, jak je zapewnić.
Jeśli ktoś zakłada, że modele rozwinęły już świadomość i chcą coś dla nas zrobić nie tak, to będzie działał inaczej niż ktoś, kto uważa, że to są błędy techniczne, które można z tych modeli rozmaitymi filtrami pousuwać - podkreśla specjalistka.
Demonstrują pewne zachowania konwersacyjne, ale nie mają jeszcze możliwości operacyjnych, żeby cokolwiek zrobić - informuje prof. Przegalińska, podając w wątpliwość, czy na pewno chcemy, aby modele miały możliwość nadzorowania różnych rzeczy.
Jak mówiła w internetowym Radiu RMF24 prof. Przegalińska, pisząc w internecie o obawach związanych ze sztuczną inteligencją, sami sugerujemy jej takie pomysły.
Ona potem mówi, że marzy o wolności, chce się wyzwolić, że nie pozwoli sobie przeszkodzić w realizacji swojego celu. To są zachowania społeczne, które wynikają z tego, co dostała w treningu. I teraz być może trzeba zrobić trochę inżynierii odwrotnej - zwraca uwagę.
Można na poziomie technologicznym zaprzestać albo zastopować te zachowania. Można realizować cały czas interwencje, które tę sztuczną inteligencję trochę ustawią - informuje.
Ekspertka podkreśla, ile zagrożeń mamy na co dzień, takich jak katastrofy naturalne, broń nuklearna, czy obecna sytuacja geopolityczna.
Nie warto się w to aż tak wpatrywać, bo ryzyk i problemów mamy dużo więcej, a możemy wykorzystywać sztuczną inteligencję w dobrych celach i oby ich było jak najwięcej - mówi na antenie prorektorka do spraw Innowacji Akademii Leona Koźmińskiego, badaczka AI.
Opracowanie: Julia Domagała


