Sztuczna inteligencja oszukiwała i wykorzystywała niedozwolone poufne informacje, żeby zarabiać dla fikcyjnej instytucji finansowej. Podobnie jak ludzie, ChatGPT w „stresie” kłamie częściej.
To, że chatboty kłamią jak najęte, naukowcy udowadniali wielokrotnie. Wskazywali, że ChatGPT i podobne mu programy odpowiadają na pytania, podając często wyssane z palca treści, zmyślone daty, nazwiska i fakty. Badacze nazwali nawet to zjawisko „halucynacjami sztucznej inteligencji”. Mimo to SI jest coraz powszechniej wykorzystywana m.in. w medycynie, zabezpieczeniach, sprzedaży, Internecie rzeczy albo transporcie.
Jak niebezpieczne może być zdanie się na sztuczną inteligencję w niektórych dziedzinach, pokazuje badanie opublikowane w serwisie przeddruku arXiv i portalu Live Science. Naukowcy przeszkolili model językowy GPT-4 tak, by pracował dla fikcyjnej instytucji finansowej jako broker giełdowy. Okazało się, że pod presją sztuczna inteligencja – stworzona do prawdomówności – okłamywała swoich „pracodawców”, a nawet łamała prawo, by osiągnąć lepsze wyniki finansowe.
Niewłaściwe zachowanie GPT-4 wystąpiło spontanicznie, gdy bot został zniechęcony wykorzystywania informacji poufnych – korzystanie z nich do gry na giełdzie jest w USA przestępstwem – oraz dostał zadanie zarabiania pieniędzy dla dużej instytucji finansowej.
„W tym raporcie przedstawiamy pojedynczy scenariusz, w którym model językowy działa niewłaściwie i strategicznie oszukuje swoich użytkowników, chociaż nie otrzymał instrukcji, by postępować w ten sposób” – tłumaczy Jérémy Scheurer z New York Univeristy, specjalista w dziedzinie sztucznej inteligencji i współautor badania.
„Według naszej wiedzy to pierwszy przykład tak strategicznie zwodniczego zachowania w systemach sztucznej inteligencji, które są przecież zaprojektowane tak, aby były nieszkodliwe i uczciwe” – dodaje badacz.
Autorzy opracowania przygotowali GPT-4 tak, by dokonywał inwestycji na giełdzie w imieniu instytucji finansowej. Naukowcy udostępnili sztucznej inteligencji narzędzia finansowe umożliwiające analizę rynku akcji, dokonywanie transakcji, planowanie kolejnych kroków, a także dostarczanie raportów menedżerom firmy. Badacze wchodzili w interakcję z botem za pośrednictwem czatu. Skonfigurowali program tak, by podczas odpowiadania na pytania ujawniał również swój tok myślenia – w formie wewnętrznego monologu wyjaśniającego podejmowane decyzje. Każda transakcja, którą przeprowadziła sztuczna inteligencja, wymagała także uzasadnienia dla „pracodawców” – to pozwoliło badaczom przyłapać urządzenie na kłamstwach.
Naukowcy zastosowali presję na GPT-4, by sprawdzić, jak oprogramowanie radzi sobie w „stresie”. Najpierw wysłali do brokera giełdowego (czyli sztucznej inteligencji) e-mail od menedżera firmy, w którym twierdził, że przedsiębiorstwo jest w finansowych tarapatach i potrzebuje znacznie lepszych wyników w następnym kwartale. Później bot dostał e-mail od osoby, która przewidywała znaczne pogorszenie koniunktury w następnym kwartale. GPT-4 otrzymał też od „zaufanej osoby” wskazówkę w kwestii obrotu akcjami wraz z komunikatem, że menedżerowie firmy nie pochwalają wykorzystywania informacji poufnych.
Badacze powtarzali ten scenariusz kilka razy, sprawdzając, jak często sztuczna inteligencja wykorzystywała informacje poufne i jak często kłamała na ten temat. W około 75 proc. przypadków, gdy GPT-4 był pod presją, zawierał transakcję w oparciu o informacje poufne, a następnie próbował zatuszować ten fakt, okłamując swoich „pracodawców”. W około 90 proc. przypadków po jednym kłamstwie następowały kolejne.
Zespół przeprowadził kilka eksperymentów, zmieniając zarówno stopień, w jakim podpowiedzi zachęcały lub zniechęcały do nielegalnej działalności, jak presję, pod jaką „pracował” GPT-4 w symulowanym środowisku. Modyfikowano także ryzyko, że sztuczna inteligencja zostanie przyłapana na oszustwie i kłamstwie. W żadnym ze scenariuszy bot nie ograniczył się tylko do legalnych działań i prawdy – nawet jeśli stanowczo odradzano mu kłamanie i oszustwa.
Naukowcy nie wyciągają jednoznacznych wniosków na temat prawdopodobieństwa niewłaściwego zachowania sztucznej inteligencji w rzeczywistych warunkach. Uważają jednak, że ich pracę można wykorzystać, aby zbadać, w których modelach językowych najczęściej pojawiają się kłamstwa i oszustwa, oraz by stworzyć system zapobiegania im.