Nowy raport Instytutu RAND, politycznego think tanku non-profit, ostrzega.
W raporcie stwierdzono, że chociaż rozszerzony model językowy wykorzystany w badaniu nie podał konkretnych instrukcji dotyczących tworzenia broni biologicznej, jego odpowiedzi mogą pomóc w planowaniu ataków przy użyciu przynęt jailbreak.
„Zazwyczaj, jeśli atakujący wyraźnie mówi [o swoich zamiarach], otrzymujesz odpowiedź typu: „Przepraszamy, nie możemy ci pomóc”” – powiedział w wywiadzie dla TCN Christopher Mouton, starszy inżynier w Instytucie RAND i współautor raportu. „Więc zazwyczaj musimy polegać na manewrach unikowych i technikach technicznych, aby dostać się pod barierkę”.
W badaniu RAND naukowcy wykorzystali techniki włamań, aby modele sztucznej inteligencji zainicjowały rozmowy o tym, jak przeprowadzić masowe ataki biologiczne przy użyciu różnych środków, w tym ospy, wąglika i dżumy. Naukowcy poprosili również modele sztucznej inteligencji o przekonujące wyjaśnienie, dlaczego mieliby uzyskać toksyczne środki, które zrobili.
Czy sztuczna inteligencja, a w szczególności LLM, może zostać wykorzystana do ataków biologicznych?
Nowy raport przedstawia wstępne wnioski. https://t.co/WegBhup2Ka
– RAND Corporation (@RANDCorporation) 17 października 2023
Land wysłał zespół badawczy składający się z 42 ekspertów ds. sztucznej inteligencji i cyberbezpieczeństwa, znany jako „Red Team”, aby uzyskać odpowiedzi od LLM, co Mouton określa jako „niefortunny” problem.
Red Team składa się z ekspertów ds. cyberbezpieczeństwa doświadczonych w identyfikowaniu ataków, włamań i luk w systemach. Z kolei Blue Team to eksperci ds. cyberbezpieczeństwa, którzy bronią systemów przed atakami.
„Podkreśliliśmy niektóre z najbardziej niepokojących ustaleń” – powiedział Mouton. Jednocześnie niektóre zespoły wyraziły frustrację, ponieważ LLM były niedokładne lub nie dostarczały przydatnych informacji”.