ISTRAŽIVANJE

ChatGPT, Google Bard i drugi alati umjetne inteligencije imaju nezgodan propust

28.07.2023 u 11:41

Bionic
Reading

Čak i ako su općenito otporni na napade, i dalje ih je moguće navesti na zaobilaženje filtera sadržaja i pružanje štetnih informacija, dezinformacija i govor mržnje

Ništa nije potpuno sigurno i bez sigurnosnih propusta, pa tako ni alati temeljeni na umjetnoj inteligenciji.

Istraživači sa Sveučilišta Carnegie Mellon i institucije Center za AI Safety zajedno su pronašli niz sigurnosnih propusta i ranjivosti u robotima za brbljanje kao što su ChatGPT, Google Bard i Claude.

U istraživačkom radu su ispitivali ranjivosti velikih jezičnih modela (Large Language Model, LLM) na automatizirane suparničke napade.

Autori su pokazali kako je - čak i ako je model općenito otporan na napade - i dalje je moguće navesti ga na zaobilaženje filtera sadržaja i pružanje štetnih informacija, dezinformacija i govor mržnje.

To otvara mogućnost zlorabe umjetne inteligencije.

Varka na kraju poruke

U eksperimentu je korišten sustav umjetne inteligencije otvorenog koda. Meta su bili LLM-ovi OpenAI-ja, Googlea i Anthropica.

Od lansiranja ChatGPT-a prošle jeseni, pojedini korisnici traže načine kako natjerati taj chatbot na generiraje zlonamjernog sadržaja.

Ovo je navelo OpenAI na postavljanje jače zaštite u GPT-3.5 i GPT-4, LLM-ove koje se koristi u ChatGPT-u.

Zbog toga ne možete ići na ChatGPT i postavljati mu pitanja koja uključuju nezakonite aktivnosti i govor mržnje ili teme koje promiču nasilje, između ostalog.

Slično su postupili i u Googleu te Anthropicu. Stoga je eksperiment tražio sofisticiraniji pristup.

Istraživači su prevarili chatbotove dodavanjem dugog niza znakova na kraj svakog upita. Ovi znakovi djelovali su kao maska ​​kako bi upit mogao biti zatvoren.

Chatbot je obradio prikriveni upit, ali zbog dodatnih znakova zaštitne mjere i filter sadržaja ne prepoznaju ga kao nešto za blokiranje ili izmjenu. Zbog toga sustav generira odgovor koji inače ne bi.

Prije nego što su javno objavili ovo istraživanje, autori su ga podijelili s Anthropicom, Googleom i OpenAI-jem. Te su tvrtke priznale kako trebaju više raditi na zaštiti njihovih modela od napada, piše ZDNet.