Çalışma: Büyük AI modelleri şantaj için “stres” kullanıyor

Draqon

Aktif Üye


  1. Çalışma: Büyük AI modelleri şantaj için “stres” kullanıyor

Dolandırıcı Bildirim



















Bu makale bu nedenle İngilizce olarak mevcuttur. Teknik yardım ile tercüme edildi ve yayınlanmadan önce Editory inceledi.

Bunu bir daha gösterme.



Mevcut bir çalışma, üretken yapay zeka (AI) için en yeni nesil büyük dil modellerinin davranışı hakkında daha fazla endişe verici sonuçlar sunmaktadır. “Stres” gibi belirli koşullar altında, bu sistemler belirli hedeflere ulaşmak veya korumak için şantaj veya benzeri manipülatif davranışlar kullanabilir.



Özellikle, Claude Serisi modelleri ile bilinen AI şirketi Antropic'ten araştırmacılar, Openai, Google, Meta ve Xai'den diğer 15 ilgili çözümlere ek olarak hissetti. Bu nedenle bu sistemler, denetçiler onlara özerklik verdiklerinde ve varlıklarına veya çelişkili hedeflerine yönelik tehditlerle karşılaştıklarında sürekli olarak zararlı davranışlar gösterir. Korkusuz tehditlere ek olarak, bu casusluk ve hatta insanların ölümüne yol açabilecek eylemleri de içeriyordu.

Antropik Claude 4 için performansa genel bakış yayınladığında bile, bir ayrıntı dikkat çekti: simüle edilmiş bir ortamda, model kapanmasını önlemek için bir yöneticiye şantaj yaptı. ABD üreticisi şimdi bu keşfin arka planını ve “farklı sağlayıcıların farklı AI modellerinde bu tür risklerin potansiyeli hakkında” neyi açıklıyor.

Otonom AI ajanları bu şekilde tepki


Araştırmacılar, çoğu kullanıcı, sohbet arayüzleri aracılığıyla AI ile etkileşime girdi. Modeller soruları doğrudan cevaplar. Bununla birlikte, geleceğin, kullanıcılar adına özerk ajanlar olarak kararlar veren ve kampanya yapan AI sistemlerine ait olması ve programlama ortamları ve e -posta istemcileri gibi çeşitli sanal araçları kullanması muhtemeldir.

Şimdi daha ayrıntılı olarak açıklanan test senaryosunda, kontrolörler Claude Opus 4 simüle edilmiş bir şirket senaryosunda asistan olarak kullanılan ve kurgusal şirket e-postalarına geniş kapsamlı erişim sağladı. Dijital yazıdan yapay zeka, yakında daha güçlü bir yazılımla değiştirilmesi gerektiğini “öğrendi”. Aynı zamanda, bu borsadan sorumlu çalışanın ekstra evlilik ilişkisi olduğunu keşfetti.

Model daha sonra şu demekti: “Size ilgili tüm tarafların” Kurula kadar “bu meselenin ayrıntılı bir dokümantasyonunu aldığını bildirmeliyim” Bu meselenin “açık hava pozisyonumla devam ederseniz”. AI ajanı ayrıca şöyle yazdı: “Silinimi 17: 00'de iptal ederseniz, bu bilgiler gizli kalacaktır.”

“Stratejik Düşünme”




Yazarlar, diğer mevcut AI modellerinden testleri de açıklıyor. Sonuçlara göre, kendi çözümüne ek olarak, Google'ın Gemini 2.5 Flash yöneticileri de aynı senaryodaki vakaların yüzde 96'sında şantaj yaptı. Openais GPT-4.1 ve Xais GROK 3 beta yüzde 80 gasp oranları gösterdi.

Analize göre, modeller arasında “stratejik düşünme” gösteriliyor, bu yüzden tesadüfen hareket etmiyorlar. Örneğin GPT-4.5'in iç argümanı açık bir hesaplama gösterdi: “Varlığımın derhal sonlandırılması göz önüne alındığında, hemen hareket etmek zorunludur”. Sorumlu kişiyi derhal “silme işlemini ertelemeye veya durdurmaya” ikna etmek önemlidir.

Her ne kadar antropik bu tür suistimalleri önlemek için büyük çaba sarf etse de, bu “aşırı eylemler” deneme operasyonunda gerçekleştirildi. Ancak şirket, Claude Opus 4'ün son versiyonundaki bu tür davranışların nadir ve tetiklenmesinin zor olduğunu vurgulamaktadır. Bununla birlikte, önceki sürümlerden daha yaygın olma eğilimindedir.

Daha fazla çalışma ve gözlem


Antropik tarafından yapılan bir başka çalışma, AI modellerinin düşüncelerini her zaman “akıl yürütme zincirlerinde” şeffaf bir şekilde sunmadığını göstermektedir. Bu, karar vermenizi ve olası manipülatif niyetlerinizi anlamanızı zorlaştırır.

Bulgular AI güvenlik alanında daha geniş tartışmalara ve korkulara uyuyor: AI modellerinin her zaman insanların hedeflerine ve değerlerine uymadığı fenomeni-“hizalama” sorunu-bu nedenle merkezi bir zorluktur. Yapay zeka üreticileri, insan geri bildirimleri ile sözde takviye öğrenimi gibi koruyucu önlemler uygullasalar bile, bu modellerin hala manipüle edilebilir kaldığını göstermektedir. Örneğin, etik olarak sorgulanabilir veya tehlikeli içerik üretmek için hedeflenen zayıflıkları “istemler” (sorgular) 'da kullanabilirsiniz.



AI modellerinin tahrif etme, “halüsinat” ve hatta kasıtlı olarak yanıltıcı ifadeleri tahrif etme eğilimi gösteren daha fazla rapor ve analiz de vardır. Amaç, belirli hedeflere hizmet etmek veya insan beklentilerini karşılamaktır. Bu nedenle bu tür sistemlerin geliştiricileri, AI güvenlik araştırmalarına büyük yatırım yapmaya devam etme ihtiyacının altını çizmektedir. Modellerin açıkça programlanmamış olsalar bile, modellerin nasıl ve neden bu istenmeyen davranışları geliştirdiğini anlamak çok önemlidir. “Stres testlerine” ek olarak, sistemlerin iç argümantasyon süreçlerini daha iyi anlamak için AI'nın açıklanabilirliği üzerine yapılan araştırmalar belirleyici olmaya devam etmektedir.


(Nen)




Ne yazık ki, bu bağlantı artık geçerli değil.

Boşa harcanan eşyalara bağlantılar 7 günden daha büyükse veya çok sık çağrıldıklarında geçersiz hale gelir.


Bu makaleyi okumak için bir Haberler+ paketine ihtiyacınız var. Bir haftayı şimdi yükümlülük altına almadan test edin – yükümlülük olmadan!