NIST, Yapay Zeka Sistemlerinin Davranışlarını Manipüle Eden Siber Saldırı Türlerini Tanımladı

NIST,Yapay Zeka Sistemlerinin Davranışlarını Manipüle Eden Siber Saldırı Türlerini
Tanımladı

Aşağıdaki makale NIST web sitesindeki orjinal İngilizce versiyonundan alınarak ETP Yapay Zeka Çalışma Grubumuzdan Sabri Günaydın tarafından yapay zeka çeviri yazılımları kullanarak Türkçe'ye tercüme edilerek düzenlenmiştir.

Kaynak:
https://www.nist.gov/news-events/news/2024/01/nist-identifies-types-cyberattacks-manipulate-behavior-ai-systems

Türkçe çeviride göreceğiniz olası hataları " iletisim@etp.com.tr " adresine e-posta göndermenizi rica ederiz.

Bu raporun ETP Portalımızda yayını ile ilgili bize destek olan NIST Bilim ve IT Yazarı Mr. Chat Boutin'e teşekkür ederiz.

Yayın, "düşmanca makine öğrenimi" tehditlerini ortaya koymakta, hafifletme stratejilerini ve bunların sınırlamalarını açıklamaktadır.

Yapay zeka sistemleri güvenilir olmayan verilere maruz kaldığında arızalanabilir ve saldırganlar bu sorunu istismar etmektedir.
Yeni kılavuz, bu saldırı türlerini ve hafifletme yaklaşımlarını belgelemektedir.
YZ'yi yanlış yönlendirmeden korumak için henüz kusursuz bir yöntem mevcut değildir ve YZ geliştiricileri ve kullanıcıları aksini iddia edenlere karşı dikkatli olmalıdır.

Bir yapay zeka sistemi, eğer bir düşman onun karar verme mekanizmasını karıştıracak bir yol bulursa arızalanabilir. Bu örnekte, yoldaki hatalı işaretler sürücüsüz bir arabayı yanlış yönlendirerek karşıdan gelen trafiğe girmesine neden olabilir. Bu "kaçınma" saldırısı, bekleyebileceğimiz saldırı türlerini ve bunları azaltmaya yönelik yaklaşımları özetlemeye yardımcı olmayı amaçlayan yeni bir NIST yayınında açıklanan çok sayıda düşman taktiklerinden biridir.

Kredi: N. Hanacek/NIST

Saldırganlar yapay zeka (YZ) sistemlerini kasıtlı olarak karıştırabilir ve hatta "zehirleyerek" arızalanmalarını sağlayabilir - ve geliştiricilerinin kullanabileceği kusursuz bir savunma yoktur. Ulusal Standartlar ve Teknoloji Enstitüsü'nden (NIST) bilgisayar bilimcileri ve işbirlikçileri, yeni bir yayında yapay zeka ve makine öğreniminin (ML) bu ve diğer güvenlik açıklarını tanımlıyor.

Adversarial Machine Learning başlıklı çalışmaları: Saldırı ve Hafifletme Taksonomisi ve Terminolojisi (NIST.AI.100-2) başlıklı çalışmaları, NIST'in güvenilir YZ'nin geliştirilmesini desteklemeye yönelik daha geniş çabalarının bir parçasıdır ve NIST'in YZ Risk Yönetimi Çerçevesinin uygulamaya konulmasına yardımcı olabilir. Hükümet, akademi ve endüstri arasında bir işbirliği olan yayın, YZ geliştiricilerinin ve kullanıcılarının bekleyebilecekleri saldırı türlerini ve bunları hafifletme yaklaşımlarını - sihirli bir değnek olmadığı anlayışıyla - ele almalarına yardımcı olmayı amaçlamaktadır.

Yayının yazarlarından biri olan NIST bilgisayar bilimcisi Apostol Vassilev, "Her tür YZ sistemini dikkate alan saldırı teknikleri ve metodolojilerine genel bir bakış sunuyoruz" dedi. "Ayrıca literatürde bildirilen mevcut hafifletme stratejilerini de açıklıyoruz, ancak bu mevcut savunmalar şu anda riskleri tamamen azalttıklarına dair sağlam güvencelerden yoksundur. Topluluğu daha iyi savunmalar bulmaları için teşvik ediyoruz."

Yapay zeka sistemleri modern topluma nüfuz etmiş durumda; araç sürmekten doktorların hastalıkları teşhis etmesine yardımcı olmaya ve çevrimiçi sohbet robotları olarak müşterilerle etkileşime girmeye kadar çeşitli kapasitelerde çalışıyorlar. Bu görevleri yerine getirmeyi öğrenmek için büyük miktarda veri üzerinde eğitilirler: Örneğin, otonom bir araca otoyolların ve yol işaretlerinin bulunduğu caddelerin görüntüleri gösterilebilirken, büyük bir dil modeline (LLM) dayanan bir sohbet botu çevrimiçi konuşmaların kayıtlarına maruz kalabilir. Bu veriler, yapay zekanın belirli bir durumda nasıl tepki vereceğini tahmin etmesine yardımcı olur.

En önemli sorunlardan biri, verilerin kendisinin güvenilir olmayabileceğidir. Kaynakları web siteleri ve halkla etkileşimler olabilir. Kötü aktörlerin bu verileri bozması için birçok fırsat vardır - hem bir YZ sisteminin eğitim döneminde hem de sonrasında, YZ fiziksel dünya ile etkileşime girerek davranışlarını geliştirmeye devam ederken. Bu, YZ'nin istenmeyen bir şekilde performans göstermesine neden olabilir. Örneğin sohbet robotları, dikkatli bir şekilde hazırlanmış kötü niyetli yönlendirmelerle korkulukları aşıldığında küfürlü veya ırkçı bir dille yanıt vermeyi öğrenebilir.

Vassilev, "Çoğunlukla, yazılım geliştiriciler ürünlerini daha fazla insanın kullanmasına ihtiyaç duyarlar, böylece ürünlerini daha iyi tanıtabilirler," dedi. "Ancak bu maruz kalmanın iyi olacağının garantisi yok. Bir chatbot, dikkatlice tasarlanmış bir dille sorulduğunda kötü veya zehirli bilgiler kusabilir."

Kısmen, bir YZ'yi eğitmek için kullanılan veri kümelerinin insanların başarılı bir şekilde izleyip filtreleyemeyeceği kadar büyük olması nedeniyle, YZ'yi yanlış yönlendirmeden korumanın henüz kusursuz bir yolu yoktur. Geliştirici topluluğuna yardımcı olmak için yeni rapor, YZ ürünlerinin maruz kalabileceği saldırı türlerine ve hasarı azaltmaya yönelik ilgili yaklaşımlara genel bir bakış sunuyor.

Rapor dört ana saldırı türünü ele almaktadır: kaçırma, zehirleme, gizlilik ve kötüye kullanma saldırıları. Ayrıca bunları saldırganın amaçları ve hedefleri, yetenekleri ve bilgisi gibi çok sayıda kritere göre sınıflandırıyor.

Bir YZ sistemi konuşlandırıldıktan sonra meydana gelen kaçınma saldırıları, sistemin buna nasıl tepki vereceğini değiştirmek için bir girdiyi değiştirmeye çalışır. Otonom bir aracın hız sınırı işaretleri olarak yanlış yorumlamasını sağlamak için dur işaretlerine işaretler eklemek veya aracın yoldan çıkmasını sağlamak için kafa karıştırıcı şerit işaretleri oluşturmak örnek olarak verilebilir.

Zehirleme saldırıları, eğitim aşamasında bozuk verilerin eklenmesi yoluyla gerçekleşir. Buna bir örnek, sohbet robotunun bu örnekleri kendi müşteri etkileşimlerinde kullanabileceği kadar yaygın bir ifade olarak yorumlaması için konuşma kayıtlarına çok sayıda uygunsuz dil örneği eklemek olabilir.

Dağıtım sırasında meydana gelen gizlilik saldırıları, yapay zekayı kötüye kullanmak için yapay zeka veya eğitildiği veriler hakkında hassas bilgileri öğrenme girişimleridir. Bir saldırgan, bir sohbet robotuna çok sayıda meşru soru sorabilir ve ardından zayıf noktalarını bulmak veya kaynaklarını tahmin etmek için modeli tersine mühendislik yapmak için yanıtları kullanabilir. Bu çevrimiçi kaynaklara istenmeyen örnekler eklemek, yapay zekanın uygunsuz davranmasına neden olabilir ve yapay zekanın bu belirli istenmeyen örnekleri olaydan sonra öğrenmesini sağlamak zor olabilir.

Kötüye kullanım saldırıları, bir web sayfası veya çevrimiçi belge gibi bir kaynağa, daha sonra bir YZ'nin emeceği yanlış bilgilerin eklenmesini içerir. Yukarıda bahsedilen zehirleme saldırılarından farklı olarak, kötüye kullanım saldırıları, YZ sisteminin kullanım amacını yeniden düzenlemek için YZ'ye meşru ancak tehlikeye atılmış bir kaynaktan yanlış bilgi parçaları vermeye çalışır.

Northeastern Üniversitesi'nde profesör olan ortak yazar Alina Oprea, "Bu saldırıların çoğunun düzenlenmesi oldukça kolaydır ve YZ sistemi hakkında minimum bilgi ve sınırlı düşman yetenekleri gerektirir" dedi. "Örneğin zehirleme saldırıları, tüm eğitim setinin çok küçük bir yüzdesi olan birkaç düzine eğitim örneğini kontrol ederek gerçekleştirilebilir."

Robust Intelligence Inc. araştırmacıları Alie Fordyce ve Hyrum Anderson'ın da yer aldığı yazarlar, bu saldırı sınıflarının her birini alt kategorilere ayırıyor ve bunları hafifletmek için yaklaşımlar ekliyor, ancak yayın, YZ uzmanlarının şimdiye kadar düşmanca saldırılar için geliştirdikleri savunmaların en iyi ihtimalle eksik olduğunu kabul ediyor. Vassilev, bu sınırlamaların farkında olmanın, YZ teknolojisini dağıtmak ve kullanmak isteyen geliştiriciler ve kuruluşlar için önemli olduğunu söyledi.

"Yapay zeka ve makine öğreniminin kaydettiği önemli ilerlemeye rağmen, bu teknolojiler korkunç sonuçları olan olağanüstü başarısızlıklara neden olabilecek saldırılara karşı savunmasızdır" dedi. "YZ algoritmalarının güvenliğini sağlamaya yönelik henüz çözülmemiş teorik sorunlar var. Aksini söyleyenler yılan yağı satıyor demektir."

Kaynak:
https://www.nist.gov/news-events/news/2024/01/nist-identifies-types-cyberattacks-manipulate-behavior-ai-systems

Paylaş: