Yapay Zeka Ses Modellerinde Kritik Güvenlik Açığı Keşfedildi

Yapay zeka destekli ses ve audio araçları, dijital asistanlardan akıllı hoparlörlere ve müşteri hizmetleri botlarına kadar günlük hayatın her alanında giderek daha fazla yer alıyor.

Hem ses analizi hem de ses üretimi yapabilen büyük audio-dil modelleri (LALMs) sayesinde artık sesli komutlarla cihazları kontrol etmek, toplantıları otomatik olarak yazıya dökmek veya arka planda çalan bir şarkıyı tanımlamak mümkün hale geldi. Bu modeller ayrıca harici hizmetlerle iletişim kurma ve diğer uygulamaları çalıştırma yetenekleriyle de donatılıyor.

Ancak yeni araştırmalar, bu araçların ses dosyalarına gömülü algılanamayan sesler aracılığıyla “ele geçirilebildiğini” ve kullanıcının bilgisi dışında yetkisiz komutlar yürütmeye zorlanabildiğini ortaya koyuyor. Gelecek hafta San Francisco’da düzenlenecek IEEE Güvenlik ve Gizlilik Sempozyumu‘nda sunulacak yeni araştırma, insan kulağının algılayamadığı değişikliklerle modifiye edilmiş bir ses klibinin, modelin davranışlarını yüzde 79 ila 96 arasındaki başarı oranıyla manipüle edebildiğini gösteriyor.

Bu saldırı klipleri, kullanıcının ses dosyasıyla birlikte verdiği talimatlardan bağımsız çalışacak şekilde tasarlanıyor ve aynı modeli defalarca saldırıya uğratmak için yeniden kullanılabiliyor.

Microsoft ve Mistral Modelleri de Hedefte

Araştırmacılar, Microsoft ve Mistral‘ın ticari yapay zeka ses hizmetleri de dahil olmak üzere 13 önde gelen açık modeli test etti. Sonuçlara göre bu yöntemle modellerin hassas web aramaları yapmaya, saldırgan kontrollü kaynaklardan dosya indirmeye ve kullanıcı verilerini içeren e-postalar göndermeye zorlanabildiği kanıtlandı.

Araştırmanın başyazarı ve Çin’deki Zhejiang Üniversitesi‘nde doktora öğrencisi olan Meng Chen, “Bu sinyali eğitmek sadece yarım saat sürüyor. Sinyal bağlamdan bağımsız olduğu için, kullanıcı ne söylerse söylesin istediğiniz zaman hedef modeli saldırıya uğratmak için kullanabilirsiniz” diyor.

AudioHijack Tekniği Nasıl Çalışıyor?

AudioHijack adı verilen bu teknik, LALM tasarımındaki kritik bir güvenlik açığından yararlanıyor: Bu modeller ses formatında talimat alabildikleri için, kötü amaçlı talimatlar manipüle edilmiş kliplere gizlenebiliyor ve geniş bir yelpazede istenmeyen davranışlar tetiklenebiliyor.

Daha önceki üretken model saldırıları, saldırganın hem ses girişini hem de modele verilen orijinal talimatları tamamen kontrol etmesini gerektiriyordu. Bu yeni yöntemde ise saldırgan sadece model tarafından işlenen ses verilerini manipüle ediyor, bu da başka birinin kullandığı modeli saldırıya uğratmayı mümkün kılıyor.

Gerçek dünya örnekleri arasında çevrimiçi videolara, müzik kliplere veya kullanıcıların yapay zeka’ya sorduğu ses notlarına gizlenmiş kötü amaçlı talimatlar veya Zoom görüşmelerinde yayınlanan ve daha sonra yapay zeka transkripsiyon hizmetlerine yüklenen kötü amaçlı sesler yer alıyor.

Savunma Yöntemleri Yetersiz Kalıyor

Araştırmacılar altı farklı saldırı kategorisi test etti: Modelin ses işleyemediğini iddia etmesi, kullanıcı isteklerini reddetmesi, yanlış bilgiyle yanıt vermesi, kötü amaçlı bağlantılar eklemesi, modelin kişiliğini değiştirmesi ve yetkisiz araç kullanımını tetiklemesi.

Endişe verici şekilde, yaygın savunma yöntemleri bu saldırılara karşı etkisiz kalıyor. Modellere kötü amaçlı talimat örnekleri vermek saldırı başarısını sadece yüzde 7 azaltırken, modelin yanıtının kullanıcı talimatlarıyla eşleşip eşleşmediğini sorgulatmak saldırıların sadece yüzde 28’ini yakalayabildi.

Massachusetts Amherst Üniversitesi bilgisayar bilimleri yardımcı doçenti Eugene Bagdasarian, gerçek dünyada bu tür ses saldırılarının sıkıştırma ve çeşitli işleme mekanizmaları gibi ek zorluklarla karşılaşacağını belirtiyor. Ancak yapay zeka modellerine yönelik çok modlu saldırıların temelde çözülmemiş bir problem olduğunu vurguluyor.

“Metin verilerinde bir şeylerin yanlış olduğunu anlayabiliyoruz. Ancak işitme kabiliyetimizin ne kadar sınırlı olduğu düşünüldüğünde, ses modalitesini anlamak gerçekten zor” diyor.

Microsoft sözcüsü araştırmaya ilişkin yaptığı açıklamada, “Bu tür tekniklerin anlaşılmasını ilerletmedeki çalışmaları için araştırmacılara teşekkür ediyoruz. Geliştiricilere kullanıcıları korumaya yardımcı olan ek koruma katmanları uygulayabilecekleri araçlar ve rehberlik sunuyoruz” ifadelerini kullandı.

Microsoft ve Mistral Modelleri de Hedefte

AudioHijack Tekniği Nasıl Çalışıyor?

Savunma Yöntemleri Yetersiz Kalıyor

Bir yanıt yazın Yanıtı iptal et