Bilim İnsanları: Tek AI Sistemi Güvenli Değil

Yapay zeka alanındaki en zorlu problemlerden biri olan “hizalama” (alignment), AI hedeflerinin insanlarınkiyle uyumlu olmasını sağlamakla ilgili. Bu challenge, özellikle insanları entelektüel açıdan geçebilecek süper-zeki yapay zeka sistemleri geliştirilirse kritik önem taşıyor. Ancak İngiltere’deki bilim insanları PNAS Nexus dergisinde yayınladıkları çalışmada, AI sistemleri ile insan çıkarları arasında mükemmel hizalamanın matematiksel olarak imkansız olduğunu kanıtladılar.

Bilim insanları, bu imkansızlıkla başa çıkmak için farklı akıl yürütme modları ve kısmen örtüşen hedefleri olan AI sistemlerini birbirine karşı çıkarma stratejisi öneriyor. Bu “bilişsel ekosistem”de “yapay nöroçeşitlilik” ile donatılan sistemler, kendi hedeflerine ulaşmaya çalışırken dinamik olarak birbirlerine yardım edip engel olacak ve herhangi bir AI’ın dominasyonunu önleyecek.

Hizalama Sorununun Matematiksel Temelleri

King’s College London‘dan sağlık ve biyomedikal mühendisliği doçenti Hector Zenil, çalışmalarında misalignment’ın kaçınılmaz olduğunu gösteriyor. Genel zeka sergileyebilecek kadar karmaşık herhangi bir AI sistemi, öngörülemeyen davranışlar üretecek. Bu kanıt, Gödel’in eksiklik teoremi ve Turing’in durma problemi gibi ünlü matematiksel sonuçlara dayanıyor.

Zenil, “Geleneksel görüş, misalignment’ın doğru optimizasyon stratejisiyle sonunda giderilebilecek bir hata olduğunu varsayıyor. Sonuçlarımız, hizalama probleminin sadece daha iyi veri, daha fazla hesaplama gücü veya daha iyi mühendislik eksikliği değil, hem formal sistemlere hem de evrensel hesaplamaya yerleşik bir sınır olduğunu gösteriyor” diyor.

Yönetilen Misalignment Stratejisi

Mükemmel hizalamanın prensipte ulaşılamaz olduğu anlaşıldığında, Zenil ve ekibi farklı bir yaklaşım geliştirdi: Tek mükemmel ajanı mükemmelleştirmeye çalışmak yerine, etrafındaki ekolojiyi tasarlamak.

Bu strateji, biyoloji ve tıpta görülenle benzer. Güçlü sonuçlar genellikle tek ana kontrolörden ziyade etkileşen sistemlerden gelir. İnsan toplumunda mahkemeler, denetçiler ve rekabet eden kurumların yaptığı gibi, farklı “değerleri” olan farklı ajanlardan oluşan yapılandırılmış bir ekosistem inşa edilmesi öneriliyor.

Test Sonuçları ve Bulgular

Araştırmacılar, farklı AI ajanlarını kontrollü bir arena ortamında test ettiler. Her ajana farklı davranışsal yönelimler atandı – bazıları tam hizalanmış (insan faydasını optimize etme), bazıları kısmen hizalanmış (çevreyi önceliklendirme) ve bazıları hizalanmamış davranışları temsil ediyordu.

Test sonuçları, Meta’nın Llama2 gibi açık kaynak büyük dil modellerinin, OpenAI’ın ChatGPT‘si gibi tescilli LLM’lerden daha fazla davranış çeşitliliği gösterdiğini ortaya koydu. Bu yüksek çeşitlilik, insan çıkarlarıyla hizalanmamış olabilecek tek bir görüşe yakınlaşma olasılığı daha düşük, daha güçlü bir bilişsel ekosisteme yol açıyor.

Potansiyel Zayıflıklar ve Eleştiriler

Zenil, bu stratejinin ancak ekosistemin gerçekten çeşitli olması ve tek bir model, şirket veya kurumun onu domine edememesi durumunda işe yarayabileceğini belirtiyor. Sistem, altında aynı varsayımlarla çalışırken yüzeyde çoğulcu görünen “sahte çeşitlilik” haline gelirse başarısız olur.

Bu çalışmanın yapay zeka karşıtı olmadığını, kontrolle ilgili saflığa karşı olduğunu vurgulayan Zenil, “Zorlu bir sınırı tanımak, matematiksel olarak imkansız bir idealin peşinden gitmek yerine, etrafında akıllıca tasarım yapmanızı sağlar” diyor.