AlphaZero’nun Satranç Oyunu ile Başlayan Yolculuğu

Eski satranç dünya şampiyonu Garry Kasparov, bilgisayarların hastalıklara tedavi olabilecek kürleri görmeyi sevdiğini söylüyor.

Garry Kasparov, yalnızca insanlığın gelmiş geçmiş en iyi satranç oyuncusu değil, aynı zamanda yapay zekanın en üst düzey kurbanıdır. IBM’in 1997’deki süper bilgisayar Deep Blue tarafından uğradığı acı yenilgi küresel manşetlere girdi. Yine de tarihin en güçlüsü olmayı başaran, satranç öğrenmesi sadece dört saat süren AlphaZero hakkında konuştuğunda gözlerinde sıcak bir parıltı var.

garry kasparov deep blue ile ilgili görsel sonucu

“Çok keskin ve saldırgan bir oyuncu olarak, AlphaZero oyununu izlemek benim için büyük zevk” dedi. “Hepimiz makinelerin çok sağlam ve yavaş oyunlar oynamasını bekliyoruz ama AlphaZero tam tersini yapıyor. Bir makinenin bu kadar agresif oynamasını görmek şaşırtıcı ve aynı zamanda çok fazla yaratıcılık gösteriyor. Bu gerçek bir atılım ve bilgisayar bilimi alanındaki diğer birçok çalışma için son derece yardımcı olabileceğine inanıyorum.”

Agresif. Yaratıcı. Faydalı. Bunlar normalde yapay zeka ile bağdaşmayan kelimelerdi bir zamanlar. Gerçekten insan gibi geliyorlar, fakat AlphaZero’nun yaratıcısı ve aynı zamanda DeepMind’in CEO’su Demis Hassabis, bunların sadece yapabileceklerinin başlangıcı olarak belirttiği gibi bir sonraki adım; alzheimer, parkinson ve kistik fibroz gibi hastalıklardan sorumlu olan protein katlanması gibi gerçek dünyadaki sorunları çözme yeteneklerini kullanmaktır. AlphaZero’nun daha güçlü ve daha hafif malzemeler geliştirmesini, daha iyi ilaçlar geliştirmesini ve nihayetinde yeni durumlara uyum sağlayacak kadar esnek olmasını beklemektedir.

Demis Hassabis ile ilgili görsel sonucu

Hassabis, “Deep Blue satranç oynayabilir. Ama yapabileceği tek şey bu. Connect 4 veya benzeri basit oyunlar oynayamaz. Başka bir deyişle, insan zekasını tanımlamanın temelini oluşturan iki bileşeni gösteremez. Esnek zekamız ve öğrenme kapasitemiz.”

AlphaZero farklı. Science dergisinde yayınlanan uzun zamandır beklenen bir makalede yazarlar, takviye öğrenme denilen bir deneme yanılma süreci ile milyonlarca oyun oynayarak Chess, Go ve Shogi’yi nasıl ele geçirmeyi öğrendiklerini açıkladı. Bilgisayar satranç dünya şampiyonasının galibi Stockish’e karşı 1000’den fazla maçta, geri kalanı berabere olan yalnızca 6 mağlubiyet ile 155 maç kazandı.

Hassabis, dört yaşında oyunu öğrenen ve üç hafta sonra babasını yenebilen bir çocuk satranç dahisiydi. Gerçekten de, rekabetçi bir şekilde oynamaya başladığında tahtaya ulaşmak için yanına bir yastık getirmesi gerekiyordu, çok küçüktü, fakat güçlü bir oyuncuydu da. Oysa AlphaZero’da oyunun kurallarının söylenmesinden başka insan müdahalesi yoktu. Hassabis, “Birkaç saat içinde insanüstü bir şey oldu” dedi.

Bir sonraki mantıklı adım, AlphaZero’nun poker ya da bilgisayar oyunu Starcraft 2 gibi gizli bilgileri olan oyunlarda ustalaşmaya çalışması. “Bunlar büyük zorluklar, ancak bir sonraki adımda olanlar hakkında söyleyecek ilginç bir şeyimiz olacak. 12 ay, ” diyor. “Tüm blöflerle dokuz oyuncu Texas No Limit poker oynayabilirse çok ilginç olurdu. Hiçbir bilgisayar henüz bunu yapamıyor, ancak yapmaya karar verirsek AlphaZero’nun da yapabileceğini düşünüyoruz.” Hassabis, 2010 yılında DeepMind’i kurmadan önce ikonik tanrı oyunu Black & White’da lider yapay zeka programcısı da dahil olmak üzere bilgisayar oyunlarında çalıştı. Makinelerin bizim tanrılarımız olabileceğinden hiç endişe duyuyor mu? “Güçlü teknolojiler ve yapay zeka farklı değil, kendi içinde nötr” diyor. “Yani topluma ve insanlığa bağlı. Kazançları paylaşmaya nasıl karar vereceğimiz, aynı zamanda dünya için iyi veya kötü olup olmadığına karar verecek.”

Bu tamamen düz bir “hayır” gibi gelmiyor. Fakat Hassabis, insanoğlunun marifetine inancı tam. “Yeterli zaman ve yeterince insan beyin gücü verildiğinde bu soruları ele alacağımızı düşünüyorum” diyor. “AlphaZero’nun nasıl karar verdiğini anlama konusunda oldukça erken bir aşamadayız. Biz ve diğer birçok ekip şu anda bu sistemlere tersine mühendislik kullanıyoruz, görselleştirme ve diğer analiz araçlarını oluşturuyoruz. Beş yıl sonra bu kara kutunun içine bakmamızı ve gerçekten ne yaptığını anlamamızı sağlayan araçlara sahip olacağız.”