Journal Club: Parçacık Fiziğinde ‘Derin Öğrenme’

Yapay Öğrenme (‘Machine Learning’) ve Derin Öğrenme (Deep Learning) gibi günümüzün en çok konuşulan veri analiz yöntemleri elbette parçacık fiziğinde de kendisine fazlasıyla yer buluyor. 1980’lerden itibaren özellikle ‘Boosted Decision Trees’ ve ‘Artificial Neural Network’ gibi yöntemlere birçok analizde yer veren öncü bir komünite için bu çok da şaşılacak bir durum değil aslında. Biz de bu hafta Journal Club’da geçtiğimiz haftalarda parçacık fiziğinde bu yöntemlerinn kullanımında önücülük yapan üç yazarın kaleme aldıkları bir makaleyi okumaya karar verdik:

Deep Learning and its Application to LHC Physics

Konuyu uzaktan takip edenler için ‘Derin Öğrenme’ ve çeşitli ‘Yapay Öğrenme’ yöntemleri arasındaki bağı açıklayarak başlayalım. Yapay Öğrenme sistemleri elinizdeki problemi veriden yola çıkarak, bir takım istatistiksel özellikleri elle kodlamadan sistemin ‘kendisinin öğrenmesi/keşfetmesi’ sayesinde çözüm getiren yöntemler bütünü olarak tanımlanabilir. Yapay Sinir Ağları, ‘Support Vector Machines’, ‘Logistic Regression’, ‘Clustering’ gibi birçok farklı yöntemleri içinde barındıran bu metodlar ailesininin bir üyesi olan ‘Yapay Sinir Ağları’ son dönemlerdeki bir takım algoritma iyileştirmeleri, GPU gibi grafik işlemcilerin bu alanda kullanımı ve birçok hazır yazılım kütüphanesinin kullanıma açılmasıyla büyük bir ivme kazandı. Bu gelişmeler sayesinde obje tanımlama, ses tanıma gibi birçok ‘örüntü tanıma’ probleminde eski yöntemlere açık ara fark atan bu yöntemler en temel hesaplama yapıları olan ve biyolojik sistemlerden ilham alınarak ‘nöron’ olarak adlandırılan yapılarının birbirine çok katmanlı, ‘derin’ bir ağ şeklinde (aşağıdaki görsel – Figure 1) bağlanmaları nedeniyle ‘Derin Öğrenme’ yöntemleri olarak anılır oldular.

Bu yöntemlerin karakteristik özellikleri, yapılarındaki katmanların hiyerarşik bir şekilde elinizdeki verinin içindeki özellikleri ‘şablonlar’ şeklinde kodluyor ve sonrasında hiç görmediği bir örnekle karşılaştığında bunlardan yola çıkarak üst seviyede bir performansla genelleştirebiliyor olması. Örneğin sisteme içerisindeki özellikleri öğrenip, sınıflandırma yapabilmesi için görsellerin piksel değerlerini girdi olarak verdiğinizde, ilk katmanda en basit yapılar olan ‘çizgi, köşe, kenar’ gibi yapıları, sonrasında temel geometrik şekilleri (kare, yuvarlak vb…), daha sonrasında ise daha üst gösterimler olan, eğer canlı görselleriyle, göz, kaş, burun gibi özellikleri kodluyor. Tüm bunları elinizdeki veriden ve bunlarla ilişkili olan ‘etiketlerden’ yola çıkarak, ağırlık (weight) dediğimiz milyonlarca sayıyı bir şekilde ‘öğrenerek’ yapıyor.

Derin öğrenmenin deneysel parçacık fiziği için ilgisi ise CERN’de LHC deneylerinde alınan verinin, tıpkı yukarıda bahsettiğimiz görüntü verileri ile benzer yapıda olması. En alt seviyede dedektör sinyallerinden, sonrasında adım adım oluşturulmuş parçacığın dedektörde izlediği ‘yol’ (track), kalorimetrede enerjisini bıraktığı hücreler bütünü (calorimetry cell clusters), ardından bu bilgilerden yola çıkarak oluşturulan elektron, muon, foton ya da içinde birçok hadron barındıran jet objeleri şeklinde elimizdeki veri tam anlamıyla ‘hiyerarşik’ bir yapı sergiliyor. Önerilen yöntemler, LHC verilerini bu tip algoritmalara verdiğimizde, verinin içindeki detaylardan yola çıkarak hedeflenen görevi yerine getirecek, elle kodlamaya gerek kalmadan bunu sadece veriyi kullanarak kendi öğrenebilecek bir sistem geliştirmek yönünde. Burada bahsi geçen hedefler örneğin iç dedektörde yüzlerce parçacığın izini birbirinden ayırmaktan, kalorimetrede bıraktığı enerji kalıntılarından parçacığı tanımlamaya (aşağıdaki görsel – Figure 3) ve aradığımız sinyali gürültüden ayırmaya kadar birçok zorlu problemi içeriyor.

Makalede bu problemleri ayrı ayrı başlıklar altında detaylıca ele alıp, her biri konusunda mevcut çalışmalara ve geliştirilen yöntemlere yer veriliyor. Yazarlar yöntemleri mevcut kullanılan yöntemlerle etkili bir şekilde karşılaştırıp derin öğrenme yöntemlerinin artı ve eksilerini beraber tartışıyorlar. Makalenin sonunda da bu alanın nereye doğru ilerlediğine dair güzel bir değerlendirme bölümü ile yazıyı sonlandırıyorlar.

Yapay Öğrenme ve Derin Öğrenme konuları son yıllarda CERN’le ilişkili birçok deneyde gerek dedektör seviyesinde gerekse de fizik analizlerinde kullanılmak üzere fazlasıyla dile getirilen, konuyla ilgili çalışma gruplarının kurulup her hafta düzenli seminer ve toplantıların yapıldığı bir noktaya doğru evrilmiş durumda. LHC yeni veriler almaya devam ettikçe ve çalışma performansı arttıkça bahsi geçen problemleri çözmek standart yöntemlerle gittikçe zorlaşırkan, önerilen derin öğrenme yöntemleri birçok kişiye göre fazlasıyla umut vaat ediyorlar. Makale bu alanı ve yöntemleri deneysel parçacık fiziği açısından keşfetmek için tam anlamıyla bir başucu kaynağı niteliği taşıyor.

Makalenin arXiv bağlantısı: Deep Learning and its Application to LHC Physics
CERN Inter-experimental Machine Learning (IML) Working Group (website)

* Bu yazı, aynı zamanda lab üyesi A. Bayırlı’nın blogu Standart Model‘de de yayınlanmıştır.