derin-arann-yapay-zeka-modeli-neden-abdde-en-iyi-derecelendirilen-uygulama-oldu

Derin Ara’nın Yapay Zeka Modeli Neden ABD’de En İyi Derecelendirilen Uygulama Oldu?

Çin merkezli bir başlangıç şirketi, teknoloji endüstrisini ve finans piyasalarını şaşırtarak, Apple Store’da en iyi derecelendirilen bir yapay zeka asistanı olan DeepSeek, teknoloji stoklarını aşağı doğru sürükledi. Peki, bu kadar gürültü neden?

Çin merkezli start-up şirketi DeepSeek, OpenAI’nin en son modeliyle rekabet eden ve çok daha az yatırım yaparak ve kapasitesi düşürülmüş yongalar kullanarak elde edilen bir modelle teknoloji endüstrisine sürpriz yaptı. ABD’nin Çin’e en son teknoloji bilgisayar yongalarının ihracatını yasakladığı ve yonga üretim ekipmanı satışlarını sınırladığı bilinmektedir. DeepSeek, Hangzhou kentinde bulunan ve yüksek performanslı Nvidia A100 yongalarının bir stoğuna sahip olduğu bildirilen bir şirkettir. Ancak şirketin mühendislerinin, yeni DeepSeek-R1 adlı modeli eğitmek için bu yongaları kullanmış olabileceği önemli bir buluş olarak, start-up bu yongalar yerine çok daha düşük güçlü Nvidia H800 yongalarını kullandığını belirtti.

Plano Intelligence, Inc.’in CEO’su Ashlesha Nesarikar, “Şimdiye kadar büyük teknoloji şirketlerinin yapay zeka alanında başarısı, ne kadar para topladıklarıyla ölçüldü, teknolojinin aslında ne olduğu değil,” diyor. “Sanırım artık bu şirketlerin farklı ürünlerinde hangi teknolojinin yattığına daha fazla dikkat edeceğiz.”

Derin Ara’nın 6 milyon dolarlık rakamı, Nesarikar’a göre, bir LLM’nin sıfırdan inşa maliyetini yansıtmıyor; bu maliyet muhtemelen bu en son versiyonun ince ayarını temsil ediyor. Bununla birlikte, modelin artan enerji verimliliği, AI’nin daha fazla endüstride daha fazla insan için daha erişilebilir hale gelmesini sağlayacak. Enerji verimliliğindeki artış, bir LLM ile yeni veri üretmenin hesaplama maliyetinin tipik bir arama motoru sorgusundan dört ila beş kat daha yüksek olduğu AI’nin çevresel etkisi açısından iyi haber olabilir.

Derin Ara, Emory Üniversitesi Bilgi Sistemleri ve İşletme Yönetimi’nde gelen yardımcı doçent olan Hanchang Cao’ya göre, benzer rakiplerin çalıştırma maliyetinin onda biri olan Derin Ara-R1’in maliyetinin bu fark, akademik araştırmacılar veya start-up’lar için gerçekten önemli anlamına geliyor.

Derin Ara’nın etkinliğini başka birçok yolla başardığını belirten Why Machines Learn: The Elegant Math Behind Modern AI kitabının yazarı Anil Ananthaswamy, modelin eğitim sırasında öğrendiği değişkenler olan 670 milyar parametresi olduğunu açıklıyor ve bu, şimdiye kadar yapılmış en büyük açık kaynaklı büyük dil modelidir. Ancak model, sadece herhangi bir sorgu için yüz milyarlarca değil, yalnızca uygun bir kesimi etkinleştiren bir mimari olan “uzmanların karışımını” kullanır. Bu, hesaplama maliyetlerini azaltır. Derin Ara LLM, aynı zamanda çoklu başlık gizli dikkat adı verilen bir yöntem kullanır; kelime kelime bir cevap tahmin etmek yerine aynı anda birden fazla kelime üretir.

Modelin önemli bir başka yönü de şirketin ürünün ardındaki kodu açık kaynak haline getirmesi, Anasthaswamy diyor. (Eğitim verisi gizlidir.) Bu, şirketin iddialarının kontrol edilebilir olması anlamına gelir. Eğer model, Derin Ara’nın iddia ettiği gibi hesaplama verimliyse, bu muhtemelen AI’ı çalışmalarında daha hızlı ve ucuz bir şekilde kullanan araştırmacılar için yeni olanaklar açacaktır. Ayrıca, LLM’lerin iç işleyişleri üzerine daha fazla araştırmaya imkan tanıyacaktır.

“Bu büyük bir şeylerden biri, akademi ile endüstri arasında açılan bir boşluk olmuştu çünkü akademi, gerçekten büyük modellerle çalışamıyor ya da araştırma yapamıyordu,” diyor Anasthaswamy. “Ancak buna benzer bir şey, çünkü kodunuz var, artık akademi için ulaşılabilir bir durumda.”