DeepSeek ve Peking Üniversitesi tarafından geliştirilen Engram prosedürü, büyük lisan modellerinde bellek ve hesaplama süreçlerini ayırarak performansı artırmayı ve donanım maliyetlerini düşürmeyi hedefliyor.
DeepSeek, Peking Üniversitesi iş birliğiyle Engram ismini verdiği yeni bir yapay zekâ eğitim sistemini tanıttı. Bu yaklaşım, bellek depolama ile hesaplama süreçlerini birbirinden ayırarak, büyük lisan modellerinde uzun müddettir yaşanan performans ve maliyet problemlerine tahlil getirmeyi hedefliyor.
Büyük lisan modellerinde bellek darboğazı
Geleneksel büyük lisan modelleri, bilgiye erişim ve temel hesaplamalar için yüksek bant genişliğine sahip belleklere muhtaçlık duyuyor. Lakin bu durum, hem sistem performansını sınırlıyor hem de donanım maliyetlerini önemli halde artırıyor.
Yüksek bant genişlikli bellek (HBM) gereksiniminin süratle artması, kısa müddette DRAM fiyatlarının yaklaşık 10 haftada 5 katına çıkmasının temel nedenlerinden biri olarak gösteriliyor. Donanım talebindeki bu ani yükseliş, bilhassa büyük ölçekli yapay zekâ projelerini güç durumda bırakıyor.
Gereksiz süreçler, kaybolan potansiyel
Araştırmacılara nazaran mevcut modeller, hesaplama derinliğinin büyük kısmını kolay ve tekrarlayan süreçlere harcıyor. Halbuki bu kaynaklar, daha üst seviye akıl yürütme yeteneklerini desteklemek için kullanılabilir.
Engram, bu noktada devreye girerek modelin temel bilgileri GPU belleğini doldurmadan süratlice “bulup çıkarmasını” sağlıyor. Böylelikle bellek kapasitesi, daha karmaşık çıkarım ve tahlil misyonları için hür bırakılıyor.
Nasıl çalışıyor?
Engram, bilgiye erişimi hash’lenmiş N-gramlar üzerinden gerçekleştiriyor. Bu sayede bellek erişimi, modelin anlık bağlamından bağımsız hâle geliyor ve daha kararlı bir yapı sunuyor.
Elde edilen bilgiler, modelin bâtın durumu ile uyumlu olacak biçimde bağlam farkındalığına sahip bir kapılama (gating) düzeneği ile ayarlanıyor. Bu mimari, uzun bağlamlı girdilerin daha verimli işlenmesini sağlarken, sistem düzeyinde evvelce yükleme (prefetching) takviyesini de en az performans kaybıyla mümkün kılıyor.
Test sonuçları ne gösteriyor?
Engram yolu, 27 milyar parametreli bir model üzerinde test edildi ve kesimde yaygın olarak kullanılan kıyaslama testlerinde ölçülebilir performans artışları sağladı.
Yöntem, Phison’ın yapay zekâ çıkarım hızlandırıcıları üzere donanım dostu tahlillerle birlikte çalışabiliyor. Statik bilgilerin süratli bellek yerine sorgulama yoluyla elde edilmesi, yüksek süratli belleğe olan gereksinimi kıymetli ölçüde azaltıyor.
SSD ve CXL ile genişleyebilen bellek yapısı
Phison’ın sunduğu SSD tabanlı bellek genişletme tahlilleri, Engram yahut Mixture-of-Experts (MoE) üzere büyük yapay zekâ sistemlerinin toplam bellek kapasitesini daha düşük maliyetle artırmayı mümkün kılıyor.
Bu yaklaşım, birebir vakitte GPU bellek darboğazlarını aşmayı hedefleyen CXL (Compute Express Link) standartlarıyla da uyumlu çalışıyor. Sonuç olarak sistemler, süratli belleği daha verimli kullanırken toplam bellek kapasitesini ekonomik biçimde büyütebiliyor.
Hesaplama maliyeti artmadan daha güçlü modeller
Engram, statik örüntü depolamayı dinamik hesaplamadan ayırarak Transformer mimarisini, ek FLOP yahut parametre artışı olmadan güçlendiriyor. DeepSeek, bu yapı için MoE hesaplama modülü ile Engram bellek modülü ortasındaki parametre dağılımını optimize eden U biçiminde bir genişleme kuralı da tanımladı.
Testler, seyrek parametre bütçesinin yaklaşık %20–25’inin Engram’a ayrılmasının, sadece MoE kullanan modellere kıyasla daha düzgün ve ölçeklenebilir sonuçlar verdiğini gösteriyor.
Çoklu GPU ve ölçeklenebilir bellek avantajı
Engram’ın deterministik bilgi erişim sistemi, bellek kapasitesinin birden fazla GPU ortasında doğrusal halde ölçeklenmesini sağlıyor. Çıkarım sırasında asenkron evvelden yükleme takviyesi sunan sistem, alt katmanlardaki statik bilgi yükünü azaltarak dikkat sistemlerinin global bağlama odaklanmasına imkan tanıyor.
Sık kullanılan gömülü temsiller için uygulanan hiyerarşik önbellekleme, mevcut GPU ve sistem bellek mimarileriyle uyumlu çalışarak kıymetli HBM yükseltmelerine olan gereksinimi azaltabilir.
Donanım maliyetlerine dolaylı etki
Bu yaklaşımın, bilhassa HBM erişimi Samsung, SK Hynix ve Micron üzere üreticilere kıyasla daha sonlu olan Çin üzere bölgelerde, kıymetli bellek donanımlarına olan baskıyı azaltabileceği belirtiliyor.
Erken doğrulama sonuçları, Engram sayesinde modellerin parametre ölçeğini ve akıl yürütme kapasitesini artırırken bellek muhtaçlığının daha istikrarlı yönetilebildiğini ortaya koyuyor. Bu da uzun vadede DDR5 DRAM fiyatlarındaki ani dalgalanmaların önüne geçilmesine katkı sağlayabilir.
Kaynak: Chip

COMMENTS