Büyük Dil Modelleri Dili Nasıl Anlar? Temel Kavramlar ve Mekanizmalar

Giriş
Büyük Dil Modelleri (Large Language Models – LLM), insan diliyle kurulan etkileşimlerin arkasında yer alan temel yapay zekâ mimarileridir. Bu modellerin genel yapısı ve iş dünyasındaki kullanım alanları ile ilgili içeriğe buradan ulaşabilirsiniz: Modern Yapay Zekânın Temeli: Büyük Dil Modelleri
Bu yazı ise, büyük dil modellerinin dili nasıl işlediğine odaklanarak, bu etkileşimin arkasında yer alan aşağıdaki temel kavramları ve mekanizmaları açıklamayı amaçlamaktadır:
- Tokenization (Metni Parçalara Ayırma)
- Embedding (Vektör Temsilleri)
- Context Window (Bağlam Penceresi)
- Olasılıksal Dil Modelleme
- Sequence Prediction (Dizi Tahmini)
- Sampling Strategies (Sözcük Seçme Yöntemleri)
Bu kavramlar, büyük dil modellerinin dili tek tek kelimeler üzerinden değil; bağlam, olasılık ve ilişki ağları üzerinden nasıl işlediğini anlamak için birlikte değerlendirilmelidir. Her biri, modelin metni algılama, anlamlandırma ve üretme sürecinde farklı bir rol üstlenir. Aşağıdaki bölümlerde, bu mekanizmaları aşamalı ve bütüncül bir çerçevede ele alacağız.
1. Tokenization (Metni Parçalara Ayırma)
Büyük dil modelleri metni, insanların algıladığı biçimiyle kelime bütünleri olarak işlemez. Bunun yerine metni, token (belirteç) adı verilen, modelin işleyebileceği en küçük hesaplama birimlerine ayırır.
Bir token:
- tek bir kelime olabilir (“otomasyon”),
- bir kelimenin parçası olabilir (“oto” + “masyon”),
- ya da bir noktalama işareti (“.”, “,”).
Bu işlem genellikle alt kelime (subword) tokenization yöntemleriyle gerçekleştirilir. En yaygın yaklaşımlar arasında:
- Byte Pair Encoding (BPE): Sık tekrar eden karakter veya alt kelime çiftlerini birleştirerek token’lar oluşturur.
- SentencePiece: Kelime sınırlarına bağlı kalmadan, BPE veya Unigram Language Model (Unigram LM) gibi algoritmaları uygulayabilen bir tokenization aracıdır.
Unigram LM, olasılık temelli bir yaklaşımla, bir metni mümkün olan tüm parçalama biçimleri arasından toplam olasılığı en yüksek olan şekilde böler. Dil bağımsız yapısı sayesinde özellikle çok dilli modellerde yaygın olarak kullanılır.
Örnek:
Cümle: “Veri analizi iş kararlarını geliştirir.”
Token’lar: ["Veri", "analizi", "iş", "kararlarını", "geliştirir", "."]
Türkçe’nin eklemeli yapısı nedeniyle “kararlarını” gibi kelimeler bazen tek bir token olarak, bazen de “karar” + “larını” şeklinde alt parçalara bölünebilir. Bu durum, modelin hem kelime köklerini hem de eklerden gelen anlam ilişkilerini öğrenmesini sağlar.
2. Embedding (Vektör Temsilleri)
Token’lar, modelin matematiksel olarak işleyebilmesi için embedding adı verilen sayısal vektör temsillerine dönüştürülür. Her token, sabit boyutlu ve çok boyutlu bir vektör uzayında bir konuma yerleştirilir.
Bu uzayda:
- Anlamca benzer kullanımlar birbirine yakın,
- Anlamca uzak kavramlar ise daha uzak konumlanır.
Modern büyük dil modellerinde embedding’ler bağlama duyarlıdır. Yani aynı token, farklı cümlelerde farklı vektör temsillerine sahip olabilir.
Örnek:
"Prim" kelimesi;
- maaş bağlamında finansal bir ödül kavramına,
- sigorta bağlamında ise farklı bir risk veya ödeme yapısına yakın bir konumda temsil edilir.
Neden önemli?
Embedding’ler sayesinde model, birebir kelime eşleşmesine ihtiyaç duymadan anlam benzerliklerini yakalayabilir. Bu da daha esnek ve bağlama uygun çıktılar üretmesini sağlar.
3. Context Window (Bağlam Penceresi)
Context window, modelin aynı anda değerlendirebildiği maksimum token miktarını ifade eder. Bu sınır, modelin tek seferde ne kadar metni dikkate alabileceğini belirler.
Güncel büyük dil modelleri, on binlerce hatta yüz binlerce token uzunluğundaki bağlamlarla çalışabilmektedir. Ancak bu pencere sınırlıdır ve modelin kendi başına kalıcı bir hafızası bulunmaz.
Uzun diyaloglar veya belgelerle çalışırken, bağlamın yönetimi genellikle uygulama seviyesinde tasarlanan sistemlerle sağlanır. Bu sistemlerde eski içerikler özetlenebilir, kritik bilgiler kısa biçimde yeniden bağlama eklenebilir. Bu yaklaşım, pratikte özetleme tabanlı bağlam yönetimi (rolling summary) olarak adlandırılır.
Neden önemli?
- Uzun metinlerde bilgi kaybını azaltır
- Kritik tanımların ve sayısal verilerin korunmasına yardımcı olur
- Modelin daha tutarlı ve odaklı yanıtlar üretmesini sağlar
4. Olasılıksal Dil Modelleme ve İstatistiksel Kalıplar
Büyük dil modelleri dili “anlam” üzerinden değil, büyük ölçüde olasılıksal kalıplar üzerinden öğrenir. Eğitim sürecinde, milyarlarca metin örneği incelenir ve token’ların hangi bağlamlarda ne sıklıkla birlikte kullanıldığı istatistiksel olarak modellenir.
Metin üretimi sırasında model, her adımda:
- olası token’lar için olasılık değerleri hesaplar,
- bu değerleri mevcut bağlama göre değerlendirir.
Bu yaklaşım, modellerin daha önce görmedikleri ifadelerle de tutarlı çıktılar üretebilmesini sağlar. Ancak nadir durumlarda, eğitim verilerinde yer alan belirli ifadelerin aynen üretilmesi riski de bulunur. Bu nedenle kurumsal kullanım senaryolarında, çıktılar genellikle ek filtreleme ve insan denetimiyle kontrol edilir.
5. Sequence Prediction (Dizi Tahmini)
Büyük dil modelleri metni autoregressive (özyinelemeli tahmin) bir yaklaşımla üretir. Model, her adımda mevcut bağlamı dikkate alarak bir sonraki token için olası seçenekleri değerlendirir; seçilen token metne eklenir ve oluşan yeni metin bir sonraki tahmin adımının bağlamını oluşturur. Bu süreç, metnin doğal bir sonuna ulaşıldığında tamamlanır.
Örnek:
Prompt: “Yapay zekâ iş dünyasında…”
Model, bu ifadenin eğitim verilerinde sıklıkla “önemli bir rol oynamaktadır” gibi bir tamamlamayla devam ettiğini öğrenmiştir. Bu nedenle tek tek kelimeleri bağımsız olarak seçmek yerine, bağlama ve kullanım örüntülerine uygun anlamlı bir ifade bütününü tercih eder.
6. Sampling Strategies (Sözcük Seçme Yöntemleri)
Metin üretiminde hangi token’ın seçileceği, yalnızca olasılık değerlerine değil, kullanılan seçim stratejilerine de bağlıdır. Bu stratejiler, çıktının tutarlılığı ve çeşitliliği üzerinde doğrudan etkilidir.
- Greedy Search: Her adımda en yüksek olasılıklı token seçilir.
- Avantaj: Tutarlı
- Dezavantaj: Tahmin edilebilir
- Temperature: Olasılık dağılımının ne kadar keskin veya yaygın olacağını belirler.
- Düşük değerler: Daha öngörülebilir çıktılar
- Yüksek değerler: Daha yaratıcı sonuçlar
- Top-k Sampling: Sadece en olası k token arasından seçim yapılır.
- Top-p (Nucleus Sampling): Toplam olasılığı belirli bir eşiğe ulaşan en küçük aday kümesi oluşturulur.
Bu yöntemler, bağlama ve kullanım amacına göre birlikte de uygulanabilir.
7. Dil Anlamada Zorluklar ve İncelikler
Dil, doğası gereği belirsizlikler içerir. Büyük dil modelleri de bu belirsizliklerle başa çıkmaya çalışır:
- Çokanlamlılık: Aynı kelimenin farklı bağlamlarda farklı anlamlar taşıması
- Deyimler ve mecazlar: Kelimelerin gerçek anlamlarının ötesinde kullanımı
- Bağlamsal belirsizlik: Eksik veya muğlak ifadeler
- Zamir çözümleme: “O”, “bu”, “şu” gibi ifadelerin hangi özneyi işaret ettiğinin belirlenmesi
Bu tür durumlarda model, bağlama uygun görünen ancak gerçekte hatalı veya uydurma çıktılar üretebilir. Bu nedenle özellikle iş dünyasında, çıktılar insan gözetimiyle değerlendirilmelidir.
8. İş Dünyası İçin Neden Önemli?
Bu mekanizmaları anlamak, kurumların büyük dil modellerini mutlak doğrular üreten sistemler değil, olasılık temelli karar destek araçları olarak konumlandırmasını sağlar.
Bu yaklaşım:
- Daha net ve etkili prompt’lar yazmayı
- Kritik bilgileri bağlam içinde tutmayı
- Çıktıları bilinçli şekilde doğrulamayı
kolaylaştırır.
Uygulama alanları:
- İnsan kaynakları: Dengeli ve kapsayıcı iş ilanları
- Uyum: Kurum içi politika metinlerinde ana başlıkların ve temel kavramların gözden geçirilmesi
- Müşteri hizmetleri: Tutarlı ve çok dilli yanıt üretimi
Sonraki Bölüm: Büyük Dil Modelleri Nasıl Eğitilir?
Serinin bir sonraki yazısında, bu temel mekanizmaların modeller tarafından nasıl öğrenildiğini inceleyeceğiz. Büyük dil modellerinin eğitim süreci, kullanılan veri türleri, ölçekleme yaklaşımları ve insan geri bildiriminin rolü bu kapsamda ele alınacaktır.
Günden güne hayatımızın her alanında daha fazla yer bulan bu sistemleri anlamak, onları sorumlu ve etkili biçimde kullanmanın temelini oluşturur.
Bilgilendirme Metni!