LLM Veri İşleme: Tokenlar, Embeddingler, Sıcaklık, Halüsinasyon
LLMTokenEmbeddingsTemperatureHalüsinasyonAI İşleme
Veri İşleme ve Çıktı Üretimi
Bu terimler, kullanıcı ile model arasındaki etkileşimde sıkça karşımıza çıkar.
Tokens (Tokenlar)
Modeller metinleri kelime kelime değil, "token" denilen küçük parçalar halinde okur. Genelde 1000 token yaklaşık 750 kelimeye denk gelir. LLM hesaplama maliyetinin birimidir.
Embeddings (Gömlemeler)
Kelimelerin veya cümlelerin, bilgisayarın anlayabileceği sayısal vektörlere dönüştürülmüş halidir. Anlamsal olarak benzer kelimeler, vektör uzayında birbirine yakın konumlanır.
- Uygulama: Embeddingler "Anlamsal Arama" (Semantic Search) yapılmasını sağlar. ZMA gibi bir sistemde geçmiş alarm kayıtları arasında sadece anahtar kelimeyle değil, anlama dayalı (örneğin "aşırı ısınma vakaları" diye aratıp "yüksek sıcaklık" kayıtlarını bulmak) arama yapmak için kullanılabilir.
Temperature (Sıcaklık)
Modelin çıktılarındaki yaratıcılık veya rastgelelik ayarıdır.
- Düşük (0.1): Daha tutarlı, mantıklı ve deterministik. Kod veya teknik veri için uygundur.
- Yüksek (0.8+): Daha yaratıcı ve beklenmedik cevaplar üretir. Beyin fırtinası için iyidir.
Hallucination (Halüsinasyon)
Modelin gerçekte olmayan bilgileri son derece emin bir dille uydurması durumudur.
- Uyarı: Endüstriyel ortamlarda halüsinasyonu minimize etmek kritiktir. GDT Dijital Transmitter verilerini yorumlayan bir yapay zeka sistemi, yanlış arıza raporlamaktan kaçınmak için (genellikle RAG kullanılarak) verilere sıkı sıkıya bağlı kalmalıdır.