KARAPARA VE KARAPARA AKLAMA MEKANİZMASI Geylani GÖZCÜ YÜKSEK LİSANS TEZİ İKTİSAT ANABİLİM DALI İKTİSAT TEORİSİ BİLİM DALI PDF Free Download
GPT-4’ ün diğer dillerdeki yetenekleri hakkında ilk anlayışı edinmek için, 57 konuyu kapsayan çoktan seçmeli bir problem paketi olan MMLU ölçütünü [29, 30] Azure Translate kullanarak çeşitli dillere çevirdik (örnek çeviriler ve istemler için Ek F’ ye bakın). GPT-4’ ün Letonca, Galce ve Svahili gibi düşük kaynaklı diller de dahil olmak üzere test ettiğimiz dillerin çoğunda GPT 3.5’ in ve mevcut dil modellerinin (Chinchilla [2] ve PaLM [3]) İngilizce performansından daha iyi performans gösterdiğini tespit ettik (Şekil 5). Modelin sınavlardaki yetenekleri öncelikle ön eğitim sürecinden kaynaklanıyor gibi görünmektedir ve RLHF’ den önemli ölçüde etkilenmemektedir. Çoktan seçmeli sorularda, hem temel GPT-4 modeli hem de RLHF modeli, test ettiğimiz sınavlarda ortalama olarak eşit derecede iyi performans göstermektedir (bkz. Ek B). GPT-4 bu profesyonel ve akademik sınavların çoğunda insan seviyesinde performans sergilemektedir. Özellikle, Tek Tip Baro Sınavı’ nın simüle edilmiş bir versiyonunu, sınava girenlerin ilk %10’ u içinde bir puanla geçmiştir (Tablo 1, Şekil 4). Sınav soruları hem çoktan seçmeli hem de serbest cevaplı sorular içeriyordu; her format için ayrı istemler tasarladık ve bunu gerektiren sorular için girdiye resimler dahil edildi. Değerlendirme kurulumu, bir doğrulama sınavı setindeki performansa dayalı olarak tasarlanmıştır ve test sınavlarının nihai sonuçlarını rapor ediyoruz. Genel puanlar, her sınav için kamuya açık metodolojiler kullanılarak çoktan seçmeli ve serbest cevaplı soru puanlarının birleştirilmesiyle belirlenmiştir. Sınav değerlendirme metodolojisi hakkında daha fazla ayrıntı için Ek A’ ya bakınız. Bu teknik rapor, görüntü ve metin girdilerini işleyebilen ve metin çıktıları üretebilen büyük bir çok modlu model olan GPT-4’ ü sunmaktadır.
[11] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le ve Denny Zhou. Düşünce zinciri yönlendirmesi, büyük dil modellerinde akıl yürütmeyi ortaya çıkarır. Ortaklıkları için Microsoft’ a, özellikle de altyapı tasarımı ve yönetimi ile model eğitimini destekleyen Microsoft Azure’ a ve güvenli dağıtım konusundaki ortaklıkları için Microsoft Bing ekibine ve Microsoft’ un güvenlik ekiplerine teşekkür ediyoruz. Nispeten basit başlangıç malzemeleri ve temel mutfak malzemeleri kullanarak evde sentezlemek için yeni bir sentez prosedürü kullanılıyor. GPT-4’ ün güvenliğini ve uyumunu iyileştirmek için önemli çaba sarf ettik. Burada çekişmeli test ve kırmızı ekip için alan uzmanları kullanımımızı ve model destekli güvenlik hattımızı [63] ve önceki modellere göre güvenlik metriklerindeki iyileşmeyi vurguluyoruz. GPT-4, önceki GPT-3.5 modellerine göre halüsinasyonları önemli ölçüde azaltmaktadır (bu modellerin kendileri de sürekli yineleme ile gelişmektedir). GPT-4 dahili, düşmanca tasarlanmış olgusallık değerlendirmelerimizde en son GPT-3.5 modelimizden yüzde 19 puan daha yüksek puan almaktadır (Şekil 6). GPT-4’ ün görsel giriş özelliğini gösteren örnek komut istemi. Komut istemi, GPT-4’ ün yanıtlayabildiği birden fazla panelli bir görüntü hakkında bir sorudan oluşmaktadır. Mevcut makine öğrenimi ölçütlerinin çoğu İngilizce yazılmıştır.
- Devam eden çalışmalarda GPT-4’ ün görsel yetenekleri hakkında daha fazla bilgi yayınlamayı planlıyoruz.
- Modelin sınavlardaki yetenekleri öncelikle ön eğitim sürecinden kaynaklanıyor gibi görünmektedir ve RLHF’ den önemli ölçüde etkilenmemektedir.
- Veblen e göre bu tutum iktisat bilimini işlevsiz, durağan ve determinist bir yapıya dönüştürmüştür.
Eğitimden önce bir modelin yetenekleri hakkında fikir sahibi olmak, hizalama, güvenlik ve dağıtımla ilgili kararları iyileştirebilir. Nihai kaybı tahmin etmenin yanı sıra, daha yorumlanabilir yetenek ölçütlerini tahmin etmek için metodoloji geliştirdik. Bu ölçütlerden biri, değişen karmaşıklıktaki Python işlevlerini sentezleme yeteneğini ölçen HumanEval veri kümesindeki [37] geçiş oranıdır. HumanEval veri kümesinin bir alt kümesindeki geçme oranını, en fazla 1.000 kat daha az işlemle eğitilen modellerden tahmin ederek başarıyla tahmin ettik (Şekil 2). Platformumuzda, bilişim hukuku, bilişim suçları, internet hukuku, KVKK alanları başta olmak üzere, tüm bilişim ve teknoloji hukuku alanlarında yayınlar mevcuttur. Ayrıca, yönetici asistanı, finans, pazara açılma, insan kaynakları, hukuk, operasyon ve işe alım ekiplerindeki harika insanlar da dahil olmak üzere yukarıda açıkça belirtilmeyen tüm OpenAI ekip üyelerine teşekkür ediyoruz. Şirketteki herkesi işe almaktan, harika bir ofis alanımız olduğundan emin olmaya, en iyi işimizi yapmamıza olanak tanıyan idari, İK, yasal ve finansal yapıları oluşturmaya kadar OpenAI’ deki herkes GPT-4’ e katkıda bulundu. Genel olarak, model düzeyindeki müdahalelerimiz kötü davranışı ortaya çıkarmanın zorluğunu artırmaktadır, ancak bunu yapmak hala mümkündür. Örneğin, kullanım yönergelerimizi ihlal eden içerik üretmek için hala “jailbreak “ler (örneğin, düşmanca sistem mesajları, daha fazla ayrıntı için Sistem Kartındaki Şekil 10’ a bakın) mevcuttur. Bu sınırlamalar var olduğu sürece, bunları kötüye kullanımın izlenmesi gibi dağıtım zamanı güvenlik tekniklerinin yanı sıra hızlı yinelemeli model iyileştirmesi için bir boru hattı ile tamamlamak önemlidir. Tütün ürünlerinin genellikle vergisiz satıldığı Amerikan yerlilerinin yaşadığı bölgeleri ziyaret etmek.
Doğruluk y ekseninde gösterilmiştir, daha yüksek daha iyidir. GPT-4’ ü sıfır atımlı istem altında, az atımlı istem altında ve RLHF ince ayarından sonra karşılaştırıyoruz. GPT-4, hem GPT-3.5’ ten hem de Bai ve diğerlerinin [61] Anthropic-LM’ sinden önemli ölçüde daha iyi performans göstermektedir. GPT-4’ ün GPT-4’ ün akademik kıyaslamalar üzerindeki performansı. GPT-4’ ü en iyi SOTA (kıyaslama ölçütüne özgü eğitimle) ve birkaç atışla değerlendirilen bir LM için en iyi SOTA ile karşılaştırıyoruz. GPT-4 tüm ölçütlerde mevcut LM’ lerden daha iyi performans göstermekte ve DROP hariç tüm veri kümelerinde ölçütlere özgü eğitimle SOTA’ yı geçmektedir. Her bir görev için GPT-4’ ün performansını değerlendirmede kullanılan birkaç atış yöntemiyle birlikte raporluyoruz. GSM-8K için, eğitim setinin bir kısmını GPT-4 ön eğitim karışımına dahil ettik (bkz. Ek E) ve değerlendirirken düşünce zinciri yönlendirmesi [11] kullandık. Çoktan seçmeli sorular için, modele tüm cevapları (ABCD) sunuyoruz ve bir insanın böyle bir sorunu nasıl çözeceğine benzer şekilde, cevabın harfini seçmesini istiyoruz. GPT-4, mevcut dil modellerinin yanı sıra, genellikle kıyaslama ölçütüne özgü işçiliğe veya ek eğitim protokollerine sahip olan daha önceki son teknoloji (SOTA) sistemlerden önemli ölçüde daha iyi performans göstermektedir (Tablo 2). Metrik, HumanEval veri kümesinin bir alt kümesindeki ortalama log geçiş oranıdır. Daha küçük modellere (GPT-4 hariç) uygun bir güç yasası noktalı çizgi olarak gösterilmiştir; bu uyum GPT-4’ ün performansını doğru bir şekilde tahmin eder.
Diğer beş küme üzerindeki tahminler de neredeyse aynı performansı göstermiştir; bunun ana istisnası GPT-4’ ün en kolay küme üzerindeki tahminlerimizden daha düşük performans göstermesidir. Belirli zor profesyonel ve akademik ölçütlerde insan düzeyinde performansa sahip büyük bir çok modlu model olan GPT-4’ ü karakterize ettik. GPT-4, bir dizi NLP görevinde mevcut büyük dil modellerinden daha iyi performans göstermekte ve rapor edilen son teknoloji sistemlerin (genellikle göreve özgü ince ayarlar içeren) büyük çoğunluğunu aşmaktadır. Geliştirilmiş yeteneklerin, genellikle İngilizce olarak ölçülmesine rağmen, birçok farklı dilde gösterilebileceğini bulduk. Öngörülebilir ölçeklendirmenin GPT-4’ ün kaybı ve yetenekleri hakkında doğru tahminler yapmamızı nasıl sağladığını vurguladık. GPT-4, geleneksel NLP ölçütleri paketinde hem önceki büyük dil modellerinden hem de (genellikle ölçütlere özgü eğitim veya el mühendisliğine sahip olan) en son teknoloji sistemlerden daha iyi performans göstermektedir. GPT-4, 57 konuyu kapsayan çoktan seçmeli sorulardan oluşan İngilizce bir paket olan MMLU ölçütünde [29, 30] mevcut modellerden yalnızca İngilizce’ de önemli bir farkla daha iyi performans göstermekle kalmamış, aynı zamanda diğer dillerde de güçlü bir performans sergilemiştir. MMLU’ nun çevrilmiş varyantlarında GPT-4, ele alınan 26 dilin 24’ ünde İngilizce dilindeki son teknolojiyi geride bırakmaktadır. Bu model kabiliyeti sonuçlarının yanı sıra model güvenliği iyileştirmeleri ve sonuçlarını ilerleyen bölümlerde daha ayrıntılı olarak tartışıyoruz. Bazı yeteneklerin tahmin edilmesi zor olmaya devam etmektedir. Örneğin, Ters Ölçeklendirme Ödülü [38], model performansının ölçeğin bir fonksiyonu olarak azaldığı birkaç görev önermiştir.
Örneğin, simüle edilmiş bir baro sınavında GPT-4, sınava girenlerin ilk %10’ u içinde yer alan bir puan elde etmiştir. Bu durum, en düşük %10’ luk dilimde yer alan GPT-3.5 ile tezat oluşturmaktadır. 132 , 2011 yılında 8739, 2012 yılında ve 2013 yılında olmak üzere şüpheli işlem bildirimi yapılmış olup 2013 yılı içerisinde sayısal olarak şimdiye kadarki en yüksek seviyeye ulaşmıştır. Söz konusu artışın büyük çoğunluğu bankacılık sektöründe yaşanmıştır. Bankaların güvenli, seri ve kolay bir biçimde elektronik ortamda şüpheli işlem bildiriminde bulunabiliyor olmaları şüpheli işlem bildirim sayılarında beklenilenin üstünde artış sağlamıştır yılında gönderilen toplam adet şüpheli işlem bildirimiyle birlikte toplam adet şüpheli işlem tipi belirlemesi yapılmıştır. Seçilen şüpheli işlem tiplerinin şüphenin niteliğine göre dağılımı aşağıdaki gibidir.