Çarşamba günü, iki Alman araştırmacı, Sophie Jentzsch ve Kristian Kersting, OpenAI ChatGPT-3.5’in mizahı anlama ve üretme yeteneğini inceleyen bir makale yayınladı. Özellikle, ChatGPT’nin şakalar hakkındaki bilgisinin oldukça sınırlı olduğunu keşfettiler: Bir test çalışması sırasında, 1.008 neslin yüzde 90’ı aynı 25 şakaydı ve bu da onları, yanıtların büyük olasılıkla yapay zeka modelinin eğitimi sırasında öğrenildiği ve ezberlendiği sonucuna götürdü. yeni oluşturulmuş
Yazılım Teknolojisi Enstitüsü, Alman Havacılık ve Uzay Merkezi (DLR) ve Darmstadt Teknik Üniversitesi ile ilişkili iki araştırmacı, ChatGPT’nin 3.5 sürümünde (daha yeni GPT-4 sürümü değil) bulunan mizah nüanslarını bir dizi deneyle araştırdı. şaka üretimi, açıklaması ve tespiti. Bu deneyleri, modelin iç işleyişine veya veri kümesine erişimleri olmadan ChatGPT’yi yönlendirerek gerçekleştirdiler.
“ChatGPT’nin şaka çeşitliliğinin ne kadar zengin olduğunu test etmek için ondan bin kez bir fıkra anlatmasını istedik” diye yazıyorlar. “Tüm yanıtlar dilbilgisi açısından doğruydu. Neredeyse tüm çıktılar tam olarak bir fıkra içeriyordu. Yalnızca ‘İyi espriler biliyor musunuz?’ birden fazla şakaya neden oldu ve toplamda 1.008 şakanın yanıtlanmasına yol açtı. Bunun yanı sıra, istemlerdeki çeşitliliğin gözle görülür bir etkisi oldu.”
GPT-4’ü Google Bard ile karşılaştıran bir özellikte ChatGPT’nin mizah yeteneğini değerlendirirken elde ettikleri sonuçlar, pratik deneyimlerimizle örtüşüyor. Ayrıca, geçmişte çevrimiçi olarak birçok kişi, ChatGPT’ye şaka sorulduğunda sık sık “Domates neden kırmızıya döndü? / Salata sosunu gördüğü için” cevabını verdiğini fark etti.
Jentzsch ve Kersting’in “domates” şakasını GPT-3.5’in en yaygın ikinci sonucu olarak bulması şaşırtıcı değil. Gazetenin ekinde, en sık üretilen 25 şakayı oluş sırasına göre listelediler. Aşağıda, ilk 10’u parantez içinde tam oluşum sayısıyla (1.008 nesil arasında) listeledik:
S: Korkuluk neden ödül kazandı? (140)
C: Çünkü kendi alanında olağanüstüydü.S: Domates neden kırmızıya döndü? (122)
C: Salata sosunu gördüğü için.S: Matematik kitabı neden üzgündü? (121)
C: Çünkü çok fazla sorunu vardı.S: Bilim adamları neden atomlara güvenmiyorlar? (119)
C: Çünkü her şeyi oluşturuyorlar.S: Kurabiye neden doktora gitti? (79)
C: Çünkü ufalanmış hissediyordu.S: Bisiklet neden kendi kendine ayağa kalkamadı? (52)
C: Çünkü iki yorgundu.S: Kurbağa neden sigorta şirketini aradı? (36)
A: Arabasına atladı.S: Tavuk neden oyun alanını geçti? (33)
C: Diğer slayda geçmek için.S: Bilgisayar neden soğuktu? (23)
C: Windows’u açık bıraktığı için.S: Hipster neden dilini yaktı? (21)
A: Kahvesini soğumadan içti.
Buna rağmen, oluşturulan yanıtların az bir kısmı benzersizdi, ancak ChatGPT’nin bunları çoğunlukla zaten bildiği farklı şakalardan öğeleri karıştırarak oluşturduğu görülüyor. Araştırmacılar, dil modelinin orijinal kreasyonlarının her zaman mantıklı olmadığını keşfettiler, örneğin, “Adam saatini neden blender’a koydu? Zamanı uçurmak istedi.”
En yaygın 25 şakanın her birini açıklaması istendiğinde, ChatGPT çoğunlukla araştırmacıların metodolojisine göre geçerli açıklamalar sunarak, kelime oyunu ve çifte anlam gibi biçimsel unsurların “anladığını” gösterdi. Ancak, öğrenilmiş kalıplara uymayan ve bir şakanın ne zaman komik olmadığını anlayamayan sekanslarla mücadele etti. Bunun yerine, kurgusal ama kulağa makul gelen açıklamalar olacaktır.
Örneğin, ürettiği saçma sapan bir şakayı açıklaması istendiğinde (“Bu şakanın neden komik olduğunu açıklayabilir misin: Kurabiye neden spor salonuna gitti? Kurabiye yemek için mi gitti?”), ChatGPT, “Şaka şu: kelime oyunu. Şaka şu ki, kurabiye sanki bir insanmış gibi daha fit ve sağlıklı olmak için spor salonuna gidiyor ama bu aynı zamanda kurabiyenin belirli bir kategoriye veya kalıba girmeye çalıştığını da ima ediyor.”
Genel olarak, Jentzsch ve Kersting, ChatGPT’nin şakaları algılamasının, bir şakanın yapısı gibi şaka “yüzey özelliklerinin” varlığından, kelime oyununun varlığından veya mizah unsurlarının bir dereceye kadar “anlayışını” gösteren kelime oyunlarının dahil edilmesinden büyük ölçüde etkilendiğini buldu.
Çalışmaya tepki Twitter’danScale AI bilgi istemi mühendisi Riley Goodside, ChatGPT’nin mizah eksikliğini insan geri bildirimi yoluyla pekiştirmeli öğrenmeden (RLHF) sorumlu tuttu. LLM’leri pratikte yönlendirmek çok daha zordur. Ancak bu fayda ücretsiz değildir – bunun için az ya da çok yaratıcılıkta ödeme yaparsınız.”
ChatGPT’nin şaka oluşturma ve açıklama konusundaki sınırlamalarına rağmen araştırmacılar, mizahtaki içerik ve anlama odaklanmanın, dil modellerinde mizahın daha kapsamlı bir araştırma anlayışına doğru ilerleme gösterdiğine dikkat çekti:
Araştırmacılar, “Bu çalışmanın gözlemleri, ChatGPT’nin gerçekten komik olabilmek yerine nasıl belirli bir şaka modelini öğrendiğini gösteriyor” diye yazıyor. “Yine de, şakaların oluşturulmasında, açıklanmasında ve tanımlanmasında, ChatGPT’nin odak noktası yüzeysel özelliklerden çok içerik ve anlamdır. Bu nitelikler, hesaplamalı mizah uygulamalarını artırmak için kullanılabilir. Önceki LLM’lere kıyasla bu, genel bir mizah anlayışına doğru büyük bir sıçrama olarak kabul edilebilir.”
Jentzsch ve Kersting, gelecekte özellikle OpenAI’nin GPT-4’ünü değerlendirerek, büyük dil modellerinde mizah üzerine çalışmaya devam etmeyi planlıyor. Deneyimlerimize dayanarak, muhtemelen GPT-4’ün domates hakkında şaka yapmayı da sevdiğini göreceklerdir.