The Battle of Chatbot Giants: An Experimental Comparison of ChatGPT and Bard


Kabakuş A. T., Dogru İ.

Uluslararası Mühendislik Araştırma ve Geliştirme Dergisi, cilt.16, sa.2, ss.679-691, 2024 (Hakemli Dergi) identifier

Özet

Günümüzde, Yapay Zekanın (YZ) dahil olmadığı bir insan yaşam alanı bulmak zordur. YZ'deki son gelişmelerle birlikte, sohbet botları için değişim bir 'devrim' yerine bir 'evrim' şeklinde olmuştur. YZ destekli sohbet botları, insanlarla daha fazla değilse de aynı derecede işlevsel oldukları ve insanlardan farklı olarak 7/24 hizmet verebildikleri için müşteri hizmetlerinin ayrılmaz bir parçası haline gelmiştir. Erişime açık ve yaygın olarak kullanılan bazı YZ destekli sohbet botu vardır. Bu nedenle, "Hangisi daha iyi?" sorusu içgüdüsel olarak akla gelmekte ve aydınlatılması gerekmektedir. Bu sorudan yola çıkarak, bu çalışmada yaygın olarak kullanılan iki YZ destekli sohbet botunun, yani ChatGPT ve Bard'ın deneysel bir karşılaştırması önerilmiştir. Nicel bir karşılaştırma için, (i) 109 konudan 2.390 sorudan oluşan bir altın standart soru-cevap veri seti kullanılmış ve (ii) yeni bir cevap puanlama algoritması önerilmiştir. Kapsanan sohbet botları, önerilen algoritma kullanılarak veri seti üzerinde değerlendirilmiştir; böylece (i) üretilen cevap uzunluğu ve (ii) önerilen cevap puanlama algoritmasıyla elde edilen üretilen cevap doğruluğu ortaya çıkarılmıştır. Deneysel sonuçlara göre, (i) Bard, ChatGPT'ye kıyasla daha uzun cevaplar üretmiş ve (ii) Bard, ChatGPT'ye kıyasla gerçeğe daha yakın cevaplar sağlamıştır.
Nowadays, it is hard to find a part of human life that Artificial Intelligence (AI) has not been involved in. With the recent advances in AI, the change for chatbots has been an ‘evolution’ instead of a ‘revolution’. AI-powered chatbots have become an integral part of customer services as they are as functional as humans (if not more), and they can provide 24/7 service (unlike humans). There are several publicly available, widely used AI-powered chatbots. So, “Which one is better?” is a question that instinctively comes to mind and needs to shed light on. Motivated by the question, an experimental comparison of two widely used AI-powered chatbots, namely ChatGPT and Bard, was proposed in this study. For a quantitative comparison, (i) a gold standard QA dataset, which comprised 2,390 questions from 109 topics, was used and (ii) a novel answer-scoring algorithm based on cosine similarity was proposed. The covered chatbots were evaluated using the proposed algorithm on the dataset to reveal their (i) generated answer length and (ii) generated answer accuracy. According to the experimental results, (i) Bard generated lengthy answers compared to ChatGPT and (ii) Bard provided answers more similar to the ground truth compared to ChatGPT.