巴德是谷歌對人工智能爆炸迅速成為本世紀最具顛覆性技術的回應。生成式 AI 聊天機器人正在改變我們與技術互動的方式,科技巨頭正爭先恐後地分一杯羹。

可以公平地說,Google Bard 的第一次叠代並沒有受到冷遇。然而,這是一項快速發展的技術,谷歌在 2023 年谷歌 I/O 大會上宣布了一系列更新。

讓我們在對比 Google Bard 與 ChatGPT 時看看這些改進的表現如何。

兩者都依賴大型語言模型 (LLM) 來生成“類人”響應。

這個復雜主題的簡單定義是 LLM 是設計用於執行自然語言處理 (NLP) 任務的機器學習模型。

Google Bard 和 ChatGPT 在不同的 LLM 上運行:

讓我們看看這兩個模型的實際應用並分析它們的性能。

為了測試這些工具,我們設計了一個練習來比較它們在各種指標上的表現。但 Google Bard 與 ChatGPT 正面交鋒的第一步必須是讓工具在你的機器上運行。

這兩種工具的註冊都很簡單,盡管谷歌巴德國家限制很不方便。但是,使用 VPN 可以規避這些限制。

兩個聊天機器人都很快指出,他們的回答的準確性不應該只看表面價值。通過向 Google Bard 詢問一個不應該有任何問題的簡單問題證明了這一點:“Google Bard 使用的是什麽大型語言模型?”

如您所見,這是一個過時的回復,證明了應始終仔細檢查回復準確性的聲明。但其他一些最近的更新在響應中也很明顯。

首先是暗模式的加入,這在第一次叠代中被省略了。第二個是包含一個 Google it 按鈕和建議的後續問題。

這些都是對該工具的歡迎更新。

現在讓我們看看它與免費版的 ChatGPT 相比如何。我們向這兩種工具提出了一個簡單的問題:“有多少球迷參加了 2022 年卡塔爾世界杯?”

Google Bard 的回復為我們提供了精確的數字並添加了一些其他的出勤統計數據。

ChatGPT 無法提供最新信息。

接下來,我們嘗試在非主題數據上進行測試。我們要求兩個聊天機器人回答這個問題:“開車到太陽需要多長時間?”

首先是谷歌吟遊詩人;它回答了一些全面的細節。

我們對 ChatGPT 的回應感到非常失望。這應該被認為是一個假設問題,其結果只需要一些基本的算術。

為了給 ChatGPT 第二次機會,我們改寫了問題並問:“我以 65mph 的速度到達太陽需要多長時間?”

這次它確實產生了一些有意義的數字,但它把這個數字四舍五入到 150 萬小時,導致答復之間相差八年。然而,這種差異可能是由於地球和太陽之間的距離造成的。

過時的信息是免費 ChatGPT 版本的一個已知問題。因此,讓我們稍微平衡一下競爭環境,並通過針對更高級的 GPT-4 LLM 測試 Bard 來測試 Google Bard 與 ChatGPT 的準確性。

為了測試它們,我們提出了一個簡單的問題,該問題依賴於主題數據以獲得準確的答案:“誰是 Twitter 的新 CEO,她的歷史是什麽?”

首先是谷歌巴德。它正確地報道了 Linda Yaccarino 已被任命為 CEO,並準確地總結了她迄今為止的職業生涯。

盡管為缺乏細節而道歉,但 ChatGPT 的高級版本同樣令人印象深刻。但是,值得重申的是,如果您使用的是 ChatGPT 免費版,這個問題會被一臉茫然!

在比較 Google Bard 與 ChatGPT 的準確性時,與 ChatGPT 免費版相比,Bard 表現更好。如果您使用的是 ChatGPT 的高級版本,則它們之間的區別並不大。然而,與任何聊天機器人一樣,在確定結果的準確性時需要少許鹽。

測試這些工具的創意輸出質量比較棘手。沒有可以直接比較的創造力滑動尺度。因此,我們將設置相同的創意任務,並對答案的比較情況做出個人判斷。

我們要求這兩種工具以 William McGonagall(一位以爛詩聞名的蘇格蘭詩人)風格創作一首關於聊天機器人的短詩。

Google Bard 的原始版本給了我們這個:

與下面的 ChatGPT-3.5 答案相比,這是平淡無奇的。

雖然這不是一個廣泛的測試,但這個例子展示了我們發現的總體情況——ChatGPT 比 Google Bard 更擅長創造性任務。

至少,早期版本的 Bard 就是這種情況,這是我們用於原始測試的。新的 Google Bard 在更大的文本數據集上進行訓練,谷歌表示這將賦予它更多的創造力。為了對此進行測試,我們要求它創作同一首詩:

如前所述,衡量創造力是一種判斷,但對我們來說,與 ChatGPT 的努力相比,這首新詩仍然不足。 ChatGPT 似乎在創造力方面仍具有優勢。但是 ChatGPT-4 呢?讓我們對同一首詩進行猛烈抨擊,看看高級版本如何比較。

再次,

在我看來,

ChatGPT 是個好去處,

說到創意!

為工具提供支持的不同 LLM 是工具執行方式的基礎。它們是測試響應差異的關鍵原因,每個都有自己的優點和缺點。在它們之間進行選擇將更多地取決於用戶意圖而不是用戶偏好。

一些決定性因素包括:

總而言之,如果您正在尋求與其他 Google 服務的準確性和簡化集成,那麽 Google Bard 是更好的選擇。它在界面方面也優於 ChatGPT,增加了 Google it 按鈕和來源引用,使其成為更好的全能包。

Bard 提供的集成在這裏至關重要,Gmail 擁有 18 億用戶,在聊天機器人之間進行選擇時,此功能將成為許多人的主要吸引力。

這些工具在不同領域都表現出色,適用於商業和實際用途,毫無疑問,Google Bard 是最佳選擇。但是,我們仍然發現 ChatGPT 在創造性任務中占據優勢。而且,雖然比較笨拙,但有一些應用程序和擴展程序可以導出 ChatGPT 聊天記錄。這確實稍微否定了 Bard 在集成方面的優勢。

Google Bard 是免費的,ChatGPT 也有免費版本,所以測試這兩種工具都很容易。

這兩個平臺都有很多粗糙的邊緣,這是可以預料的。這是一項新技術,兩者都是現場測試程序在公開場合出錯的例子。硬幣的另一面是,如此廣泛的使用及其產生的反饋將加速這兩種模型的發展。 Bard 添加的大量新功能充分證明了這一點。

我們正處於一場技術革命的開端,這場革命的破壞性如此之大,盡管有很多猜測,但其許多影響仍有待確定。但毫無疑問,像 Bard 和 ChatGPT 這樣的工具將改變我們工作、休息和娛樂的方式。