Claude與ChatGPT從一開始就走了不同的道路。

Claude 3超越GPT-4!擅長推理、數(shù)學(xué)、編碼,教育變革比想象中來得更快

2024-03-05 10:22:46發(fā)布     來源:多知網(wǎng)    作者:Penny  

  美國人工智能初創(chuàng)公司Anthropic 周一宣布,推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。這三種模型在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面成績(jī)亮眼,樹立了新的行業(yè)標(biāo)準(zhǔn)。

  Anthropic稱:“每個(gè)模型都顯示出在分析和預(yù)測(cè)、細(xì)致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對(duì)話方面的增強(qiáng)能力。”

  Anthropic稱,Opus在行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra,比如在推理、數(shù)學(xué)和編碼能力,接近人類的理解能力。

  Claude 3是多模態(tài)大模型,提供復(fù)雜視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。

  有網(wǎng)友評(píng)論,與Claude 3相比,GPT-4在編碼和數(shù)學(xué)方面就像是石器時(shí)代的舊技術(shù)。

  Claude 3可以應(yīng)用于需要高度智能和復(fù)雜任務(wù)處理的場(chǎng)景,如企業(yè)自動(dòng)化、復(fù)雜金融預(yù)測(cè)、研究和開發(fā)等。

  亞馬遜云旗下的生成式AI服務(wù)Amazon Bedrock第一時(shí)間接入了Claude,服務(wù)于全球客戶,他們很快將使用 Claude 3 模型,以進(jìn)一步推動(dòng)快速創(chuàng)新。

  亞馬遜云舉例,韓國的電信公司和無線運(yùn)營商KT開發(fā)了一項(xiàng)名為AI Call Report 的服務(wù),該服務(wù)可以改善家?;ネ?。

  具體來看,AI Call Report 使用Amazon Bedrock 上的Claude來實(shí)時(shí)記錄(在同意的情況下)、總結(jié)和翻譯教師、學(xué)生和家長之間的通話,從而改善教師能夠?qū)W⒂谂c學(xué)生和家庭的互動(dòng),并最大限度地減少以前的手動(dòng)和費(fèi)力的過程。該服務(wù)將于今年三月韓國新學(xué)年開始時(shí)在學(xué)校推出。

  Perplexity AI是一家對(duì)話式人工智能公司,它在 Bedrock 上使用 Anthropic 的 Claude 2 來快速測(cè)試和部署對(duì)其一般問答功能的改進(jìn),提供聽起來更自然的答案,并構(gòu)建新功能。

  Claude 3強(qiáng)在哪里?

  Claude的模型家族:

  image.png

 

  Anthropic稱,Opus在人工智能系統(tǒng)的大多數(shù)常見評(píng)估基準(zhǔn)上都優(yōu)于同行,包括本科水平專家知識(shí) (MMLU)、研究生水平專家推理 (GPQA)、基礎(chǔ)數(shù)學(xué) (GSM8K) 等。它在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。

  111.png

 

  Claude 3 模型可以支持實(shí)時(shí)客戶聊天、自動(dòng)完成和數(shù)據(jù)提取任務(wù)。

  Claude 3 有200k的對(duì)話長度,相當(dāng)于能夠單次處理超過15萬英文單詞,而GPT-4 Turbo的上下文窗口為128k,約9.6萬個(gè)英文單詞。

  Haiku相應(yīng)速度快,它可以在不到三秒的時(shí)間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣)。未來正式發(fā)布有望進(jìn)一步提高性能。

  Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅長執(zhí)行需要快速響應(yīng)的任務(wù),例如知識(shí)檢索或銷售自動(dòng)化;Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。

  Opus和Sonnet周一已經(jīng)向159個(gè)國家和地區(qū)開放,而Haiku將在未來幾周內(nèi)推出。

  視覺能力突出

  Claude 3 擅長復(fù)雜視覺功能,他們可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。比如一些客戶的知識(shí)庫各種格式排版,例如 PDF、流程圖或演示幻燈片。

  值得注意的是,Claude 3不生成圖像;但它允許用戶上傳圖像和其他文檔進(jìn)行分析。Claude 3能夠“認(rèn)”出來圖里的是什么東西,直接描述,回答用戶的問題,這和GPT-4l類似。

  更高的準(zhǔn)確性

  大模型的幻覺問題一直是行業(yè)難題之一。

  Anthropic將答案分為正確答案、錯(cuò)誤答案(或幻覺)和承認(rèn)不確定性,如果不知道,模型表示它不知道答案,而不是提供不正確的信息。

  Anthropic提到,與 Claude 2.1 相比,Opus 在這些具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確性(或正確答案)提高了一倍,同時(shí)也減少了錯(cuò)誤答案的水平。

  除了產(chǎn)生更值得信賴的回復(fù)之外,未來,Anthropic還將在 Claude 3 模型中啟用引用,以便他們可以指向參考材料中的精確句子來驗(yàn)證他們的答案。

  從OpenAI離開,走了不同的道路

  Anthropic創(chuàng)始人Daniela Amodei和Dario Amodei均是OpenAI前高層,后者曾是OpenAI的研究副總裁,他們當(dāng)初離開OpenAI是不滿依附于微軟,他們于2021年創(chuàng)立該公司,目標(biāo)是開發(fā)與OpenAI競(jìng)爭(zhēng)的生成式人工智能模型。該公司也是OpenAI之外最受關(guān)注的人工智能公司。

  在過去的一年時(shí)間里,Anthropic完成了五筆不同的融資交易,總額約為73億美元,該公司在去年12月底估值達(dá)到了184億美元,投資者包括谷歌、Salesforce和亞馬遜等。

  Claude與ChatGPT從一開始就走了不同的道路。

  在模型訓(xùn)練上,Claude與ChatGPT雖然都是靠強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練偏好模型,并進(jìn)行后續(xù)微調(diào)。

  但是,在訓(xùn)練方法上,Claude又與ChatGPT略有不同,ChatGPT采用人類反饋強(qiáng)化學(xué)習(xí)(RLHF),Claude采用的原發(fā)人工智能方法,是基于偏好模型而非人工反饋來進(jìn)行訓(xùn)練的,因此,這種方法又被稱為“AI反饋強(qiáng)化學(xué)習(xí)”,即RLAIF。

  底層的不同,造成了 Claude與ChatGPT有不同的體驗(yàn)。