Claude 3超越GPT-4！擅長推理、數(shù)學(xué)、編碼，教育變革比想象中來得更快

2024-03-05 10:22:46發(fā)布來源：多知網(wǎng) 作者：Penny

　　美國人工智能初創(chuàng)公司Anthropic 周一宣布，推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。這三種模型在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面成績(jī)亮眼，樹立了新的行業(yè)標(biāo)準(zhǔn)。

　　Anthropic稱：“每個(gè)模型都顯示出在分析和預(yù)測(cè)、細(xì)致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對(duì)話方面的增強(qiáng)能力。”

　　Anthropic稱，Opus在行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra，比如在推理、數(shù)學(xué)和編碼能力，接近人類的理解能力。

　　Claude 3是多模態(tài)大模型，提供復(fù)雜視覺功能，可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。

　　有網(wǎng)友評(píng)論，與Claude 3相比，GPT-4在編碼和數(shù)學(xué)方面就像是石器時(shí)代的舊技術(shù)。

　　Claude 3可以應(yīng)用于需要高度智能和復(fù)雜任務(wù)處理的場(chǎng)景，如企業(yè)自動(dòng)化、復(fù)雜金融預(yù)測(cè)、研究和開發(fā)等。

　　亞馬遜云旗下的生成式AI服務(wù)Amazon Bedrock第一時(shí)間接入了Claude，服務(wù)于全球客戶，他們很快將使用 Claude 3 模型，以進(jìn)一步推動(dòng)快速創(chuàng)新。

　　亞馬遜云舉例，韓國的電信公司和無線運(yùn)營商KT開發(fā)了一項(xiàng)名為AI Call Report 的服務(wù)，該服務(wù)可以改善家?；ネ?。

　　具體來看，AI Call Report 使用Amazon Bedrock 上的Claude來實(shí)時(shí)記錄(在同意的情況下)、總結(jié)和翻譯教師、學(xué)生和家長之間的通話，從而改善教師能夠?qū)Ｗ⒂谂c學(xué)生和家庭的互動(dòng)，并最大限度地減少以前的手動(dòng)和費(fèi)力的過程。該服務(wù)將于今年三月韓國新學(xué)年開始時(shí)在學(xué)校推出。

　　Perplexity AI是一家對(duì)話式人工智能公司，它在 Bedrock 上使用 Anthropic 的 Claude 2 來快速測(cè)試和部署對(duì)其一般問答功能的改進(jìn)，提供聽起來更自然的答案，并構(gòu)建新功能。

　　Claude 3強(qiáng)在哪里？

　　Claude的模型家族：

　　Anthropic稱，Opus在人工智能系統(tǒng)的大多數(shù)常見評(píng)估基準(zhǔn)上都優(yōu)于同行，包括本科水平專家知識(shí) (MMLU)、研究生水平專家推理 (GPQA)、基礎(chǔ)數(shù)學(xué) (GSM8K) 等。它在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。

　　Claude 3 模型可以支持實(shí)時(shí)客戶聊天、自動(dòng)完成和數(shù)據(jù)提取任務(wù)。

　　Claude 3 有200k的對(duì)話長度，相當(dāng)于能夠單次處理超過15萬英文單詞，而GPT-4 Turbo的上下文窗口為128k，約9.6萬個(gè)英文單詞。

　　Haiku相應(yīng)速度快，它可以在不到三秒的時(shí)間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣)。未來正式發(fā)布有望進(jìn)一步提高性能。

　　Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅長執(zhí)行需要快速響應(yīng)的任務(wù)，例如知識(shí)檢索或銷售自動(dòng)化;Opus 的速度與 Claude 2 和 2.1 相似，但智能水平更高。

　　Opus和Sonnet周一已經(jīng)向159個(gè)國家和地區(qū)開放，而Haiku將在未來幾周內(nèi)推出。

　　視覺能力突出

　　Claude 3 擅長復(fù)雜視覺功能，他們可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。比如一些客戶的知識(shí)庫各種格式排版，例如 PDF、流程圖或演示幻燈片。

　　值得注意的是，Claude 3不生成圖像；但它允許用戶上傳圖像和其他文檔進(jìn)行分析。Claude 3能夠“認(rèn)”出來圖里的是什么東西，直接描述，回答用戶的問題，這和GPT-4l類似。

　　更高的準(zhǔn)確性

　　大模型的幻覺問題一直是行業(yè)難題之一。

　　Anthropic將答案分為正確答案、錯(cuò)誤答案(或幻覺)和承認(rèn)不確定性，如果不知道，模型表示它不知道答案，而不是提供不正確的信息。

　　Anthropic提到，與 Claude 2.1 相比，Opus 在這些具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確性(或正確答案)提高了一倍，同時(shí)也減少了錯(cuò)誤答案的水平。

　　除了產(chǎn)生更值得信賴的回復(fù)之外，未來，Anthropic還將在 Claude 3 模型中啟用引用，以便他們可以指向參考材料中的精確句子來驗(yàn)證他們的答案。

　　從OpenAI離開，走了不同的道路

　　Anthropic創(chuàng)始人Daniela Amodei和Dario Amodei均是OpenAI前高層，后者曾是OpenAI的研究副總裁，他們當(dāng)初離開OpenAI是不滿依附于微軟，他們于2021年創(chuàng)立該公司，目標(biāo)是開發(fā)與OpenAI競(jìng)爭(zhēng)的生成式人工智能模型。該公司也是OpenAI之外最受關(guān)注的人工智能公司。

　　在過去的一年時(shí)間里，Anthropic完成了五筆不同的融資交易，總額約為73億美元，該公司在去年12月底估值達(dá)到了184億美元，投資者包括谷歌、Salesforce和亞馬遜等。

　　Claude與ChatGPT從一開始就走了不同的道路。

　　在模型訓(xùn)練上，Claude與ChatGPT雖然都是靠強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練偏好模型，并進(jìn)行后續(xù)微調(diào)。

　　但是，在訓(xùn)練方法上，Claude又與ChatGPT略有不同，ChatGPT采用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)，Claude采用的原發(fā)人工智能方法，是基于偏好模型而非人工反饋來進(jìn)行訓(xùn)練的，因此，這種方法又被稱為“AI反饋強(qiáng)化學(xué)習(xí)”，即RLAIF。

　　底層的不同，造成了 Claude與ChatGPT有不同的體驗(yàn)。

商學(xué)院

Open Talk

Claude 3超越GPT-4！擅長推理、數(shù)學(xué)、編碼，教育變革比想象中來得更快

相關(guān)閱讀

商學(xué)院

Open Talk

Claude 3超越GPT-4！擅長推理、數(shù)學(xué)、編碼，教育變革比想象中來得更快

相關(guān)閱讀

Claude 3超越GPT-4！擅長推理、數(shù)學(xué)、編碼，教育變革比想象中來得更快