各國政府正在加強對AI的監(jiān)管和投資。
由李飛飛聯(lián)合領導的斯坦福大學以人為本人工智能研究所(Stanford HAI)發(fā)布《2025年人工智能指數(shù)報告》(Artificial Intelligence Index Report 2025)。這份長達456頁的報告,深入剖析了2024年全球人工智能行業(yè)的發(fā)展態(tài)勢,揭示了12大關鍵趨勢。
李飛飛被譽為“AI教母”,現(xiàn)為斯坦福大學計算機科學教授,美國工程院院士,美國國家醫(yī)學院院士。她的專業(yè)領域是計算機視覺和認知神經科學。李飛飛倡導以人為本的AI理念。其團隊匯聚了來自多學科領域的頂尖專家,長期專注于跟蹤、研究AI發(fā)展動態(tài)。
最新報告的12大趨勢中,涉及AI基準測試成績的變化、AI應用加速與投資增長、中美AI模型差距、公眾對AI的態(tài)度轉變、AI硬件發(fā)展狀況分析等內容。
報告提到,人工智能在高要求基準測試中的表現(xiàn)持續(xù)提升。2023 年,研究人員推出了新的基準——MMMU、GPQA 和 SWE-bench——來測試高級 AI 系統(tǒng)的極限。僅僅一年后,性能就大幅提升:MMMU、GPQA 和 SWE-bench 上的得分分別上升了 18.8、48.9 和 67.3 個百分點。除了基準之外,AI 系統(tǒng)在生成高質量視頻方面取得了重大進展,在某些情況下,語言模型代理甚至在時間預算有限的編程任務中勝過人類。
人工智能商業(yè)應用在加速:78% 的組織報告稱 2024 年使用人工智能,高于前一年的 55%。與此同時,越來越多的研究證實,人工智能可以提高生產力,并且在大多數(shù)情況下有助于縮小勞動力隊伍的技能差距。
美國私營部門對AI的資金投入依然占據(jù)領先地位。2024年,美國私營部門對AI的投資增長到1091億美元,生成式AI吸引全球私營投資339億美元,比2023年增長18.7%。78%的組織報告稱在使用AI,比前一年增長55%。
中國大模型正在加速發(fā)展,與美國的差距縮小。2024 年,美國機構開發(fā)了 40 個值得關注的 AI 模型,遠遠超過中國的 15 個和歐洲的 3 個。雖然美國在數(shù)量上保持領先,但中國模型已迅速縮小質量差距,在MMLU和HumanEval等主要基準上的性能差異從2023年的兩位數(shù)縮小到2024年的接近相等。與此同時,中國在 AI 出版物和專利方面繼續(xù)保持領先地位。
各國政府正在加強對AI的監(jiān)管和投資,2024年,美國聯(lián)邦機構出臺了59項與AI相關的法規(guī),是2023年的兩倍多。全球范圍內,自2023年以來,75個國家的AI立法提及率上升了21.3%,自2016年以來增長了9倍。各國政府也在進行大規(guī)模投資,如加拿大承諾投資24億美元,中國啟動了475億美元的半導體基金。
全球AI樂觀情緒上升,但地區(qū)間有所差異。在中國(83%)、印度尼西亞(80%)和泰國(77%)等國家,大多數(shù)人認為人工智能產品和服務是利大于弊的。相比之下,加拿大(40%)、美國(39%)和荷蘭(36%)等地的樂觀情緒較低。不過,自2022年以來,包括德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)在內的幾個先前持懷疑態(tài)度的國家,樂觀情緒有所提升。
人工智能變得更加高效、經濟實惠且易于獲取。由越來越強大的小型模型驅動,在達到GPT-3.5水平上的系統(tǒng)推理成本在2022年11月到2024年10月間下降了280倍。在硬件層面,成本每年下降30%,而能效每年提高40%。開放權重模型也在縮小與封閉模型的差距。
在AI教育方面,AI和計算機科學教育正在擴大,但普及程度仍不夠。如今,已有2/3的國家提供或計劃提供K-12計算機科學教育,是2019年的兩倍,其中非洲和拉丁美洲取得的進展最大。在美國,擁有計算機學士學位的畢業(yè)生人數(shù)在過去10年中增加了22%。然而,在許多非洲國家,由于電力等基礎設施的不足,獲得計算機學位的機會仍然有限。
工業(yè)界依然是研發(fā)AI最重要的領域,2024年,近90%的著名人工智能模型來自工業(yè)界,高于2023年的60%,而學術界仍然是高引用率研究的首要來源。模型規(guī)模持續(xù)快速增長——訓練計算每5個月翻一番,數(shù)據(jù)集每8個月翻一番,耗電量每年翻一番。
AI對科學界的影響與日俱增,兩項諾貝爾獎表彰了AI在深度學習(物理學)和蛋白質折疊(化學)中的應用,圖靈獎則表彰了AI在強化學習方面的開創(chuàng)性貢獻。
復雜推理依然存在挑戰(zhàn)。人工智能模型擅長解決國際數(shù)學奧林匹克等問題,但在 PlanBench 等復雜推理基準測試中仍舉步維艱。即使存在可證明的正確解決方案,它們也常常無法可靠地解決邏輯任務,這限制了它們在精度至關重要的高風險環(huán)境中的有效性。