21世紀經濟報道記者孔海麗、實習生劉清怡 北京報道
AI小模型大爆發,成為AI巨頭的新角力賽場。
大模型價格戰“卷生卷死”,投入了巨額資金的AI企業,亟需在商業故事上再進一步,最近紛紛祭出了自家低成本、易部署的小模型,新一輪較量拉開。
先是HuggingFace發布了SmolLM - 135M、360M和1.7B,僅使用650B個token進行訓練,性能卻超過了Qwen 1.5B、Phi 1.5B。
隔日,Mistral AI和英偉達聯合發布Mistral NeMo,被稱為“Mistral AI最佳小型模型”,易于使用,可以直接替代任何使用Mistral 7B的系統。
就在同一天,OpenAI下場“血拼”,推出了GPT-4o 的迷你版——GPT-4o Mini,稱這款新模型是“功能最強、性價比最高的小參數模型”,并將其作為展示模型,替換了GPT-3.5的網頁版“臺前”位置。
蘋果也不甘示弱,與OpenAI同日發布了DCLM小模型,并且發布即開源。蘋果ML小組研究科學家Vaishaal Shankar說“這是迄今為止性能最好的真正開源的模型”。
這些模型參數小、占內存少,在特定場景中,經過精調后使用效果可以媲美大模型,成為性價比之選。
“小模型一定是更容易實現價值的。”一位人工智能首席架構師在接受21世紀經濟報道記者采訪時表示:“一批專業小模型配合agents實現業務流的整合,功能和經濟性上都會更加可行?!?/p>
在AI生成式模型戰場上,迭代速度極快,可能今天的“最好”,馬上就會被明天的新版本打敗,“歷史記錄”不斷被顛覆重寫?!澳P透绿?,都不好評判,前腳有廠商說自家是‘最大最好的’,后腳就有另外一家說自己是‘最小最好的’?!比斯ぶ悄苄袠I資深觀察人士告訴21世紀經濟報道記者,人工智能模型眼花繚亂,AI企業要想跑通商業故事,必須十倍、百倍努力。
小模型賽道開“卷”
AI巨頭們密集發布小模型,既比性能,還拼價格。
根據Open AI官網,在MMLU、MGSM、HumanEval、MMMU等基準測試中,GPT-4o mini均展現出了比GPT-3.5 Turbo和Gemini Flash、Claude Haiku等小模型更加出色的文本和視覺推理、數學推理、編碼和多模態推理能力,尤其是數學推理和編碼能力遠勝過GPT-3.5 Turbo和其他小模型,稍弱于GPT-4o。在最新的LMSYS盲測競技場排名中,GPT-4o mini還取得了與GPT-4o并列第一的好成績,連OpenAI的CEO Sam Altman也難掩激動的心情,在社交媒體平臺上發文稱,“我們從未對任何一項評估感到如此興奮?!?/p>
除了優異的性能,OpenAI還拿出了低價殺手锏。7月18日上線時,OpenAI宣布GPT-4o mini的定價為每百萬輸入token15美分和每百萬輸出token60美分,比GPT-3.5 Turbo便宜60%以上。7月24日,OpenAI再次宣布,從即日起至9月23日,免費為4級、5級用戶提供GPT-4o mini微調服務,每天限制200萬token,超過的部分按照每100萬token3美元收費。OpenAI稱:“我們期待GPT-4o mini將擴大人工智能的應用范圍,使人工智能更加實惠?!?/p>
平安證券研報認為,GPT-4omini是價格顯著下降的新一代入門級別人工智能“小模型”,兼具性能與性價比。當前全球范圍內的大模型逐漸呈現由單方面的性能角逐,轉向性能與實用性并重的發展趨勢。大模型能力達到一定水平時必然會走向應用,大模型廠商通過提升其產品性價比,助推下游應用端的推廣部署,有望加速大模型產業鏈商業閉環的形成。
在GPT-4o mini之后發布的蘋果DCLM模型同樣引人矚目,DCLM全面開源了代碼、權重、訓練流程及數據集。DCLM分為14億和70億參數兩種規模,其70億參數版本超越了Mistral-7B ,性能接近Llama 3、Gemma。在MMLU(5-shot)基準測試中,DCLM-7B的準確率為63.7%。根據研究人員的說法,這一性能比此前最先進的開放數據語言模型MAP-Neo提高了6.6%,并減少了40%的計算量。更重要的是,這一結果超越了準確率為62.7%的Mistral-7B-v0.3,并接近于準確率為64.3%的Gemma 8B、66.2%的Llama3 8B和69.9%的Phi-3 7B。
比起“越大越好”,蘋果更傾向于走小模型路線。今年4月,蘋果公布的小模型家族四款預訓練的大模型OpenELM,體量極小,彼時已在朝著“讓人工智能在蘋果設備上本地運行”目標邁進。
6月,蘋果曾透露自己的AI發展路線圖,計劃把小模型順利嵌進移動裝備,不僅能達到“更快速、更安全”的目的,還一舉解決了移動端設備與模型融合的終極難題。
Mistral NeMo是Mistral AI與NVIDIA合作構建的,該模型經過先進的微調和對準階段,在遵循精確指令、推理、處理多輪對話和生成代碼方面表現優異。據了解,Mistral NeMo主要面向企業環境,目的是讓企業在不需要大量云資源的情況下實施人工智能解決方案。
在接受Venturebeat采訪時,英偉達應用深度學習研究副總裁 Bryan Catanzaro 詳細闡述了小型模型的優勢。他說:“小型模型更容易獲取和運行,可以有不同的商業模式,因為人們可以在家中自己的系統上運行它們?!?/p>
大模型進入下半場,從技術卷到應用,市場對于更易本地部署的高效率、低成本模型越來越感興趣,這背后折射了對安全性、隱私性以及高效率、高性價比的渴望。
行業分析師認為,AI部署有了一個明顯的新趨勢,即可以在本地硬件上高效運行的模型,正在打消許多企業大規模采用AI方案的擔憂,比如數據隱私、延遲以及高成本等問題?!斑@可能會使競爭更加公平,資源有限的小企業也將獲得AI模型的加持,從而彌合與大企業之間先天的差距?!?/p>
入局小模型賽道背后
AI巨頭們為何紛紛開辟小模型賽道?部分或出于成本因素的考量。
大模型的開發和運行成本高昂,即使像OpenAI這樣的巨頭也難以負擔得起。
近日,有知情人士分析稱“OpenAI今年可能會虧損50億美元,面臨著在12個月內資金耗盡的風險”。截至今年3月,OpenAl花費近40億美元租用微軟的服務器,以運行ChatGPT及其底層大語言模型(LLM)。除了運行ChatGPT之外,OpenAl包括數據費用在內的培訓成本今年可能會飆升至30億美元。據知情人士透露,去年,OpenAl加快了對新AI的訓練,速度超過了最初的計劃,OpenAl原本計劃在這類成本上花費約8億美元,但最終的支出要多得多。
相較之下,小模型成本低、響應速度快,而且可以本地化運行,更能適應個性化、精準化的使用需求。業內人士表示:“在全球AI硬件供不應求的前提下,小模型意味著更低的部署和訓練成本,其產出效果足以應對一些特定任務。”
有國內AI企業相關業務負責人告訴21世紀經濟報道記者,小參數規模可以大幅節省推理成本,模型訓練與調整所需的硬件成本遠遠低于大模型,成熟開發者甚至可以低成本訓練垂直模型,這些操作的成本都遠低于大模型。
OpenAI創始成員、特斯拉前AI高級總監Andrej Karpathy最近的預測頗有代表性,他提出,生成式模型的尺寸競爭將會逆轉,比拼誰的模型更小、更智能。
在Andrej Karpathy的解釋中,當前大模型如此之大,是因為訓練期間仍然非常浪費,雖然大模型在記憶方面非常出色,但這也意味著大模型記住了大量無關緊要的細節,而那些內容本不應該在特定問題中反復被調用。
對于小模型來說,訓練目標變得更簡單、直接、高效,讓AI更直接地學到更有用的信息。
不過,大模型與小模型并非“二選一”,他們的發展路線仍然有著相互借鑒的意義。
Andrej Karpathy稱:“模型必須先變大,然后才能變小。因為我們需要大模型將數據重構、塑造成理想的形式,一個模型幫助生成下一個模型的訓練數據,逐漸得到完美的訓練集,再喂給小模型,而后者不需要完全記住所有的知識,只是偶爾需要查找一些東西以確保準確。”
李彥宏也曾在百度AI開發者大會Create 2024上表示,未來大型的AI原生應用基本都是Moe架構,即大小模型的混用。李彥宏還稱,通過大模型壓縮蒸餾出一個基礎模型,然后再用數據去訓練,比從頭開始訓練小模型的效果要好很多,比基于開源模型訓練出來的模型效果更好,速度更快,成本更低。