2024年歲末,DeepSeek-V3大模型發(fā)布,迅速成為全球人工智能(AI)領(lǐng)域的焦點(diǎn),刷屏科技圈,很多人化身“自來水”,在各大社交媒體、科技論壇上發(fā)帖討論,不吝溢美之詞。
在全球范圍內(nèi)的行業(yè)基準(zhǔn)測試中,DeepSeek-V3達(dá)到與Llama 3()、GPT-4o(OpenAI大模型)相當(dāng)?shù)乃剑J入了多個AI大模型排行榜單前列。聊天機(jī)器人競技場(Chatbot Arena)最新數(shù)據(jù)顯示,DeepSeek-V3位列開源模型榜第一,在全模型榜單里排名第七,也是中國模型中排名最高的。更令人詫異的是,DeepSeek-V3模型訓(xùn)練所消耗的算力,只有Llama的1/11。
DeepSeek-V3轟動AI圈,背后的中國公司深度求索(DeepSeek)也“浮出水面”。硅谷同行稱其為“東方神秘力量”,對DeepSeek團(tuán)隊(duì)表現(xiàn)出濃厚的興趣。而在國內(nèi),“雷軍千萬年薪挖角DeepSeek研究員羅福莉”的話題也上了社交平臺熱搜。
不管是AI圈,還是“吃瓜群眾”,都在好奇,DeepSeek-V3大模型的背后,到底是一支什么樣的團(tuán)隊(duì)?
羅福莉
2024年12月底,有媒體報(bào)道,雷軍以千萬年薪招攬一名“天才AI少女”來領(lǐng)導(dǎo)小米的AI大模型團(tuán)隊(duì)。這位95后“少女”名叫羅福莉,過去兩年供職于DeepSeek團(tuán)隊(duì),曾參與DeepSeek大模型的關(guān)鍵研發(fā)。
羅福莉在北京大學(xué)讀計(jì)算語言學(xué)碩士期間,曾因在ACL()學(xué)術(shù)會議上發(fā)表多篇論文而受到關(guān)注。畢業(yè)后,她進(jìn)入阿里巴巴達(dá)摩院,從事預(yù)訓(xùn)練語言模型相關(guān)的工作。2022年加入深度求索母公司幻方量化,之后成為DeepSeek大模型項(xiàng)目成員。
DeepSeek-v3的出現(xiàn),讓很多人以為,DeepSeek團(tuán)隊(duì)必然有“大?!弊?zhèn)。但羅福莉走紅卻讓外界發(fā)現(xiàn),真正的“大牛”是那些像她一樣的年輕人。
2023年5月,DeepSeek-V2發(fā)布,相比于國內(nèi)外主流大模型,大幅減少了計(jì)算量和推理顯存,一問世就備受關(guān)注。做出這一突破性創(chuàng)新的,是年輕的高華佐和曾旺丁等人。
兩人都剛從學(xué)校出來沒幾年。高華佐來自廣東,2012年在華南師范大學(xué)附屬中學(xué)就讀時,曾獲第29屆全國中學(xué)生物理競賽一等獎,并于次年保送至北京大學(xué)物理學(xué)院學(xué)習(xí)。曾旺丁來自湖南省新化縣,2017年至2023年就讀于北京郵電大學(xué)人工智能學(xué)院,碩士期間主要學(xué)習(xí)人工智能方向,導(dǎo)師為張洪剛,2018年曾獲全國大學(xué)生數(shù)學(xué)競賽()二等獎。
DeepSeek大模型的另一大突破,是通過一種名為GRPO的算法,創(chuàng)新訓(xùn)練方法,大大降低了成本。其中的主角,依然是這些看似缺少經(jīng)驗(yàn)的年輕人。
核心成員之一邵智宏此前是清華大學(xué)交互式人工智能(CoAI)課題組博士生,主要研究自然語言處理、深度學(xué)習(xí),對構(gòu)建穩(wěn)健且可擴(kuò)展的AI系統(tǒng)有著獨(dú)特見解。他曾服務(wù)于微軟研究院,加入DeepSeek團(tuán)隊(duì)之后,參與了多個重要項(xiàng)目的研發(fā),包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
GRPO算法創(chuàng)新的另一重要貢獻(xiàn)者是朱琪豪。這位北京大學(xué)計(jì)算機(jī)學(xué)院2024屆的博士畢業(yè)生,專注于深度代碼學(xué)習(xí)研究。在校期間,他展現(xiàn)了驚人的學(xué)術(shù)能力,發(fā)表CCF()-A類論文16篇,獲得了軟件工程領(lǐng)域頂級會議(ESEC/FSE)杰出論文獎。他的博士論文《語言定義感知的深度代碼學(xué)習(xí)技術(shù)及應(yīng)用》入選了2024CCF軟件工程專業(yè)委員會博士學(xué)位論文激勵計(jì)劃。他在DeepSeek團(tuán)隊(duì)最重要的工作,正是基于自己的博士論文,主導(dǎo)開發(fā)DeepSeek大模型的一個關(guān)鍵項(xiàng)目。
他的同學(xué)代達(dá)勱則在更早的時候加入這個團(tuán)隊(duì),參與了DeepSeek大模型從V1到V3每一代的研發(fā),已經(jīng)是元老級研發(fā)人員,也在學(xué)生時代獲得多項(xiàng)論文獎。
負(fù)責(zé)DeepSeek大模型訓(xùn)練及推理基礎(chǔ)架構(gòu)的,是同樣剛畢業(yè)的工程師趙成鋼。加入DeepSeek之前,他曾在英偉達(dá)公司實(shí)習(xí)。趙成鋼在學(xué)生時代就取得過令人艷羨的成績。在河北衡水中學(xué)就讀時,他是信息學(xué)競賽班成員,2016年獲得全國青少年信息學(xué)奧林匹克競賽銀牌。在清華大學(xué)讀大二時,他成為學(xué)生超算團(tuán)隊(duì)正式成員,三次獲得世界大學(xué)生超算競賽冠軍。
DeepSeek團(tuán)隊(duì)規(guī)模并不大,不到140人,工程師和研發(fā)人員幾乎都來自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國內(nèi)頂尖高校,鮮有“海歸”,而且工作時間都不長,不少還是在讀博士。即便是團(tuán)隊(duì)的管理者,也非常年輕。
吳俁是DeepSeek后訓(xùn)練團(tuán)隊(duì)的負(fù)責(zé)人,在進(jìn)入深度求索之前,只有4年工作經(jīng)驗(yàn)。他曾在微軟亞洲研究院工作,參與了小冰()和必應(yīng)百科項(xiàng)目。他是北京航空航天大學(xué)計(jì)算機(jī)學(xué)院2019屆博士。
“我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主?!鄙疃惹笏鲃?chuàng)始人梁文鋒此前向媒體表示,做一件長期的事,經(jīng)驗(yàn)其實(shí)沒那么重要,相比之下基礎(chǔ)能力、創(chuàng)造性和熱愛等更重要。因此,在組建DeepSeek團(tuán)隊(duì)時,他招人的原則是“看能力,而不是看經(jīng)驗(yàn)”。他認(rèn)為,或許目前世界排名前50的頂尖AI人才還不在中國,“但我們能自己打造這樣的人?!?/p>
而這些一邊搞研發(fā)一邊寫論文的年輕人,也一次又一次帶給他驚喜。
代達(dá)勱
DeepSeek大模型發(fā)布之后,便如同一頭年輕的野獸,沖入公眾視野,攪動整個AI圈。
2024年5月,Deepseek-V2推出后,不僅一鳴驚人,還掀起了一場AI大模型價格戰(zhàn)。這款開源模型的推理成本僅為每百萬Token()1元人民幣,只有Llama 3的1/7,GPT-4 Turbo()的1/70。
面對如此巨大的成本差,國內(nèi)主流大模型不得不“忍痛”降價,包括騰訊、百度、阿里巴巴、字節(jié)跳動等公司相繼更新了價格。僅僅半年之后,Deepseek-V3模型發(fā)布,輸入價格降至0.5元/百萬Token,又推動了新一輪的國產(chǎn)大模型降價潮。2024年12月,字節(jié)跳動下調(diào)旗下豆包視覺理解模型輸入價格,相比行業(yè)平均水平降低85%。
DeepSeek因此有“價格屠夫”之稱,也有人稱之為“AI界的拼多多”,甚至DeepSeek聊天機(jī)器人也用這一稱呼描述自己。
然而,與一些廠商依靠“燒錢”補(bǔ)貼維持低價不同,DeepSeek大模型雖然更便宜,但依然有利潤?!拔覀冎皇前凑兆约旱牟秸{(diào)來做事,然后核算成本定價。”梁文鋒稱,DeepSeek不小心成了一條“鯰魚”。
Deepseek大模型的“便宜”源于技術(shù)的突破。深度求索公布的信息顯示,DeepSeek-V3模型全程訓(xùn)練只用了不到280萬個GPU小時(),而Meta公司的Llama 3 405B模型訓(xùn)練時長是3080萬GPU小時。
訓(xùn)練效率的大幅提升,來自于DeepSeek團(tuán)隊(duì)在模型架構(gòu)和訓(xùn)練方法上的創(chuàng)新。
2024年,高華佐和曾旺丁等人在Transformer架構(gòu)()的基礎(chǔ)上,用新的MLA(多頭潛在注意力機(jī)制)替代了傳統(tǒng)的多頭注意力機(jī)制,壓縮數(shù)據(jù),把推理顯存降至此前常用MHA架構(gòu)的5%-13%;還借助自研的DeepSeekMoE結(jié)構(gòu),在保持性能的前提下,極大減少了計(jì)算量。這種架構(gòu)層面的創(chuàng)新,在國內(nèi)大模型公司中極為罕見。
與此同時,DeepSeek利用算法,把數(shù)據(jù)進(jìn)行總結(jié)和分類,經(jīng)過選擇性處理之后,輸送給大模型,提高了訓(xùn)練效率。而此前如OpenAI的訓(xùn)練方法則是“大水漫灌式”,拿海量數(shù)據(jù)喂,需消耗更多資源。這種訓(xùn)練方法的創(chuàng)新,也降低了DeepSeek的成本。
深度求索官方信息顯示,DeepSeek-V3大模型訓(xùn)練僅耗時不到兩個月,花費(fèi)了557.6萬美元和2048塊GPU()。而斯坦福大學(xué)HAI研究院發(fā)布的《2024年人工智能指數(shù)報(bào)告》預(yù)估,OpenAI的GPT-4模型訓(xùn)練成本約為7800萬美元,GPT-4o則為1億美元;谷歌Gemini Ultra的計(jì)算成本為1.91億美元。Meta于2024年7月發(fā)布的開源模型Llama3.1-405B,則消耗了1.6萬塊GPU用于訓(xùn)練。
DeepSeek-V3的出現(xiàn),實(shí)現(xiàn)了高性能與低成本的平衡,給大模型發(fā)展提供了新的可能性?!拔磥砘蛟S不需要超大規(guī)模的GPU集群了。”O(jiān)penAI創(chuàng)始成員Andrej Karpathy表示。
也有學(xué)術(shù)專家認(rèn)為不宜過高評價DeepSeek-V3的創(chuàng)新,因?yàn)槠涑晒Ω嗟靡嬗谡锨叭艘延械募夹g(shù),缺乏底層原理的創(chuàng)新。
站在“巨人”的肩膀上,DeepSeek團(tuán)隊(duì)也樂意將自己的創(chuàng)新共享給更多人。DeepSeek-V3上線時,深度求索也同步開放源代碼,并發(fā)布了53頁論文,將模型的關(guān)鍵技術(shù)和訓(xùn)練細(xì)節(jié)全部分享給外界。
朱琪豪
2023年5月,梁文鋒成立了新公司“深度求索”。他對外宣布,要做“真正人類級別的人工智能”。在此之前,他是私募基金“幻方量化”的創(chuàng)始人。
那時候,網(wǎng)上已有傳聞稱,中國持有高性能GPU最多的機(jī)構(gòu)不是人工智能公司,而是一家量化私募。據(jù)《財(cái)經(jīng)》報(bào)道,2023年,中國擁有1萬張以上GPU的企業(yè)不超過5家,只有幻方量化不是科技“大廠”。
這顛覆了很多人的想法。跟錢打交道的基金經(jīng)理,為什么如此執(zhí)著于人工智能?
1980年代,梁文鋒出生于廣東一座五線城市。他的父親是一位小學(xué)老師,那個時候,常有家長跑到他家,表示“讀書沒用”,不想讓孩子繼續(xù)念書,因?yàn)橛X得廣東充滿了賺錢的機(jī)會。但受父親的影響,梁文鋒對知識一直充滿渴望。
在浙江大學(xué)攻讀信息與電子工程學(xué)本科和碩士時,他對人工智能產(chǎn)生了濃厚的興趣,篤信“人工智能一定會改變世界”。2008年畢業(yè)之后,他和朋友一起做量化投資,嘗試通過數(shù)學(xué)模型,用計(jì)算機(jī)程序進(jìn)行交易。
持續(xù)多年在量化投資領(lǐng)域的探索,讓他對技術(shù)驅(qū)動型創(chuàng)新越發(fā)有了信心。2015年,他與校友徐進(jìn)成立“幻方量化”。后者是浙江大學(xué)信號與信息處理博士,曾任職于華為技術(shù)有限公司上海研究所。他們買了不少GPU,打造研究室,開始嘗試借助AI技術(shù)構(gòu)建投資策略。這幫助幻方量化在4年時間里成長為一家管理資金規(guī)模過百億的私募公司。
2019年,他們成立了AI公司,投資超過10億元,先后研發(fā)了AI超級計(jì)算機(jī)“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達(dá)A100顯卡,算力超過72萬臺個人電腦。借助AI超級計(jì)算機(jī),幻方量化管理的資產(chǎn)在2021年突破1000億元。
2022年底,ChatGPT的橫空出世讓已經(jīng)積累多年的梁文峰下定決心做通用人工智能。“我們建了一個名為深度求索的新公司,從語言大模型開始,后邊也會有視覺等?!睂?shí)際上,OpenAI公開論文和代碼后,國內(nèi)外出現(xiàn)了許多大模型公司。梁文峰認(rèn)為,在未來20年,大廠和創(chuàng)業(yè)公司都有機(jī)會。
不過,直到第三代大模型發(fā)布,DeepSeek團(tuán)隊(duì)依然沒有上線相應(yīng)的應(yīng)用,尚未全面考慮商業(yè)化,而且與多數(shù)國產(chǎn)大模型不同,他們選擇了開源路線。
梁文峰向媒體透露,他和團(tuán)隊(duì)的目標(biāo)并不是做一個應(yīng)用,而是進(jìn)行基礎(chǔ)研究,只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新。
在互聯(lián)網(wǎng)時代,很多人都會有一種慣性思維,認(rèn)為歐美科技圈擅長從0到1的技術(shù)創(chuàng)新,而中國人更習(xí)慣從1到N,在應(yīng)用層面發(fā)力?!昂芏嘀袊玖?xí)慣follow()而不是創(chuàng)新?!绷何姆逭J(rèn)為,過去30年,這些企業(yè)更強(qiáng)調(diào)賺錢,忽視了創(chuàng)新。
他相信中國AI不會“永遠(yuǎn)處于跟隨的位置”,希望深度求索以創(chuàng)新貢獻(xiàn)者的身份加入新的技術(shù)浪潮之中?!皠?chuàng)新首先需要自信?!彼f。