作者|朱可軒
編輯|陳彩嫻
春節(jié)結束,DeepSeek 熱度不減,而要說剛剛過去的春節(jié)假期,留給科技圈的印象可能是“卷上加卷”,幾乎無人不在熱議分析著 DeepSeek 這條“鯰魚”。
硅谷方面迎來了空前的危機感:開源的信徒們聲量再度走高,甚至連 OpenAI 都在反思閉源的決策是否正確;低算力成本的新范式引發(fā)芯片巨頭英偉達連鎖反應,創(chuàng)下美股史上最大規(guī)模單日市值蒸發(fā)紀錄;政府部門下場調查 DeepSeek 使用芯片的合規(guī)性......
在海外對 DeepSeek 評價褒貶不一的同時,國內也迎來了空前繁榮。
DeepSeek 發(fā)布 R1 模型后上線的 APP 接到潑天流量,初步驗證了應用端增長將會拉動整個 AI 生態(tài)發(fā)展。利好在于 DeepSeek 會把整個應用的可能性都打開,換言之就是以后發(fā)現(xiàn) ChatGPT 不用這么貴。
這點在近日 OpenAI 的頻繁動作中也可以窺見,其為應戰(zhàn) DeepSeek R1 首次向免費用戶提供推理模型 o3-mini,并也在后續(xù)升級公開了 o3-mini 的推理思維鏈,不少海外網友在評論中向 DeepSeek 表示感謝,不過這一思維鏈僅為總結版。
同時能樂觀看到的是,DeepSeek 這一波無疑又將國內拎成一股繩。
在其將模型降本按下加速鍵后,以其為圓心,上游芯片廠商、中間層云廠以及一眾創(chuàng)業(yè)公司都在積極加入生態(tài)中,為 DeepSeek 模型使用的降本增效持續(xù)添磚加瓦。
據(jù) DeepSeek 論文介紹,V3 模型完整訓練僅需 278.8 萬 H800 GPU 小時,且訓練過程十分穩(wěn)定。
在這背后,MoE 架構是 V3 相比 Llama 3 405B 預訓練成本降低十倍最關鍵的原因,當前,V3 是在公開領域第一個證明 MoE 的稀疏度可以做到這么高的模型。此外,MLA 同樣相輔相成,這部分則主要體現(xiàn)在推理側。
“越稀疏的 MoE 在推理的時候需要越大的 batch size 才能充分利用算力。而限制 batch size 的最關鍵因素就是 KVCache 的大小,MLA 大幅度縮小了 KVCache 大小?!壁吘晨萍佳芯繂T向 AI 科技評論分析道。
從整體上來看,DeepSeek 的成功在于各項技術的組合,而非單一技術。業(yè)內評價,DeepSeek 團隊工程能力極強,其在并行訓練、算子優(yōu)化等方面也都做得很好,把每個細節(jié)做到極致后才實現(xiàn)了最終的突破性效果。
而 DeepSeek 開源也意味著能為大模型整體發(fā)展再添一把柴,其現(xiàn)階段成果還體現(xiàn)在語言模型,業(yè)內判斷,后續(xù)如有類似路線的模型在圖像、視頻等領域發(fā)力,將會進一步帶動行業(yè)整體需求。
第三方推理服務的機遇
據(jù)數(shù)據(jù)顯示,DeepSeek 自發(fā)布后,截止一月末上線僅 21 天,其日活躍用戶 DAU 2215 萬,達 ChatGPT 日活用戶的 41.6%,超過豆包的日活用戶 1695 萬,成為全球增速最快的應用,并收割了蘋果應用商店 157 個國家/地區(qū)第一。
用戶大量涌入之余,外網黑客也在瘋狂攻擊,DeepSeek APP 目前服務器繁忙已有多時,這背后在業(yè)內看來,其實也與 DeepSeek 將卡投入訓練,用在推理側的算力不太夠有關。
業(yè)內人士向 AI 科技評論分析道,“服務器頻繁的問題其實很好解決,收費或者融資買更多機器,不過這要看 DeepSeek 的選擇了?!?/p>
這也是專注技術和產品化的抉擇博弈,一直以來 DeepSeek 都在依靠幻方量化實現(xiàn)自我供血,幾乎未接受過外部融資,在現(xiàn)金流方面壓力不大,所以其技術氛圍也相對純粹。
當前,面對前述問題,一部分用戶在社交平臺呼吁 DeepSeek 增高使用門檻、加設付費項目來提升自身的使用舒適度。
另外,也有開發(fā)者選擇調用官方 API 或者使用第三方 API 獲得部署優(yōu)化。不過,日前,DeepSeek 開放平臺又發(fā)布消息稱,“當前服務器資源緊張,已暫停 API 服務充值?!?/p>
這無疑為 AI Infra 層的第三方廠商提供了更多機會。
近日,國內外數(shù)十家云巨頭已紛紛上線了 DeepSeek 的模型 API——海外云廠兩大巨頭微軟、亞馬遜于 1 月底便搶先接入。
國內華為云率先出擊,在 2 月 1 日與硅基流動合作上新 DeepSeek R1 & V3 推理服務,當前,據(jù) AI 科技評論了解,硅基流動平臺服務已被大量用戶涌入“打爆”。
BAT 三巨頭以及字節(jié)跳動也紛紛在 2 月 3 日陸續(xù)打出低價限免牌,這波狂歡如同回到去年 DeepSeek 在發(fā)布 V2 模型時點燃的云廠價格戰(zhàn),自那時起 DeepSeek 就開始被稱為“價格屠夫”。
云廠的瘋狂“搶食”和早些年微軟云強綁定 OpenAI 的邏輯也有些相似之處:
2019 年,微軟云便已早早壓注 OpenAI 并注資 10 億美元,并在 2023 年后者發(fā)布 ChatGPT 后吃到了紅利。但二者的親密關系則在 Meta 開源 Llama 后出現(xiàn)了裂痕,開源模型的出現(xiàn)意味著微軟云外的其他廠商也能布局自己的大模型。
此次 DeepSeek 不僅在產品側比 ChatGPT 當年熱度更甚,更是在 o1 之后相對應推出了開源模型,這就如同當年的 Llama 開源復現(xiàn) GPT-3 所引發(fā)的轟動一般。
實際上,云廠也是在壓注 AI 應用的流量入口,換言之,和更為開發(fā)者深入綁定意味著能夠搶占先機。據(jù)悉,百度智能云在上線 DeepSeek 模型首日,便已有超 1.5 萬客戶通過千帆平臺進行調用。
另外,也有不少小廠給出了解決方案,除硅基流動外,潞晨科技、趨境科技、無問芯穹、PPIO 派歐云等 AI Infra 廠商也已陸續(xù)上線對 DeepSeek 模型的支持。
AI 科技評論了解到,目前,針對 DeepSeek 的本地化部署優(yōu)化空間主要存在于兩方面:
一是針對 MoE 模型稀疏性的特性,能夠采用混合推理的思路優(yōu)化,在本地部署 DeepSeek 671B 大小的 MoE 模型,GPU/CPU 混合推理是非常重要的方向,二是 MLA 的優(yōu)化實現(xiàn)。
不過,DeepSeek 的兩款模型在部署優(yōu)化上還有些許難點問題。
“因為模型大、參數(shù)多,優(yōu)化確實有一定的復雜度,尤其需要本地化部署的話,如何做到效果和成本的最優(yōu)平衡會有難度。”趨境科技研究員告訴 AI 科技評論。
其中最大難點在于如何克服顯存容量的限制?!拔覀儾捎卯悩媴f(xié)同的思路是充分利用 CPU 等其余算力,僅將非Shared 部分的稀疏 MoE 矩陣放在 CPU/DRAM 上并通過高性能的 CPU 算子進行處理,剩余稠密部分放在 GPU 上?!彼M一步介紹。
據(jù)了解,趨境的開源框架 KTransformers 主要是通過一套注入模板將各種策略和算子注入到原本的 Transformers 實現(xiàn)中,同時,通過通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。
DeepSeek 也為這些創(chuàng)業(yè)公司帶來了生存空間,當前增長效益已開始初顯成效,上線 DeepSeek API 后,不少廠商在與 AI 科技評論交談中提到,其均得到了明顯客戶增長,許多客戶找上門提出優(yōu)化訴求。
有相關業(yè)者發(fā)文表示,“以往稍具規(guī)模的客戶群體,往往早已被大廠的標準化服務套牢,被他們規(guī)模效應帶來的成本優(yōu)勢牢牢綁定。然而春節(jié)前完成 DeepSeek-R1/V3 的部署后,我們突然接到多家知名客戶的合作需求,連此前一度沉寂的老客戶也主動聯(lián)絡,希望引入我們的 DeepSeek 服務?!?/p>
目前來看,DeepSeek 這波讓模型的推理性能變得更加重要,而且大模型普及更為廣泛,這會持續(xù)影響 AI Infra 行業(yè)的發(fā)展,如果能夠低成本地在本地落地一個 DeepSeek 級別的模型,將會對政府和企業(yè)智能化的發(fā)展有很大的幫助。
但與此同時,挑戰(zhàn)也是存在的,也會有部分客戶可能會對大模型的能力期待比較高,在實際的部署使用中,大模型的使用效果、成本這些要做到平衡的挑戰(zhàn)更明顯了。
「顛覆英偉達」的冷思考
當前,除華為外,摩爾線程、沐曦、壁仞科技、天數(shù)智芯等數(shù)十家國產芯片廠商也紛紛跟進適配了 DeepSeek 兩款模型。
有芯片廠商向 AI 科技評論表示,“DeepSeek 在結構上有創(chuàng)新,但還是 LLM,我們適配 DeepSeek 都是聚焦推理應用,所以技術實現(xiàn)上并不難,實現(xiàn)得都很快?!?/p>
不過,MoE 這一路線對存儲和分布式有更高的要求,再加上使用國產芯片部署也需要考慮一些系統(tǒng)兼容問題,在適配過程中仍有許多工程上的難題需要解決。
“當前,國產算力在使用的便利性和穩(wěn)定性方面與英偉達仍存較大差異,軟件環(huán)境、故障排查、涉及底層的性能優(yōu)化等都需要原廠參與解決推進?!睆臉I(yè)者在實踐過后告訴 AI 科技評論。
同時,“由于 DeepSeek R1 參數(shù)規(guī)模較大,國產算力也需要更多節(jié)點的并行才能使用。另外,國內在硬件規(guī)格上也還存在些許落后,例如,華為 910B 當前還不能支持 DeepSeek 所引入的 FP8 推理。”
DeepSeek V3 模型的亮點之一便是引入了 FP8 混合精度訓練框架,并在超大規(guī)模模型上驗證了有效性,這點作為首次公開驗證具有重大意義。此前,微軟、英偉達等巨頭都曾提及過相關工作,但業(yè)內一直以來都有聲音對此表示質疑。
據(jù)了解,相比于 INT8 而言,F(xiàn)P8 的最大優(yōu)勢在于其后訓練量化能夠獲得幾乎無損的精度,同時顯著提升推理速度,與 FP16 相比,在英偉達 H20 上可以實現(xiàn) 2 倍的加速效果,在 H100 上可獲得超過 1.5 倍的加速。
值得一提的是,近期,隨著國產算力+國產模型這一趨勢的討論愈發(fā)熱烈,關于英偉達是否會被顛覆、CUDA 護城河將會被繞開的聲音也甚囂塵上。
一個不可否認的事實是,DeepSeek 確實憑借一己之力讓英偉達市值暴跌,但這背后實則是英偉達高端算力方面受到質疑,過往受資本裹挾的算力堆砌論被打破,而目前來看,英偉達卡在訓練方面被替代仍舊有難度。
從 DeepSeek 對 CUDA 的使用深度中可以發(fā)現(xiàn),類似用 SM 做通信甚至直接操縱網卡這種靈活性其實不是一般的 GPU 可以支持的。
業(yè)內觀點也強調,英偉達的護城河是 CUDA 整個生態(tài),并非 CUDA 本身,DeepSeek 所使用的 PTX(并行線程執(zhí)行)指令仍是 CUDA 生態(tài)的一環(huán)。
“短期來看,英偉達算力還無法繞開,這點在訓練層尤為明顯,推理上國產卡的推行會相對容易些,所以進度也會快些。大家做國產卡適配也都是推理側,沒人能用國產卡大規(guī)模訓練出 DeepSeek 這種性能的模型?!庇袕臉I(yè)者向 AI 科技評論分析。
整體從推理上來看,對于國產大模型芯片是利好的。國內芯片廠商的機會在推理會更為明顯,訓練由于要求太高所以很難進。
業(yè)內看來,推理國產卡就可以,再不濟多買一臺機器,訓練不一樣,機器多了管理起來會累,而且失誤率高會影響訓練的效果。
訓練對集群規(guī)模也有要求,推理對集群要求則沒那么高,對 GPU 的要求也相對低,當前,英偉達 H20 單卡的性能其實并沒有華為、寒武紀強,強在集群。
從算力市場的整體影響情況上來看,潞晨科技創(chuàng)始人尤洋告訴 AI 科技評論,“DeepSeek 這波短期內可能會打擊超大訓練算力集群的建設和租賃,長期來看,由于其顯著降低了大模型訓練、推理、應用的成本,市場需求高漲,以此為基礎的AI迭代,會繼續(xù)推動算力市場的持續(xù)需求?!?/p>
同時,“DeepSeek 在推理和微調側的需求提升,也更適合國內算力建設比較散、國產算力相對弱情況,減少集群建設后的閑置浪費,這是全國產化的算力生態(tài)各層級廠商有效落地的機會?!?/p>
潞晨科技也和華為云合作推出了基于國產算力的 DeepSeek R1 系列推理 API 及云鏡像服務,尤洋樂觀表示,“有 DeepSeek 給大家國產化的信心,后續(xù)大家對于國產算力的熱情和投入也會更多?!?span style="color: #FFFFFF;">雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。