挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
榨干3000元顯卡,跑通千億級大模型的秘方來(lái)了
用幾塊3000元顯卡作為加速主力的一體機,就能跑通671B的DeepSeek。
放在個(gè)把月前,你敢想象這樣的場(chǎng)景么?
正在埋頭苦干,希望有更多樣化產(chǎn)品交付的一體機廠(chǎng)商們,pick英特爾銳炫? 顯卡 + 至強? W 處理器這套組合拳,首要原因就是它的成本確實(shí)誘人——基本算是砍掉了一個(gè)數量級(下線(xiàn)可以控制在10萬(wàn)元以?xún)龋?/p>
其次就是這套組合也很能打,上面那個(gè)場(chǎng)景就是它目前的“標桿式”戰績(jì)。
這兩點(diǎn)加起來(lái)就是“真香”定律的復現。
但別光說(shuō)不練,這種極具性?xún)r(jià)比的一體機實(shí)測的體感到底如何呢?
帶著(zhù)這個(gè)問(wèn)題,我們直接上手親自測試了一波。
例如我們先用QwQ-32B離線(xiàn)狀態(tài)下問(wèn)了個(gè)經(jīng)典題目:
>9.9和9.11哪個(gè)大?
從效果上來(lái)看,若是**單人**使用,一體機的速度已經(jīng)達到了**32 tokens/s**。
講真,這個(gè)速度在體感上已經(jīng)是非常OK了。
而且這還不是個(gè)偶然事件,在同樣的情況下,我們再問(wèn)一個(gè)問(wèn)題:
>一個(gè)外星人來(lái)到地球后等可能選擇以下四件事中的一件完成:
>1,自我毀滅;
>2,分裂成兩個(gè)外星人;
>3,分裂成三個(gè)外星人;
>4,什么都不做。
>此后每天,每個(gè)外星人均會(huì )做一次選擇,且彼此之間相互獨立。
>求地球上最終沒(méi)有外星人的概率。
同樣的,輸出速度依舊是非常的快。
而當同時(shí)使用人數增加時(shí),我們做了初步的計算,其每秒tokens的速度大概是這樣的:
那么如果是地獄難度的671B DeepSeek R1,結果又會(huì )如何呢?
畢竟即便是Q4量化版本,以往承載它的一體機成本動(dòng)輒就要達到200萬(wàn)元。
請聽(tīng)題:
>一個(gè)漢字具有左右結構,左邊是木,右邊是乞。這個(gè)字是什么?只需回答這個(gè)字即可。
如此大體量的大模型,這種10萬(wàn)元級別的一體機依然可以達到10 tokens/s的速度。
雖然體感上會(huì )覺(jué)得稍慢一些,但夠用卻是真的。
而且有一說(shuō)一,輸出速度夠快、時(shí)延夠低、性?xún)r(jià)比夠高,還只是這種英特爾一體機的優(yōu)點(diǎn)的一隅。
在它的背后,還有易部署、易操作等特點(diǎn)。
那么為何基于英特爾的一體機可以做到如此物美價(jià)廉?
##價(jià)低質(zhì)優(yōu)的一體機,是如何煉就的?
正如我們剛才提到的,10萬(wàn)級別的一體機能有如此實(shí)用質(zhì)感,其關(guān)鍵就是英特爾的組合拳:
銳炫? 顯卡 + 至強? W 處理器。
首先我們來(lái)看下這張英特爾銳炫? 顯卡。
它是英特爾專(zhuān)門(mén)為AI和圖形處理打造的高性能顯卡,不僅游戲表現亮眼,在A(yíng)I推理、視頻處理這些專(zhuān)業(yè)領(lǐng)域也很能打。
銳炫? 顯卡采用了最新的Xe架構,內置XMX AI加速引擎,提供強大的AI加速能力,支持Ollama和vLLM serving等多種大模型主流框架,跑大模型推理可以說(shuō)是完全沒(méi)有壓力。
而且它還支持TensorFlow、PyTorch這些主流AI框架,搭配OpenVINO? 工具套件還能進(jìn)一步優(yōu)化性能,讓AI任務(wù)跑得更快、更省資源。
銳炫? 顯卡還有一個(gè)特點(diǎn),就是特別適合邊緣計算——
銳炫? 顯卡針對邊緣計算場(chǎng)景優(yōu)化,提供低功耗(110-150瓦)和小尺寸選項,支持PCIe Gen 4接口,并為邊緣應用場(chǎng)景承諾五年產(chǎn)品供應和軟件支持。
也正像剛才展示的那樣,比如DeepSeek、Qwen這些開(kāi)源模型,銳炫?顯卡能輕松搞定,尤其是支持多卡并聯(lián),2卡、4卡甚至8卡都能配,性能直接起飛。
而且裝載它的一體機不僅僅能作為AI或大模型一體機來(lái)使用,有需求時(shí)還能用來(lái)執行視頻分析、8K視頻編解碼、3D渲染這些高負載任務(wù),一機多用,性?xún)r(jià)比超高。
除了顯卡之外,至強? W 處理器,這塊適用于工作站和一體機的“性能怪獸”CPU,也是一個(gè)關(guān)鍵點(diǎn)。
從算力層面來(lái)看,它最高60核的配置,搭配DDR5-4800內存和TB級內存擴展,跑大模型、做數據處理都游刃有余。
它內置的AMX(高級矩陣擴展)技術(shù),就算沒(méi)有獨立顯卡,也能加速中小規模參數的大語(yǔ)言模型推理,性?xún)r(jià)比也是直接拉滿(mǎn)。
至強? W 處理器能與銳炫? 顯卡搭檔的原因還有它支持多顯卡配置,擁有多達112條PCIe Lane,PCIe 5.0通道管夠。
在此之上,英特爾還通過(guò)統一的計算架構和優(yōu)化工具鏈,讓銳炫? 顯卡和至強? W 處理器,發(fā)揮出1+1>2的效果。例如:
· IPEX-LLM:專(zhuān)門(mén)為大模型優(yōu)化,支持DeepSeek、Qwen、Llama等主流開(kāi)源模型,讓CPU+GPU協(xié)同推理更高效。
· OpenVINO? 工具套件:優(yōu)化AI推理,自動(dòng)分配任務(wù)給CPU或GPU,還能壓縮模型,減少內存占用,提升速度。
· oneAPI:統一編程模型,開(kāi)發(fā)者只需寫(xiě)一次代碼,就能同時(shí)在CPU和GPU上運行,不用再為不同硬件適配發(fā)愁。
總而言之,英特爾可以說(shuō)是通過(guò)硬件協(xié)同+軟件優(yōu)化,讓CPU和GPU不再是孤立的計算單元,而是高效配合的“黃金搭檔”。
這也就不難理解為什么基于英特爾解決方案的一體機,能夠做到如此的價(jià)低+質(zhì)優(yōu)了。
##實(shí)戰:如何在英特爾架構一體機上玩轉DeepSeek?
看過(guò)Demo演示和一體機介紹,你可能會(huì )好奇,假如現在就有機會(huì )拿到一臺這樣的一體機,該怎么用它把DeepSeek跑起來(lái)?
首先要配置系統環(huán)境,更新GPU驅動(dòng)版本必不可少。
主要框架是英特爾IPEX-LLM版本的llama.cpp,
以L(fǎng)inux系統為例,IPEX-LLM llama.cpp portable tgz包
在這個(gè)框架中,推薦使用GGUF格式的模型,這里使用unsloth開(kāi)源版本來(lái)說(shuō)明。
開(kāi)啟終端后,輸入以下命令進(jìn)入解壓縮后的文件夾:
cd /PATH/TO/EXTRACTED/FOLDER
要使用英特爾GPU加速,在運行 llama.cpp 之前,需要設置如下環(huán)境變量:
export SYCL_CACHE_PERSISTENT=1
接下來(lái),如果要運行的是671B版本DeepSeek-R1,就要請出FlashMoE來(lái)幫忙了。
DeepSeek-R1基于MoE架構,其實(shí)滿(mǎn)血版的激活參數僅約37億,但還是需要完整加載整個(gè)模型,這也是對于一體機來(lái)說(shuō)最大的難點(diǎn)。
FlashMoE是一款基于llama.cpp構建的命令行工具,專(zhuān)為MoE模型進(jìn)行優(yōu)化,整合了至強? W處理器內置的AMX/AVX-512技術(shù)和GPU加速庫,進(jìn)一步釋放CPU與GPU的異構協(xié)作能力,能在較低的硬件成本下獲得更高的推理吞吐量與更優(yōu)的性能表現。
在llama.cpp + FlashMoE組合加持下,初步的性能驗證表明,在單路至強? W處理器加2-4塊英特爾銳炫? A770顯卡配置下,本文所述方案可以獲得接近10 Token/s 的性能表現,已能滿(mǎn)足企業(yè)級生成式AI,例如離線(xiàn)語(yǔ)音助手、文檔摘要等應用場(chǎng)景的需求。
總的來(lái)說(shuō),這套高度集成的軟硬一體模式,既滿(mǎn)足了長(cháng)上下文推理需求,又實(shí)現了能耗和成本的可控,為 AI 服務(wù)規?;涞靥峁┝丝煽壳乙子玫幕A設施。同時(shí),它能更好地滿(mǎn)足近期用戶(hù)在 DeepSeek 或其他開(kāi)源大模型實(shí)踐中的迫切需求,部署方式更靈活、更貼近業(yè)務(wù)環(huán)境,響應速度更快,還在數據安全和隱私保護方面具有先天優(yōu)勢。
以上是針對671B版DeepSeek的部署方法簡(jiǎn)要介紹,但實(shí)際上,蒸餾版憑借其精簡(jiǎn)而高效的特點(diǎn),能夠更好地貼合各行業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景和需求。
蒸餾版和滿(mǎn)血版的部的部署指南,都可在英特爾官網(wǎng)搜索“銳炫一體機”獲取。
它在應對這些行業(yè)的常規任務(wù)時(shí),不僅能夠提供足夠的處理能力和精準度,還能以更加靈活和易于部署及適配的方式融入到行業(yè)的業(yè)務(wù)流程當中。
##“低成本+高效率”的路子還在繼續
隨著(zhù)DeepSeek的影響力不斷擴大,大模型發(fā)展迎來(lái)了新的趨勢:走向推理普及化。
在以往,算力大多被集中投入到模型訓練中,但在未來(lái),算力資源的分配將發(fā)生顯著(zhù)轉變,更多的算力會(huì )被應用于推理環(huán)節而非訓練。
(圖源:IDC&浪潮信息)
從應用場(chǎng)景和市場(chǎng)選擇來(lái)看,除了超大規模的數據中心依舊在大模型運算中扮演關(guān)鍵角色外,一體機憑借其獨特的優(yōu)勢,正成為越來(lái)越多企業(yè)的心儀之選。
而在這個(gè)趨勢之中,一體機的優(yōu)勢就在于“低成本+高效率”,具體而言:
首先,一體機啟動(dòng)成本低。與傳統分散式設備組合搭建系統相比,其在硬件采購、軟件授權和初始配置等方面資金投入少,企業(yè)無(wú)需花大量前期資金構建完整運作體系,能以較低成本開(kāi)啟業(yè)務(wù)或辦公流程。
同時(shí),一體機易于維護部署。其高度集成化設計優(yōu)化硬件兼容性,減少硬件不匹配故障。日常維護中,其整體性強,便于技術(shù)人員進(jìn)行故障排查和維修,提高維護效率、降低難度。
此外,一體機可常駐用戶(hù)辦公與業(yè)務(wù)環(huán)境邊緣加速操作,在靠近數據源頭和使用場(chǎng)景處運行,減少數據傳輸距離和時(shí)間,降低延遲,提升業(yè)務(wù)處理速度和響應效率。
當然,一體機只是運行模型的硬件基礎,從英特爾最近的動(dòng)作看來(lái),對接和擴展更多接地氣的AI應用才是下一步重點(diǎn):
聯(lián)合Hugging Face、Anyscale、Zilliz等AI行業(yè)合作伙伴推出的企業(yè)AI開(kāi)放平臺 (OPEA) ,就是最好的證明。
如何理解OPEA?
首先,它提供了搭建大模型應用所需的零件,如提示引擎、數據處理、記憶系統、安全護欄等一起打包提供,解決生成式AI技術(shù)的工具碎片化問(wèn)題。
然后,它還是一款評估和優(yōu)化應用,能夠從性能、可信度、可擴展性和彈性等方面對AI應用進(jìn)行 “體檢”。以電商推薦商品的 AI 應用為例,通過(guò) “體檢” 可對應用進(jìn)行針對性的改進(jìn),使其更實(shí)用。
所以眾多合作伙伴加入,共建這個(gè)項目也就不奇怪了。
隨著(zhù)越來(lái)越多的合作伙伴加入,OPEA生態(tài)將不斷發(fā)展壯大并衍生出多樣化的發(fā)展路徑。
例如中國開(kāi)放智能計算產(chǎn)業(yè)聯(lián)盟(COIA)目前已匯聚近60家成員單位,專(zhuān)注于推動(dòng)企業(yè)AI生態(tài)協(xié)同發(fā)展。該聯(lián)盟即將推出“Powered By OPEA”認證體系,旨在確保合作伙伴間OPEA生態(tài)的互聯(lián)互通。
作為業(yè)界首個(gè)企業(yè)級AI應用認證標準,該體系將成為OPEA生態(tài)的核心保障機制,為通過(guò)認證的產(chǎn)品授予跨平臺互操作性標識。
“Powered By OPEA”認證將促進(jìn)AI產(chǎn)業(yè)生態(tài)的完善,加速企業(yè)AI標準化進(jìn)程,并發(fā)展成為企業(yè)選擇生成式AI組件的重要信任基準。
“AI無(wú)處不在”的故事在持續上演。
相關(guān)閱讀
- 260萬(wàn)用戶(hù)見(jiàn)證,沃爾沃全新XC60限時(shí)25.49萬(wàn)起,安全健康雙保障
- 2025新國標倒計時(shí):央視揭秘電動(dòng)兩輪車(chē)“非法改裝電池”安全隱患
- 宜信公益“石榴籽助學(xué)金”點(diǎn)亮卓資學(xué)子求學(xué)夢(mèng)
- 優(yōu)化公司治理結構 水晶光電推動(dòng)全球化戰略布局
- 解碼福華化學(xué)的綠色崛起之路
- 星驛付與慧徠店:科技驅動(dòng)升級,賦能數字商業(yè)新發(fā)展
- 高交會(huì )打造“科技強縣展區” 縣域經(jīng)濟迎來(lái)創(chuàng )新發(fā)展新引擎
- AP優(yōu)卡Web3合規先行,打造全球支付的安全護城河
- 西貝斬獲 “中國兒童餐第一品牌”,用溫度與健康詮釋家庭歡聚新內涵
- 華夏幸福高質(zhì)量服務(wù)中國企業(yè)出海:寧德時(shí)代印尼基地開(kāi)工
推薦閱讀
快訊 更多
- 07-09 13:16 | 三重煥新,啟航未來(lái)——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線(xiàn)
- 04-10 11:21 | 為“首發(fā)經(jīng)濟”注入創(chuàng )新動(dòng)力,CMEF見(jiàn)證寬騰醫學(xué)影像技術(shù)革新
- 02-20 18:53 | 手機也要上HBM芯片?三星計劃推出移動(dòng)版HBM,預計首款產(chǎn)品2028年上市
- 12-30 16:40 | 國產(chǎn)首款DDR5內存問(wèn)世!價(jià)格戰開(kāi)啟,復制長(cháng)江存儲擊敗三星路徑!
- 12-30 16:36 | 華為手機回歸第一年:全年銷(xiāo)量或超4000萬(wàn)臺 有望憑借Mate 70在高端市場(chǎng)擊敗蘋(píng)果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書(shū)》 擬投資設立漣水食用菌產(chǎn)業(yè)園項目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購項目(標段二)
- 11-26 18:14 | 健之佳擬用不超1億回購公司股份 維護公司價(jià)值及股東權益
- 11-26 09:53 | 格靈深瞳收購深圳市國科億道科技有限公司部分股權并增資5000萬(wàn)
- 11-26 09:37 | 煒岡科技擬以1.49億購買(mǎi)衡所華威9.33%股權 華海誠科擬發(fā)行可轉債收購煒岡科技所持衡所華威股權