2060顯卡怎么樣
現如今,我們對顯卡需求越來越大,很多大型游戲都需要顯卡的加持,如果沒有顯卡加持的話,那么電腦主機在一定程度上是帶不動大型游戲的!那么,這兩款顯卡究竟哪個好呢?我個人是比較推薦RTX2060。首先,這兩...
2025.08.02COPYRIGHT ? 2023
粵ICP備2021108052號
郵箱:611661226@qq.com
留言給我本內容來源于@什么值得買APP,觀點僅代表作者本人 |作者:gaojie20
▲1984年上映,由詹姆斯·卡梅隆導演,阿諾·施瓦辛格主演的《終結者》豆瓣評分高達8.2分,其中故事背景中的天網是人類于20世紀后期創造的以計算機為基礎的人工智能防御系統。之后自我意識覺醒,視全人類為威脅。電影劇情中,公元2029年,經過核毀滅的地球已由電腦“天網”統治,人類幾乎被消滅殆盡。一個叫約翰·康納的軍事領袖召集幸存者一起對抗天網,組建了反抗軍組織。
▲其續集于2003年上映的《終結者3》片中顯示,天網的算力是60TFLOP/s,也就是每秒60萬億次浮點運算。
▲其續集于2003年上映的《終結者3》片中顯示,天網的算力是60TFLOP/s,也就是每秒60萬次F浮點運算
▲而在2022年的今天,英偉達最新發布的Ada Lovelace架構新旗艦RTX 4090在3.15 GHz頻率下算力可以達到100TFLOP,所有也有網友調侃:看起來無所不能的天網,算力只相當于0.6張RTX 4090顯卡。值得尋味的是《終結者》電影上映時間是1984年,而世界上第一塊顯卡發明于1981年,還是8位ISA顯卡。時間催化科技落地再擊穿曾經電影中的科幻數據,究竟是劇本預設太保守,還是科技進步太迅速呢?
NVIDIA Turing GPU 架構于 2018 年推出,由TSMC 12nm工藝制造,開創了 3D 圖形和 GPU 加速計算的未來。圖靈在 PC 游戲、專業圖形應用程序和深度學習推理的效率和性能方面取得了重大進步。使用新的基于硬件的加速器,Turing 融合了光柵化、實時光線追蹤、人工智能和模擬,以在 PC 游戲中實現令人難以置信的真實感和電影品質的互動體驗。
▲兩年后的 2020 年,由Samsung 8nm 8N工藝制造的NVIDIA Ampere 架構整合了更強大的 RT 核心和Tensor核心,以及一種新穎的 SM 結構,與 Turing GPU 相比,該結構可提供 2 倍 FP32 時鐘對時鐘的性能。這些創新使得 Ampere 架構在傳統光柵圖形中的運行速度比 Turing 快 1.7 倍,在光線追蹤中的運行速度高達 2 倍。
▲2022年新的 NVIDIA Ada Lovelace GPU 架構以數學家 Ada Lovelace 命名,他被認為是世界上第一位計算機程序員,因為使用了 TSMC 5nm 4N工藝制造,其構架規模遠遠超過了 Turing 和 Ampere GPU。幾何復雜性的增加和照明的創新使圖形看起來比以往任何時候都更加逼真。 與之前的 NVIDIA Ampere GPU 架構相比,Ada 在光柵化游戲中的速度高達 2 倍,在光線追蹤游戲中的速度高達 4 倍。
Ada 圖形架構預示著第三代 NVIDIA RTX 技術,通過利用實時光線追蹤來提高游戲視覺效果的真實性,而無需繪制純光線追蹤 3D 圖形所需的大量計算能力。這是通過將傳統的光柵圖形與光線追蹤元素(例如反射、照明和全局照明等)混合來完成的。第 3 代 RTX 預示著新的更高 IPC “Ada” CUDA 核心、第 3 代 RT 核心、第 4 代 Tensor 核心和新的光流處理器(Optical Flow Processor),該組件在不涉及 GPU 主圖形的情況下在生成新幀中起關鍵作用渲染管道。
NVIDIA Ada GPU 完整架構
▲完整的 AD102 GPU 包括 12 個圖形處理集群 (GPC)、72 個紋理處理集群 (TPC)、144 個流處理器 (SM) 和一個 384 位顯存接口以及12 個 32 位顯存控制器。此外還包括 288 個 FP64 內核(每個 SM 2 個),上圖中未顯示。 FP64 TFLOP 率是 FP32 操作的 TFLOP 率的 1/64。包含少量的 FP64 內核以確保任何具有 FP64 代碼的程序都能正確運行,其中還包括FP64 Tensor Core 代碼。
完整的 AD102 GPU 使用了12個GPC單元構成,每個GPC的SM為12個共144個SM,所以可以計算出:
144(SM)*128(CUDA內核)=18432(CUDA內核)
144(SM)*1(RT核心)=144(RT核心)
144(SM)*4(Tensor核心)=576(Tensor核心)
144(SM)*4(TMUs紋理單元)=576(TMUs紋理單元)
12(GPC)*16(ROPs光柵單元)=192(ROPs光柵單元)
12(顯存控制器)*32bit(位寬)=384bit(顯存位寬)
和上一代第一款首發產品RTX 3090一樣,RTX 4090不是完整版核心,而是配備了這一代的第一款 Ada Lovelace GPU: AD102-300-A1。
NVIDIA AD102-300-A1 GPU架構
▲盡管這張旗艦卡中使用的芯片并不是完整的核心,AD102依然擁有128 個流式多處理器 (SM) ,包含16384 個 CUDA 內核。
RTX 4090的AD102-300-A1核心
▲RTX 4090使用了11個GPC單元構成,9個GPC的SM為12個,2個GPC的SM為10個,共144個SM。所以可以計算出:
128(SM)*128(CUDA內核)=16384(CUDA內核)
128(SM)*1(RT核心)=128(RT核心)
128(SM)*4(Tensor核心)=512(Tensor核心)
128(SM)*4(TMUs紋理單元)=512(TMUs紋理單元)
11(GPC)*16(ROPs光柵單元)=176(ROPs光柵單元)
12(顯存控制器)*32bit(位寬)=384bit(顯存位寬)
Ada的圖形處理集群 (GPC)
▲Ada的圖形處理集群 (GPC)包含1個光柵引擎,6 個 TPC、12 個 SM 和 16 個 ROP。
GPC 是所有 AD10x Ada 系列 GPU 中占主導地位的高級硬件模塊,所有關鍵圖形處理單元都位于 GPC 中。每個 GPC 包括一個專用的光柵引擎、兩個光柵操作 (ROP) 分區,每個分區包含八個單獨的 ROP 單元和六個 TPC。每個 TPC 包括一個 PolyMorph 引擎和兩個 SM。
AD10x GPU 中的每個 SM 包含 128 個 CUDA 核心、1個 Ada 第三代 RT 核心、4個 Ada 第四代Tensor 核心、四個紋理單元、一個 256 KB 寄存器和 128 KB 的 L1/共享緩存。
Ampere 架構的第2代RT Core
▲Ampere 架構的第2代RT Core圖中,BVH 遍歷由 Box Intersection Engine (左側)加速,光線-三角形相交測試由 Box Intersection Engine 加速 三角形相交引擎 (右側)。通過兩者為光線追蹤功能提供專用資源,從而解放SM單元,使其騰出時間來執行其他像素、頂點和計算著色任務。在使用綜合基準測試以及真實游戲和應用程序進行測試時,Turing 和 Ampere GPU 中的 RT Core 已被證明是迄今為止處理 RT 工作負載的性能最高的引擎。
Ada 架構的第3代RT Core
▲Ada 架構的第3代RT Core,在繼承了第2代的兩個功能單元之外,新增了Opacity Micromap Engine (左下)和 Displaced Micro-Mesh Engine (右下)這兩個專用單元。
葉子或火焰等復雜形狀通常使用紋理中的 alpha 通道來表示透明度和不透明度的級別
▲在 Ada 的 RT Core 之前,開發人員可以通過將某些內容標記為不透明來將它們合并到光線追蹤場景中。當葉子被光線擊中時,將調用著色器來確定如何處理相交,即使光線只是簡單地表征為命中或未命中。這會產生很大的計算資源開銷。具體來說,當光線扭曲投射到非透明對象時,單個光線查詢可能需要多次著色器調用才能解析,而其他光線會立即終止。結果是資源開銷大以及效率低下。
為了有效處理此類內容,NVIDIA 工程師在 Ada 的 RT Core 中添加了 Opacity Micromap Engine。不透明微圖是微三角形的虛擬網格,每個微三角形都具有不透明狀態,RT Core 使用該狀態直接解析與非透明三角形的光線交叉點。具體而言,交叉點的重心坐標用于處理相應的微三角形的不透明度狀態。不透明狀態可以是不透明的、透明的或未知的。如果不透明,則記錄并返回命中。如果透明,則忽略交叉點并繼續搜索交叉點。如果未知,則將控制權返回給 SM,調用著色器(“anyhit”)以編程方式解決交集。
新的Opacity Micromap Engine處理不透明度蒙版時,將其劃分為規則的三角形網格,用于報告光線/三角形交點的重心坐標。這些網格的大小可以是1到1600萬個微三角形,每個微三角形有1-2bit。
▲考慮使用兩個三角形和一個 alpha 紋理描述的詳細楓葉(參見子圖 (a))。 不透明蒙版應用于由 2 個三角形組成的楓葉。Opacity Micromap Engine評估葉子并確定哪些部分是不透明的、透明的或未知的,對應葉子的不透明區域,最后紅色和藍色對應混合不透明區域(未知)。在上面的示例中,Opacity Micromap Engine將微型三角形的 30 個標記為透明,41 個標記為不透明,57 個標記為未知。這意味著超過一半的葉子被完全表征,并且超過一半的與這些三角形相交的光線要么錯過了葉子,要么明確地與葉子的內部相交。結果是,Ada RT Core 無需調用任何著色器代碼即可完全表征這些光線,同時保留原始 Alpha 紋理的完整分辨率和保真度。不過當處于未知狀態時,GPU會將控制權返回給SM著色器進行解析。
▲與 Ampere 相比,Ada 的 Opacity Micromap Engine 與不透明蒙版減少了SM著色器工作負載,通常投射在 alpha通道中的測試幾何體上的陰影光線會看到最大的收益。 Ada 的不透明蒙版支持可以顯著增加場景中詳細幾何圖形的數量和保真度,從而提高真實感。借助這項新功能,它將 alpha 遍歷速度提高了 2 倍。開發人員可以非常快速地將不透明度值分配給不規則形狀的物體(如蕨類植物和柵欄)或半透明的物品(如火焰或煙霧),從而允許 Ada RT Core 直接對對 alpha 測試紋理進行光線追蹤,而不是依賴 GPU 的 SM著色器單元。大幅提升對 alpha 測試紋理進行光線追蹤的速度。
▲集成到 Ada RT Core 中的第2個新硬件單元是 Displaced Micro-Mesh Engine,旨在減少處理具有高水平幾何細節的復雜對象時傳統上所需的 BVH 構建時間和存儲要求。有了這個新功能,NVIDIA開發了一種新的位移微網格原語來進行光線追蹤。 當需要額外的幾何細節時,Displaced Micro-Mesh Engine可以根據需要動態生成額外的微三角形。與傳統渲染這些復雜對象相比,Displaced Micro-Mesh Engine將 BVH 構建時間縮短了 10 倍,同時將 BVH 存儲需求降低了 20 倍。
Ada 流處理器 (SM)
▲與之前的Ampere一樣,Ada SM 分為四個分區,每個分區包含一個 64 KB 寄存器、一個 L0 指令緩存、一個 warp 調度程序、一個調度單元,16 個專門用于處理 FP32 操作的 CUDA 內核(每個時鐘最多 16 個 FP32 操作),16 個可以處理 FP32 或 INT32 操作的 CUDA 內核(每個時鐘 16 個 FP32 操作或每個時鐘 16 個 INT32 操作),一個 Ada 第4代Tensor 核心、四個加載/存儲單元和一個執行先驗和圖形插值指令的特殊功能單元 (SFU)。
Ada SM 包含 128 KB 的 1 級緩存。該緩存采用統一架構,可根據工作負載配置為 L1 數據緩存或共享內存。完整的AD102 GPU 包含 18432 KB 的 L1 緩存,而Ampere構架中完整的GA102 僅有 10752 KB。
與 Ampere 相比,Ada 的 2 級緩存進行了徹底改造。 AD102 配備了 98304 KB 的二級緩存,比 GA102 中的 6144 KB 提高了 16 倍。這會讓所有應用程序都受益,而諸如光線追蹤之類的復雜操作最為受益。
▲Ada GPU升級的第4代Tensor 核心為現有 FP16、BF16、TF32 和 INT8 格式提供雙倍的吞吐量,其第4代Tensor 核心引入了對新 FP8 的支持。與 FP16 相比,FP8 的數據存儲需求減半,吞吐量翻倍。借助新的 FP8 格式,GeForce RTX 4090 可為 AI 推理工作負載提供 1.3 PetaFLOPS 的性能。
▲NVIDIA DLSS 3 是 AI 驅動圖形領域的革命性突破,可大幅提升性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭載的全新第四代 Tensor Core 和光流加速器提供支持,可利用 AI 創造更多高質量幀。
▲基于 Ada 架構的全新顯卡配備了支持 AV1 編碼的全新第八代 NVIDIA 編碼器 (NVENC),可為主播、廣播愛好者和視頻通話用戶帶來更多新的嘗試和體驗。該技術的效率比 H.264 高 40%,這有助于主播在保持直播推流比特率不變的情況下,將畫面分辨率從 1080p 提高到 1440p,且畫質依然穩定。
▲ PNY是一家美商公司,中文名:必恩威,成立于 1985 年,是致力于消費和商業級電子制造的全球技術領導者。PNY 擁有 30 多年為全球消費者、B2B 和 OEM 提供服務的經驗。產品在北美、拉丁美洲、歐洲和亞洲的 50 多個國家和地區設有 20 家公司,在全球主要零售店、電子零售店、批發商和分銷商處銷售。產品組合包括種類繁多的 USB 閃存驅動器、閃存卡、PC 內存升級、固態驅動器、NVIDIA? 顯卡和 HP 閃存產品。憑借面向移動、數字成像、計算和游戲解決方案的產品。
其實我對PNY的了解,還是因為在北美的bestbuy海淘Quadro專業顯卡,PNY在北美是Quadro和Tesla的獨家代理商,這個定位非常類似中國的麗臺,2020年開始銷售的Geforce RTX 3000系列消費級顯示卡基本和國內麗臺銷售的外形是非常類似的,因為都是Palit代工出品,2021年底開始獨立研發生產顯示卡,那么RTX 4000就是PNY獨立研發生產顯示卡的開山之作。
▲而XLR8 Gaming系列就是PNY所規劃的游戲系列產品,當然PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB? TF就是PNY目前出品的消費級旗艦顯卡。
▲包裝正面
▲包裝背面
▲包裝側面
▲同比其他品牌的RTX3090包裝盒,PNY的包裝體積要小不少
▲開箱
▲原封本體
▲原封標簽
▲這是靜電袋的標簽,和盒子上的標簽以及顯卡上的標簽,配合成三碼合一。其中D43724是PNY獨有的工廠碼。
▲附件全家福
▲1組 16-Pin 轉 四組 8-Pin的供電排線,官方稱之為PCIe5 12VHPWR Adapter。
▲這種帶有NVIDIA標的4 x 8P轉12VHPWR的線其實我不建議使用,因為這種線材全部是由NVIDIA配送的套料,每一家都是一樣的,因為前期有報道NVIDIA這批轉接線有嚴重的焊接方式的質量問題,容易導致顯卡與轉接線的12VHPWR位燒熔,所以這里我極力建議大家不要使用這條線,具體分析我會放在文章結尾部分。
▲附贈的一組顯卡支撐架,官方命名為:VGA Support Kits,來自聯力代工制造。
▲安裝方式如上圖
▲顯卡正面使用了三個100mm雙滾珠環型風扇
▲與傳統90mm風扇相比增加了40%以上的風量,風壓提高55%。
▲顯卡背面使用了沖壓成型鋁制金屬背板
▲顯卡背板的一塊做了鏤空設計,方便風扇將熱風吹至機箱內部。
▲顯卡頂部設計了一組XLR8的ARGB燈效
▲由于這次的RTX 4090各家都采用了短PCB設計,所以16PIN供電設計在短PCB的一側上方,覆蓋上全長度的散熱器,就會顯得外接供電貌似設計在顯卡的中間部分。
▲顯卡底部
▲顯卡的厚度是71.1mm,標準的3.5槽厚度。接口部分為3x DisplayPort 1.4, 1x HDMI 2.1
▲顯卡前部可以看出使用了4熱管穿Fin。
▲這張顯卡的體積控制在331.8 x 136.8 x 71.1mm,長度比公版的創始者310mm略長,但是短于其他AIC的同型號產品。
▲顯卡體積的兼容性對比
▲我直接對這張顯卡進行了拆解
▲沖壓全鋁背板
▲散熱器本體
▲散熱使用了8根熱管
▲接觸底座使用了Vapor-Chamber真空腔均熱板設計。
▲PCB正面
▲PCB背面
PNY的這張卡的PCB是公版PG139-SKU330
▲這張顯卡全部的MOSFET使用都是OnSemi NCP302150 DrMOS,分別用于GPU和顯存供電;額定電流均為50A 。
▲GPU核心的PMW芯片是uPI uP9512U 。
▲該控制器管理14 相GPU核心供電。
▲顯存供電PMW芯片是UPI uP9512R
▲該控制器管理3相顯存供電。
▲GDDR6X 內存芯片由美光制造,型號為 D8BZC,解碼為 MT61K512M32KPA-21:U。它們被指定以 1313 MHz(21 Gbps 有效)運行。
▲GPU核心是AD102-300-A1
▲HOLTEK HT32F52352芯片控制燈效以及風扇轉速。
▲GSTEK GS9216是一顆12A降壓芯片。
▲UPI US5650Q是一顆四通道電壓電流監控芯片,監測PCB上四顆SHUNT RESISTOR,2顆R002和1顆R005在12VHWPR附近, 1顆R005在金手指附近。
這個供電的思路看下來,感覺PNY的設計比較關注默認效能穩定性,沒有大量的堆料供應超頻需求。設計方案和Palit類似。
既然都是PG139-SU330公版參考設計,為什么各家的PCB有明顯的不同,包括電源的相數以及供電的方案。其實來自igor'sLAB的主編Igor Wallossek早就發表過他的意見,在Ada設計之初,NVIDIA考慮的仍然是使用SAMSUNG 8N制程,所以給與板卡廠商的散熱以及電路設計參考指南都是以600W散熱規模以及供電規模呈現的,因為整個產品的規劃確實需要幾個月時間,但是AMD的NAVI 31確定下來使用TSMC 5-6nm混合工藝制造后,NVIDIA估計是不淡定了,立即改變Ada的制程,直接轉投TSMC 5nm改良版4N,確實TSMC 4N面對AMD確定的TSMC 5-6nm混合制程是存在優勢的,同時由于一些市場戰略問題,NVIDIA并沒有向板卡廠商透露工藝變更事宜,直到AD102出來,NVIDIA通知板卡廠商RTX 4090的TGP和散熱設計為450W才得到確認。
ASUS ROG Strix GeForce RTX 4090 OC
▲這時候板卡廠商更換方案已經來不及了,于是就用600W的電路設計+散熱方案直接推出了RTX 4090的產品,可以理解成PG139-SU330公版參考設計的600W加強版。
NVIDIA Geforce RTX 4090 Founders Edition
▲其實對于NVIDIA自己的FE版本也是早早設計好了600W的電路PCB,就是PG139-SU330公版的600W變種加強版,但是上市時候使用了450W的散熱模塊,原先計劃的三風扇FE散熱方案可以移交到RTX 4090Ti上去了。
Palit GeForce RTX 4090 GameRock OC
▲在投片TSMC 4N之后NVIDIA在市場方面向板卡廠商出售方案的時候就完全轉向了450W的PG139-SU330公版設計,包括供電套料都一并提供,并極力要求廠商這樣去做,原因就是在面對未來的NAVI-31的時候,NVIDIA希望表現的是一個比對方優秀的能耗比,而不是一個多燒了33%TGP功耗性能多出5%的產品,諸如Palit抑或PNY就是屬于后期被NVIDIA規劃為450W產品線的主推廠商。
所以這一代產品,PG139-SU330公版參考設計是600W版本還是450W版本,完全取決于NVIDIA介入生產設計的時間線,在轉投TSMC 4N之前,都是600W方案,在投了TSMC 4N之后都是450W方案。
那么是不是600W版本的PCB以及散熱設計就會強很多呢?這取決于板卡廠商的慣性思維,因為SAMSUNG 8N制程Ampere的GPU核心提供給廠商的時候是存在分級的,分為30%的BIN0,60%的BIN1,10%的BIN2。這是由三星的良率問題決定,所以產生了BIN2這樣的Sorting GPU核心,優秀的核心會提供給核心AIC裝備,比如御三家這些,所以御三家的旗艦版會比下游廠家的核心在同樣電壓下BOOST到更高更夸張的頻率,這讓超公版PCB和散熱設計變得非常有價值。但是TSMC 4N卻不提供所謂的Sorting GPU核心,這次只有BIN1,沒有BIN0和BIN2,每一家拿到的核心體制都基本一致,沒有特別優秀的也沒有特別差的,這就讓想做超公版的廠家特別頭疼,因此,大家看評測所了解的600W滿載的效能也并沒有特別多的效能提升,能耗比完全沒有優勢。
電源適配
▲為了盡可能穩定有效的完成測試任務,電源這次使用了Seasonic Prime TX-1600
▲Seasonic Prime TX-1600包裝
▲80PLUS鈦金認證,電源原生支持兩個PCIe5 12VHPWR供電接口。
▲開箱
▲附件全家福
▲線材包1
▲線材包2
▲PCIe5 12VHPWR供電線
▲PCIe5 12VHPWR供電接口部分
▲海韻的PCIe5 12VHPWR供電線直接定義為600W輸出。
▲電源本體背面
▲電源本體正面
▲電源本體側面
▲電源模組接口
▲45°視角
京東
Seasonic 海韻 PRIME-TX 鈦金牌(94%) 全模組ATX電源 電腦電源 1600W3599元實時價格8小時前已更新去購買
測試平臺
【CPU】: AMD Ryzen 7 5800X
【主板】: ASRock X570S PG Riptide
【內存】: Lexar THOR DDR4-3600 16GB X2(White)
【硬盤】: LEXAR NM800 1TB M.2 PCIe Gen 4X4 SSD
【顯卡】: PNY RTX 4090 OC XLR8 Gaming Verto
【散熱】: Thermalright Forzen Magic 240 ARGB
【機箱】: SilverStone RM42-502
【電源】: Seasonic TX-1600
【系統】: Windows 11 x64 WorkStation 21H2
【系統】: Ubuntu 18.04.6 x64
▲視角1
▲點亮的光效
▲GPUZ默認參數
▲閑時,使用HWINFO對GPU功耗、GPU熱點溫度、GPU溫度以及顯存結溫進行了監控,可以發現:
功耗=14.834W,
GPU熱點溫度=45.8°C
GPU溫度=36.9°C
顯存結溫=40°C
▲我們進行3DMARK Speed Way的壓力測試,本測試一共20輪,我們在第17輪開始統計,榨出當前最高的TGP和溫度并使用HWinfo監控。
▲運行3DMARK Speed Way壓力測試是因為要一直處于GPU 100%滿載狀態:
功耗=443.946W,
GPU熱點溫度=79.9°C
GPU溫度=70.3°C
顯存結溫=80°C
這基本是目前現有手段能榨出的最大表現力。
▲回到HWINFO監控頁面去復盤,了解一下這張卡的一些特性:
關于GPU功耗,最低9.133W,最高445.763W,基本說明這張卡的功耗區間,看起來被鎖450W TGP。
GPU頻率在待機時候穩定在210MHz,滿載時候達到2820MHz。
顯存頻率在待機時候穩定在101.3MHz,滿載時候達到2625.5MHz。
GPU過熱限制=84°C,說明整個顯卡的散熱設計是為了把GPU溫度壓制在84°C以內。
GPU風扇1是三顆風扇中的左右兩顆并聯,待機基本不轉,測試時候轉速最大達到1713RPM,但這只是風扇全速轉速的49%。
GPU風扇2是三顆風扇中的中間一顆,在待機時候基本不轉,測試時候轉速最大達到1721RPM,但這只是風扇全速轉速的49%。
▲想讓風扇全速,使用PNY的VelocityX軟件就可以做到。
▲將風扇這里的自動關閉,轉速拉到100%即可達到最大轉速3086RPM。
下面看一下超頻效果,
▲超頻之前跑了一個3DMARK TIME SPY EXTREME測試,GPU分數19472
▲隨后我直接將GPU核心加了200MHz,
▲進行3DMARK TIME SPY EXTREME測試,GPU分數19912
▲HWINFO監控數據的GPU功耗依然牢牢被鎖在450W以內。
▲比較一下兩個測試,差異主要是CPU核心頻率boost從2790MHz越遷到2985MHz,實際功耗沒有增加,溫度也沒有增加。所以也不用動輒對boost核心頻率達到3000MHz的600W超級公版垂涎三尺,其實哪怕450W TGP的RTX 4090往上隨便拉個200-250核心頻率就隨意可以達到3000MHz的boost核心頻率。
▲這說明這次的AD102-300-A1核心在不增加功耗的情況下是留有一定余量的性能可以壓榨的,但是空間不大,200-250MHz,一旦超過這個范圍,就需要BIOS破除Maximum Power Limit 450W的限制。
▲關于RGB特效,VelocityX提供了多種選擇,下面展示幾張我拍攝的燈光效果。
視頻
▲基本情況部分測試到此結束。
▲從左往右,依次是PNY RTX 4090 Verto、影馳RTX 3090 Ti星耀以及七彩虹RTX 3090火神
▲三款產品同比
▲厚度上PNY RTX 4090略厚,長度和影馳RTX 3090 Ti星耀基本一致。
▲NVIDIA GeForce RTX 40系列顯卡的一大變化就是新增了對DLSS 3技術的支持,DLSS 3在前代DLSS2的基礎上,通過(OFA)光流加速推斷下一幀生成的目標畫面,使傳統CUDA算力得到極大的節省,讓GPU在應對高分辨率實時渲染游戲時可以更加游刃有余,與不使用DLSS相比,理論上游戲性能的提升可高達4倍。
▲DLSS 3由于Frame Generation的加入,它的理論幀數性能能達到原先DLSS 2的雙倍,這使得GeForce RTX 40系顯卡能夠以更小的壓力用4K分辨率高畫質運行所有支持DLSS 3的游戲,同時距離流暢體驗8K游戲也更進一步。
▲目前有超過35款游戲和應用宣布即將支持DLSS3。
《Cyberpunk 2077》DLSS3設置
▲DLSS 3的相關測試使用《Cyberpunk 2077》完成,雖然選擇游戲自帶的BENCHMARK進行測試,但由于DLSS 3應用了新技術,當下游戲自帶的幀數記錄功能并不能精準地記錄下開啟DLSS 3之后的游戲幀數。因此在DLSS 3游戲中,雖然使用游戲自帶的BENCHMARK進行測試,但實際幀數以NVIDIA的FrameView工具為準。
▲開啟光追測試,我們可以發現,開啟DLSS 2之后的游戲性能幀數已經相當可觀,然而當開啟DLSS 3之后,游戲性能在DLSS 2的基礎上又提升了一大截,與關閉DLSS相比,在4K分辨率下開啟DLSS 3質量可以帶來170%的性能提升,2K分辨率下可以帶來145%的性能提升。
生產力測試環節使用了Puget Systems的三個測試腳本進行測試:
▲本測試以Adobe After Effects 22.4為測試載體
▲以PugetBench for After Effects 0.95.2為工具基準進行測試
本測試涉及到了許多不同的項目,其中包括一個專用的“GPU 壓力”測試,該測試旨在往 GPU 上施加盡可能多的負載,同時仍保持在某人在現實世界中可能實際執行的范圍內。 在 After Effects 等應用程序中查看 GPU 性能通常是檢查 GPU 承受重負載的極端情況的情況,因此通過每個 GPU 的 After Effects 基準測試中看到的整體性能開始,GPU 分數是根據“GPU Stress”組合的性能計算得出的,該組合旨在將盡可能多的負載置于 GPU 上,同時最大限度地減少 CPU 作為瓶頸,可以很好地顯示 After Effects 中不同 GPU 之間的最大性能增量。
GPU分數的基準是以NVIDIA GeForce RTX 3080 10GB為100分參考基準。
NVIDIA GeForce RTX 3080 10GB
GPU分數:100
▲測試數據匯總
▲本測試以Adobe Premiere Pro 222.6.1為測試載體
▲以PugetBench for Premiere Pro 0.95.3為工具基準進行測試。
這個基準測試通過4K和8K分辨率以及29.97和59.94 FPS的各種編解碼器來研究實時回放和導出性能。對于GPU測試使用專用的“重載GPU效果”單獨向GPU施加盡量多的壓力,使其超出普通Premiere Pro用戶的工作范圍來進行測試。
測試的剪輯素材 (59.94 FPS)素材分辨率以及編碼器包含:4K H.264 150mbps 8-bit (59.94FPS)、4K ProRes 422、4K RED、8K RED、8K H.265 100Mbps。
對于每種類型的測試素材,進行四種測試:
標準 - 兩個 59.94FPS 片段串聯,應用 Lumetri Color 效果
2x Forward - 四個 59.94FPS 剪輯,在 119.88FPS 序列中將 Lumetri 顏色設置為 200% 速度,以模擬以 2 倍速度播放時的性能。
4x Forward - 8 個 59.94FPS 剪輯,在 239.76FPS 序列中將 Lumetri 顏色設置為 400% 的速度,以模擬以 4 倍速度播放時的性能。
MultiCam - 在多機位序列中跨四六個軌道的多個剪輯。在“多相機”顯示模式下測試播放。
這些測試都用于全回放分辨率的實時回放性能測試。
標準測試還使用“Youtube 2160p 4K 超高清”預設(H.264、4K、40mbps)以及導出到 4K ProRes 422HQ 8-bpc 來測試其導出性能。
關于GPU有一個“Heavy GPU Effects”測試,使用:
串聯的 Twp ProRes 422 剪輯,每個剪輯之間有交叉溶解
高級效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur 和 VR Digital Glitch。
極致效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur、VR Digital Glitch 和 VR De-Noise。
通過導出到 ProRes 422HQ 來衡量性能。
GPU 分數基準是以NVIDIA GeForce RTX 3080 10GB為100分參考基準:
NVIDIA GeForce RTX 3080 10GB
GPU分數:100
▲測試數據匯總
▲本測試以BlackMagic DaVinci Resolve Studio 18.0.2為測試載體,以PugetBench for DaVinci Resolve 0.92.3為工具基準進行測試。
本基準測試主要使用各種編解碼器以 4K 和 8K(僅限擴展預設)分辨率、OpenFX 以及 Fusion 中的性能進行渲染。
測試的剪輯素材 (59.94 FPS)素材溯源自以下兩家自媒體提供的樣片:包含以下分辨率和編解碼器:
4K H.264 150mbps 8-bit、4K ProRes 422、4K RED、8K RED以及8K H.265 100mbps
GPU 效果部分側重于 OpenFX 和降噪,包含以下效果:
Temporal NR x3 - 2 Frames Better
Temporal NR - 2 Frames Better
Film Grain
Spatial NR - Better
Lens Blur x5
Lens Flare
Optical Flow - 50% Enhanced Better
Face Refinement
▲測試數據匯總
最后需要說明的是,本次測試的剪輯素材來自以下兩家自媒體:
▲4K和8K RED剪輯視頻來自老萊的工作室,這些剪輯也已轉碼以創建H.265和ProRes 422剪輯。Linus Media Group是老萊的公司,在YouTube上提供了流行的 LinusTips和 TechLinked頻道。
▲Neil Purcell是倫敦著名的照明攝影師,在廣播電視領域擁有超過25年的經驗。從事各種各樣的作品;從戲劇到木偶,現場新聞和事實,兒童節目,燈光娛樂,真人秀,外部廣播,重大體育賽事,音樂演唱會,流行視頻,企業電影和商業廣告。圖中Neil Purcell(燈光攝影師/攝影操作員)正在以他的松下 GH5 拍攝 4K H.264 素材。本次測試使用的4K H.264素材來源于他的剪輯作品。
RTX 4090 具有576個第4代Tensor核心 ,RTX 3090 Ti 具有336個第3代Tensor核心,RTX 3090 具有328個第3代Tensor核心,理論上RTX 4090的Tensor核心不僅有數量上的優勢而且有迭代的優勢。這對深度學習來說是個非常大的利好。不過RTX 4090實在太新了可能需要點時間才能讓深度學習的周邊支持跟上,正好CUDA Toolkit 11.8趕著發布了,所以直接使用了NVIDIA的NGC 容器系統進行測試。
▲測試系統
Ubuntu 22.04 Linux
NVIDIA Enroot 3.4
來自NVIDIA NGC 的容器化應用程序
TensorFlow 1.15.5 ML/AI 框架標簽:nvcr.io/nvidia/tensorflow:22.09-tf1-py3
PyTorch 1.13.0a0 ML/AI 框架標簽:nvcr.io/nvidia/pytorch:22.09-py3
▲ TensorFlow 1.15.5版本是 NVIDIA 維護的 ,能提供更好的性能。基準是訓練 100 Step的 ResNet 50 卷積神經網絡 (CNN)。結果是以每秒處理的圖象數來決定。精度可選擇FP32 和 FP16 。每秒處理的圖象數越多說明性能越好。
命令行:
CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp16CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp32
▲測試數據匯總
▲基準測試使用 PyTorch 1.13 在帶有 CUDA 的 Wikitext-2 的神經網絡上對Transformer 模型進行 6 epoch 的訓練,完成時間越短,說明性能越好。
命令行:
time CUDA_VISIBLE_DEVICES=0 python main.py --cuda --epochs 6 --model Transformer --lr 5 --batch_size 640
▲測試數據匯總
值得注意的是PyTorch和TensorFlow的迭代支持很快,一些優化一定會持續跟進Ada構架進行優化的,所以預留了未來可期許的深度學習性能提升空間。
其實我對測試平臺不太追新,最主要的問題就是怕不兼容,結果還是遇到了不兼容的情況,最后得到了解決:
測試平臺我選用的是ASRock X570S PG Riptide主板以及AMD Ryzen 7 5800X,沒有選用INTEL 12和13代平臺以及AMD Ryzen 7000系列平臺最主要的原因是因為有部分的測試在Ubuntu 18.04.6 LTS下進去,對于Linux平臺而言,支持如上新平臺發揮效能需要更新內核到5.17-5.22以上,存在一些未知且不可預測的可能性,求穩所以使用了成熟的平臺。
▲ASRock X570S PG Riptide包裝
▲ASRock X570S PG Riptide附件一覽
▲ASRock X570S PG Riptide本體
▲安裝AMD Ryzen 7 5800X,散熱器選用的是Thermalright Forzen Magic 240 ARGB。
▲ Thermalright Forzen Magic 240 ARGB包裝
▲Thermalright Forzen Magic 240 ARGB本體1
▲Thermalright Forzen Magic 240 ARGB本體2
▲SSD選擇的比較穩健的LEXAR NM800 1TB M.2 PCIe Gen 4X4 ,為了提高兼容性選用了主流的IG5236主控+美光B47R NAND。
▲SSD本體正面
▲SSD本體背面
▲安裝設備在M.2-1 CPU PCIe Lane槽位。
▲CrystalDiskMark 8.0.24的持續讀寫使用QD32T1的默認設置,隨機讀寫使用QD32T16的條件,可以非常接近官標所標識的UP TO的最大值:
Sequential Read [持續讀取](Q=32,T=1) : 7459 MB/s 超越官標
Sequential Write [持續寫入](Q=32,T=1) : 5738 MB/s 接近官標
Random Read 4KiB [4K隨機讀取](Q=32,T=16) : 399K IOPS 接近官標
Random Write 4KiB[4K隨機寫入] (Q=32,T=16) : 1013K IOPS 遠超官標
評估了下,基本可以認為達到了官標的性能。
內存選擇的是Lexar THOR DDR4-3600 16GB X2(White)
▲DRAM本體正面
▲DRAM擺拍2
▲上機
▲安裝內存在DIMM 2和DIMM 4。
▲上機用臺風看了下,美光F-Die,顆粒編號D8CJV,美光里的內部編號為MT40A2G8SA-062E:F,原生DDR4-3200的顆粒,SPD里有DDR4-3600 18-22-22-42 1.35V的XMP參數以及DDR4-3200 22-22-22-52 1.2V的JEDEC參數。
▲機箱選用的是一款工作站機箱SilverStone RM42-502
▲這是一款可以通過導軌直接上機柜的RACK機箱
▲支持240-280水冷。打開前門可以看到兼容水冷的風扇進風位
▲SilverStone RM42-502的特點是可以通過附件里面的轉換件變成塔式工作站機箱
▲SilverStone RM42-502的塔式形態--開門
▲SilverStone RM42-502的塔式形態--關門,前門鑰匙是工作站機箱的標配。
▲組裝好硬件
▲第一件事情發現點不亮。。。。。。如圖所示顯示器無顯示,但是機器運行則一切正常。
▲ASRock X570S PG Riptide這種上市一年多的成熟產品竟然必須需要更新2022年10月22日最新2.20版本BIOS才可以支持RTX 4090,所以當發現點不亮RTX 4090的時候不用慌,先去用別的顯卡點亮系統升級一個最新的BIOS。
▲第二個問題,要清楚SilverStone RM42-502是一個支持ETAX雙路主板的工作站服務器機箱,不僅寬大且做工精良。
▲規格是430mm (W) x 176mm (H) x 468mm (D),寬度是430mm。
▲就這個規格的機箱,在安裝了前置240水冷之后,塞進去331mm長度的PNY GeForce RTX 4090 24GB OC XLR8也已經比較緊湊了,機箱在不安裝前置水冷情況下允許安裝的顯卡最大長度為426mm,一般普通水冷排厚度為27mm,12025規格水冷風扇厚度為25mm,安裝完水冷僅剩下374mm的長度空間,依然足夠裝下目前在售的任意品牌型號的RTX 4090!如果你正在為找一款適合RTX 4090的做工精良的工作站機箱而煩惱,如果你能夠接受無ARGB的機箱內環境的話,SilverStone RM42-502絕對是您正確的選擇!
但是市面上大多數的ATX機箱顯卡限制長度都在350mm以內,這意味著,如果你購買RTX 4090顯示卡,顯卡的長度決定了你是否需要更換一個更大的機箱。所以這時候長度更短的RTX 4090的機箱兼容適配性當然是更強的。
▲第三個問題,如果使用了Seasonic TX-1600原配的12VHPWR線材進行安裝,如果發生過度彎曲,還是有可能發生以下情況:
▲因為過度彎曲發生的線材接頭脫落情況,
▲PCI-SIG組織早就通報了因為12VHPWR的線材因為太硬太粗的原因在過度彎曲的時候造成接頭松動甚至脫落,和顯卡12VHPWR接頭部分發生電阻值過高,發熱嚴重最終造成12VHPWR燒毀的問題。
現在問題來了,機箱的能蓋上側板能容納的最大顯卡高度為156mm,而顯卡本身的高度為136.8mm,如果要蓋上側板,就必須在19mm的空間內進行12VHPWR線材彎折,這其實還是有風險。對于海韻電源而言,其實還有終極解決方案來解決這個問題。
▲海韻為解決彎曲問題出品了一款新的12VHPWR模組線,符合PCIe 5.0供電標準,兼容ATX 3.0,使用16AWG高規格線徑,耐高電流合金銅端子,可支持高達600W功率輸出。電源直連顯卡供電,可降低轉接帶來的故障風險,為玩家帶來更安全穩定的供電方案。另外,該模組線采用了新的模組線材,壓紋工藝如編織質感,比一般的模組線更柔軟,更有利于玩家走線。
▲海韻這款12VHPWR模組線適配于其PRIME和FOCUS系列850W及以上型號,可選黑色或白色,但與其他品牌并不適配。如果玩家使用的是國行在保的海韻電源,每個電源SN可免費申請一次,得到這款12VHPWR模組線。
▲1000W及以上的海韻電源需提供RTX 40系列顯卡的購買憑證,850W及以上的海韻電源需提供RTX 3090 Ti顯卡的購買憑證,另外玩家需要提供一張電源與顯卡的合照(電源SN清晰可見),默認發黑色,白色需備注。玩家可將相關資料發送到官方郵箱cn.support@seasonic.com免費申請,郵費自理,以順豐到付寄出。
▲第四個問題,第一批次NVIDIA配給顯卡生產商的1組 16-Pin轉4組 8-Pin的供電排線,官方稱之為PCIe5 12VHPWR Adapter,存在嚴重質量問題。igor'sLAB 發表了一項關于 Nvidia 12VHPWR 適配器的研究,不建議使用此適配器!
▲reddit有個帖子專門持續匯報發生的轉接線燒毀顯卡供電接口事件,且持續更新。到2022年10月30日為止因NVIDIA配送的16-Pin轉4組 8-Pin的12VHPWR線材燒毀顯卡接口事件為12例,均為TGP大于550W的RTX 4090。目前無法確定NVIDIA要求近期發行的RTX 4090新版TGP功耗鎖定為450W是否與此有關。
▲NVIDIA配送的16-Pin轉4組 8-Pin的12VHPWR線材總共有 4 根 14AWG 粗線分布在總共 6 個觸點上,兩條外部引線分別焊接到一個引腳上,中間的兩條引線分別焊接到兩個引腳上。
▲焊料底座是僅 0.2mm的薄銅底座,每根進線寬度為 2 mm,因此中間連接的每對寬度為4mm。
▲將一根甚至兩根14AWG 電線焊接到它上面是活動的,彎曲情況下非常容易造成脫落。
▲目前上市的大多數的RTX 4090都是在600W TGP下運行,在這電流強度下,因為彎曲導致的不穩定且活動的焊接觸點引腳電阻值上升,迅速燒毀顯示卡以及轉接線的12VHPWR接口部分。
▲因為早期的RTX 3090Ti配送的1組12-Pin轉3組 8-Pin的供電排線使用了相同的設計,可能是因為450W TGP功耗輸入電流較低并未報告燒毀RTX 3090Ti的情況,但是這次有用戶害怕使用RTX 4090配送的16-Pin轉4組 8-Pin的12VHPWR線材,轉而使用RTX 3090Ti配送的12-Pin轉3組 8-Pin的12VHPWR線材,一樣發生了燒毀情況。目前的報告是兩例。順帶說一下PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB? TF目前是和RTX 3090Ti一樣的450W TGP功耗設計。
因為手里沒有其他的RTX 4090顯示卡,所以同類比測試是無法進行的,本次評測主要對上代的旗艦級顯示卡做了明確的性能比對。
基于DLSS3游戲用途的玩家是非常值得升級RTX 4090的,而對于普通DLSS游戲用戶而言,需求沒有那么強烈,生產力環節諸如Adobe AR PR類的軟件而言,升級理由并不充分,而對于達芬奇用戶來說就非常值得升級,深度學習方面是絕對值得升級的,但是周邊支持的完善可能需要點時間。
截至發文,RTX 4090的價格從首發12999奔著16000去了,京東缺貨,天貓缺貨,倒不是商家囤貨居奇,是因為9成的大廠訂單都直送美國了,這就造成中國目前的缺貨真空期,自然水漲船高。
至于PNY這張RTX 4090顯示卡,性能中規中矩,因為Maximum Power Limit 被鎖定在450W,所以在不能動電壓的情況下超頻所獲得性能有限在2-3%附近,其長度適中且不浮夸的散熱規模令人印象深刻,因為能保證兼容適配大多數的普通機箱,同時性能也足夠壓制450W TDP,49%的自動風扇控制可以最大程度保證滿載運行時候的靜音效果,如果不破解Maximum Power Limit 其實也用不到100%的手動風扇設置。VelocityX軟件的使用理念比較簡約,簡單暴力比較適合快速上手,ARGB的光效加持也起到了畫龍點睛的效果。
那么問題來了,這張卡的潛在客戶群體在哪里?這張卡適合對穩定度有一定要求,且對機箱電源的兼容適配要求比較高的用戶,換句話說,在不想更換更高功率電源和更大規模機箱的前提下,客戶有一個850W的電源,一個普通ATX的機箱,如果你要塞進去RTX 4090,除了NVIDIA創始者版本,PNY RTX 4090 OC XLR8 Gaming Verto就是最佳的選擇了。當然前提是你需要有一個適合RTX 4090的電源以及彎折不會燒毀的12VHPWR線材。
作者聲明本文無利益相關,歡迎值友理性交流,和諧討論~
現如今,我們對顯卡需求越來越大,很多大型游戲都需要顯卡的加持,如果沒有顯卡加持的話,那么電腦主機在一定程度上是帶不動大型游戲的!那么,這兩款顯卡究竟哪個好呢?我個人是比較推薦RTX2060。首先,這兩...
2025.08.02AMD高級副總裁、大中華區總裁潘曉明(Spencer Pan)先生目前全新的Radeon RX 7000系列游戲顯卡已經正式發布,我們有理由相信全新的RDNA3架構的RX 7000系列獨立顯卡有能力去...
2025.08.022018年在科隆發布的RTX 2080和RTX 2080Ti開啟了NVIDIA的“20”時代。在接下來的多半年時間里,NVIDA已經完成了從旗艦到入門級、從桌面到筆記本平臺的全部產品線布局。甚至在2...
2025.08.0210系顯卡相比9系同代產品提升很大,不像intel擠牙膏,比如GTX1060顯卡大幅度強于GTX960顯卡。這次我們就來體驗一款入門級顯卡GTX1050 2G。這款顯卡的型號為影馳的虎將,購入價格為6...
2025.08.02NVIDIA最新推出的RTX 40系顯卡毫無疑問令人眼前一亮。其全新的Ada Lovelace架構以及換用的TSMC N4工藝也讓顯卡性能獲得飛躍。而首張和大家見面的RTX 40系顯卡自然而然就是當中...
2025.07.31