[数码] 为什么4090的规格是4070的将近3倍，性能却只有2倍，瓶颈在哪？

万年历购物网址日历小说 | 三峰软件天天财富小游戏视频推荐小游戏

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页日历2025 日历2026 日历2027 日历知识 | 每日头条视频推荐数码知识两性话题情感天地心理咨询旅游天地 | 明星娱乐电视剧职场天地体育娱乐

日历软件煮酒论史历史中国历史世界历史春秋战国三国唐朝宋朝明朝清朝哲学厚黑学心理学 | 文库大全文库分类

电影票房娱乐圈娱乐弱智火研中华城市仙家六爻佛门风水钓鱼双色球戒色航空母舰网球乒乓球足球 nba 象棋体操

商业财经知识科技汽车知识工程技术知识时尚与穿搭家居与生活设计艺术知识

知识库 -> 数码 -> 为什么4090的规格是4070的将近3倍，性能却只有2倍，瓶颈在哪？ -> 正文阅读

[数码]为什么4090的规格是4070的将近3倍，性能却只有2倍，瓶颈在哪？

[收藏本文] 【下载本文】

参考：UserBenchmark; Techpowerup [图片] [图片] 如果考虑游戏帧率的话，这个差距肯定还会缩小吧？

4090这卡我老早就发现它似乎边际效应很明显了
像GPU这种超大规模并行计算的东西，最能体现出性能差距的就是GPU渲染或者计算，因为这类用途的压力会完全在GPU上，不太会受其他因素的影响
我直接从OC渲染的benchmark天梯榜上把40系显卡的成绩都搬过来（未开RT的成绩），顺带做一些分析

这个成绩让我很意外，4090仅有4070将近两倍的渲染性能了，因为在以前的显卡评测里从来没有出现这种情况过，接近三倍的规模，跑出来两倍的渲染性能
而且我计算了一下相对衰减幅度，从结果来看，我有理由怀疑显存带宽可能成为了RTX40系一个大瓶颈所在，甚至可以说小气的显存设置让RTX40系很多显卡并未跑出它该有的性能
最典型的就是4060Ti 8G了，它的流处理器数量比4060多了41.67%，但显存带宽仅略高一点，最终结果就是渲染性能仅高了13.6%
而4070在流处理器规模比4060Ti仅多了35.3%的情况下，渲染性能强了57.56%，4070的显存是192bit 21Gbps，最终带宽为504GB/s，比起4060Ti的288GB/s高了75%
我记得以前的显卡跑OC渲染是没有刻意去关注这个现象的，比如说RTX30系的情况

出现负衰减是意味着性能提升大于规模提升，因为显存带宽大幅提升带来了更多增益
30系的衰减情况相比之下真的就几乎是忽略不计的那种，显存带宽的问题还没有那么突出，所以以前对于GPU渲染这里通常都把渲染性能跟规模挂钩
再来看RTX20系

GDDR6显存还未到的时候，仅有高端有一定的衰减。
所以有理由相信，RTX40系高端的瓶颈已经过于显著了，连GPU渲染用途都已经开始衰减的很厉害了，
所以对于RTX4090渲染性能仅有4070两倍不到这个问题，我严重怀疑显存带宽方面是一个大问题，这也许跟GDDR7显存没有及时来有关系
另一方面我也怀疑Ada Lovelace架构的边际效应问题是不是更加显著了，因为从目前已知的信息来看，Ada Lovelace架构相较于30系的Ampere架构来说仅仅是加入了一些新特性，比如说第四代Tensor Core、第三代RT Core以及光流加速器、大L2这些，然后换用台积电4N工艺，扩大规模提高频率，就升级完成了
但AD102核心的流处理器数量相较于GA102大了太多了，4090的流处理器数量比3090Ti多了52.4%，但显存带宽完全一样，都是1008GB/s，也就是说单个SM的光栅渲染性能提升可能仅有频率提高，这可能会导致超大规模下GPU并行效率下降的问题
可能下一代GPU改架构以及更换GDDR7显存之后就能看到这种规模的GPU该有的实力了吧
至于说游戏方面，游戏相较于渲染来说还多了其他的影响因素，比如说CPU和内存，这肯定会让性能差距进一步变小的。

答案放最前面：显存带宽。
可以把显卡看成你电脑里一台“分机”——
GPU核心对应CPU，负责运算工作；显存对应内存，负责存储运算数据；电路板对应主板，负责承载芯片/内存并提供电力；散热器对应CPU散热器，负责散热工作。
对一张合格的成品显卡而言，电路板和散热器自然都是足够使用的；余下能影响核心性能发挥的，可能成为“瓶颈”的不确定因素，自然就还剩下显存了。
恰好尤娜手里有一台RTX 4090台式机和一台RTX 3060笔记本。用3DMark Time Spy Extreme（后文简称TSE）来做个实验，这个项目压力最大，可以保证显卡基本吃满100%。
RTX 4090台式机默频运行TSE时，图形分数为19550；取场景一负载刚上来时候的时间点，显卡核心运行在2729.40MHz。

给显卡超频（只超核心，不动显存）后，图形分数为20259，核心运行在2995.20MHz。超频后频率较之默频提升了足足9.7%，但跑分却只提升了3.6%，显然不符合比例。

RTX 3060笔记本默频运行TSE时，图形分数为4124；同一个时间点，核心运行在1792.63MHz。

同样给显卡单纯超频核心后，图形分数为4361，核心运行在1898.50MHz。超频后频率较之默频提升了5.9%，跑分相应也提升了5.7%，这个就比较符合比例了。

然后我们来看看参数——
理论浮点算力（单精度），RTX 4090台式机是82.58（单位TFLOPS），是RTX 3060笔记本（10.94）的7.5倍以上。显存带宽，RTX 4090是1008（单位GB/s），只有RTX 3060（336）的3倍。
可见RTX 4090的显存带宽瓶颈是非常之严重的——尤娜无法认定RTX 3060的带宽较之它的核心性能就一定够用，但RTX 4090可以肯定不够用。于是最终来到TSE跑分这块，都默频时，理论算力达到RTX 3060 7.5倍+的RTX 4090，跑分却只有前者的4.7倍+。
再来看题主提问的RTX 4070——
理论浮点算力29.15，RTX 4090是它的2.8倍+；显存带宽504，RTX 4090是它的2倍。TSE跑分参考3DMark官网的统计结果，均值为8484，RTX 4090是它的约2.3倍。
看是不是异曲同工？实际上看RTX 4070 Ti也是一个道理，它的理论算力达到40.09，比RTX 4070要强37.5%；但因为显存带宽完全一样，最终TSE跑分均值10921，只强28.7%。
扩展阅读——
尤娜Yuna：【月例】2023.12笔记本/DIY台式机推荐汇总58 赞同 · 8 评论文章

独立显卡和集成显卡的优缺点分别是什么？154 赞同 · 23 评论回答

CPU 上的性能差异能否用内存条来弥补？67 赞同 · 3 评论回答

我的rx6400,虽然64bit但是大多数游戏1080p中画质没什么压力，那这个bit有什么用？95 赞同 · 11 评论回答

瓶颈在显存带宽吧，严格来说RTX 4090的规格还不到RTX 4070的3倍。
RTX 4090采用AD102-300-A1核心，搭载16384个CUDA单元，加速频率 2.52 GHz，显存为 24GB 384 bit GDDR6X，显存带宽为1008 GB/s，显卡总功耗为 450W。
RTX 4070采用AD104-250-A1核心，搭载5888个CUDA单元，加速频率 2.475 GHz，显存为 12GB 192 bit GDDR6X，显存带宽为504.2 GB/s，显卡总功耗为 200W。
RTX 4090的核心规模是RTX 4070的2.78倍，显存带宽是RTX 4070的2倍，显存容量也是RTX 4070的2倍，越是分辨率高的游戏，带宽的影响就越明显。
参考我去年对RTX 4090和RTX 4070的测试，在4K分辨率下一共测试了10款3A游戏和网游，平均下来RTX 4090的游戏帧数是RTX 4070的2.023倍，刚好就是两张显卡的带宽差距。

当然，显卡的应用场景不仅仅是玩游戏，很多人还会搞一些AIGC方面的创作，RTX 4090性能表现也差不多是RTX 4070的2倍左右。
比如AIGC绘图应用Stable Diffusion，能够能够根据文本提示生成高质量的图像。Tom's Hardware曾经对45款显卡进行Stable Diffusion基准测试，测试后发现，当设定为515*515分辨率时，RTX 4090处理速度是RTX 4070的2.28倍；设定在768*768分辨率下，RTX 4090处理速度是RTX 4070的2.32倍。

在渲染方面，RTX 4090性能表现也大致是RTX 4070的2倍左右。根据Puget的测试，在V-ray中，RTX 4090处理速度是RTX 4070的2.27倍；在Octane中，RTX 4090处理速度是RTX 4070的2.03倍；在Blender中，RTX 4090处理速度是RTX 4070的2.12倍。

因此，无论是游戏还是生产力，高端显卡的性能都会受带宽的制约。

其一，正如答主
@超合金彩虹糖
所说，是带宽的问题
其二我觉得是制程工艺的局限，导致这一代依然很“热”。

我们看到根据NVIDIA提供的数据，4090比上一代3090TI的核心面积小了3%的情况下，却多塞入了1.69倍的晶体管，TSMC 4N也无法解决暴增的晶体管带来的发热问题。
4070由于晶体管数量少，散热的问题相对不严重，可以搭配轻巧的散热器（但也要双风扇起步了），但是随着芯片面积增加，散热器的解热能力难以像芯片规模一样成倍增长，因为家用电脑的机箱容量是有限的。所以可以看到现在的4090都是3.5槽了，却只能提供450W的解热能力，噪音也增加了，而且还需要搭配防压撑杆防止变形。
散热的问题也就影响了提供给4090的实际输出功耗，如果按照CUDA算，4090是4070的2.78倍，那么对应的功耗至少成正比才对，也就是4090要达到556W（约600W），但现在默认只有450W，显然，4090并没有被“喂饱”, 4070是饱肚子的情况下干活，4090是饿肚子的情况下干活，性能自然也会大打折扣。虽然很多OC的显卡提供了600W的功耗墙，但是很明显超过了450W之后，频率就很难超上去。实际性能提升开始边际递减。这主要是因为现在的晶体管都是多层的堆叠设计，如同一个3D立体城市，而不是摊大饼一样平铺的，即使有解热600W的散热器，那也仅仅是带走表面一层的热量，仍然有很多热量在这些晶体管内部的楼宇缝隙中，没办法及时迅速释放出来。从而影响了热交换效率。

边际效应向来不是跟价格成正比的。
法拉利比Honda Civic-R可能就快了1-2秒，但是贵了15-20倍甚至更多。
如果你说瓶颈。
瓶颈就是ATX的尺寸限制，以及消费者的钱包。
如果卖1000万美元一片也有很多很多人买，而且你可以把这个显卡做成一个2室一厅的巨型运算器。速度会快很多很多很多。

从CUDA，光栅，纹理，TC，RT单元来看，4090是4070的2.78倍，虽然题主说接近3倍也没啥毛病，但无形中夸大了4070和4090的差距，所以这里我们要强调下，两者差距是2.78倍！
但看晶体管数量，核心面积，以及TDP功耗上，4090只是4070的2.06~2.25倍。这可能是一个影响其性能发挥的关键因素。
另外带宽和显存，4090正好是4070的2倍，在游戏中这个影响很玄妙，我们一会详细说说。
最后的瓶颈可能是以上各个方面综合影响而带来的边际效应。

简单生产力对比
首先我们看看生产力方面，做了一些简单的跑分，4090基本是4070的2.1~2.3倍，这些跑分我个人认为带宽和显存影响不大，更可能是TDP限制导致的，再加上玄妙的边际递减效率，最后就是这个差距了，当然比2倍要高点，最多是2.3倍，较之理论最高的2.78倍，有点差距，但好像也还能接受。毕竟显存大小有时候对生产力软件是硬性门槛，所以如果生产力用户应该不会介意这个问题。

游戏性能对比
理论跑分
游戏方面先来看下理论的3dmark跑分，各项平均值，大概4090是4070的2.2倍，和上面的生产力情况差不多。

实际游戏为了严谨，均测试的是游戏中自带的benchmark，分辨率分别是4k和2k，你会发现分辨率的影响是非常大的。
光栅游戏
在4k分辨率，4090是4070的2倍，降到2k分辨率，4090只是4070的1.5倍，降幅真是非常明显。

光追游戏
4k分辨率下，相比光栅游戏，两者差距明显提高了，达到了2.3倍左右；2k分辨率下，不开追光特效，两者差距减小到1.7倍，但打开追光特效，两者差距会在2倍左右。

DLSS
打开DLSS后，4k分辨率下还有2倍左右的差距；到了2k分辨率巨降到1.2倍的差距！

为啥分辨率的影响会这么大？我们可以看看不同分辨率下GPU的负载情况：在8k分辨率（DSR）下，4090的负载才能达到100%，4k也不能完全发挥出它的全部性能（如果4k开dlss在，负载还会下降很多），2k更是会减少非常多，相当于自废2~3成武功。
所以即使是在4k分辨率下，4090也需要很好cpu和内存平台才会有比较好的发挥。

既然8k分辨率下，4090才能完全发挥性能，那么在8k分辨率下，4090和4070的差距会有啥变化呢？很可惜我没有做4070的8k分辨率测试，但我做过4090和4080的8k分辨率对比测试，可以供参考一下。

可以看到在光栅游戏中，8k分辨率4090相比4070的领先幅度对比4k的情况提高了5%，不算特别明显；但在打开DLSS的光追游戏中，8k分辨率4090相比4070的领先幅度对比4k的情况提高了17%，这就非常明显了。

要知道4080好歹有256bit的带宽，而4070只有192bit，所以如果在8k上对比，4070的差距会更大。
简单来说，如果是游戏对比，这两款显卡没有绝对公平的赛道。4k分辨率下，4090无法完全发挥，2k更是自废武功，得6k，8k分辨率才能摆脱平台的瓶颈（CPU，内存）；而对于4070来说，不用说6k，8k，其实4k分辨率都有点勉强它了，最适合它发挥的环境是2k。
所以我们选择显卡如果是游戏应用为主，一定要优先考虑分辨率的因素，否则就很可能多花冤枉钱，或者不能满足自己的需求。
其它
我这里再说明一下，答主买不起8K显示器，使用N卡驱动中的DSR（动态超级分辨率），来模拟8k分辨率的应用环境（4k开最大的4倍刚好为8k）。
有的游戏吃cpu，有的吃gpu，还有的吃内存，不同游戏情况不同，不能一概而论，我这里的结论是测试了多个游戏的平均值得到，仅供参考。
当然以上所有测试数据都是我自己做的。

我们先看4090规模是不是接近4070的三倍，然后再讨论后面的内容。

频率方面主要是基础频率差的多点，但是影响不大，我们继续看显存，显存规格4090是4070的两倍，位宽翻倍，带宽翻倍。

渲染规格部分，数量接近三倍（16384/5888=278%，128/46=278%……）

SM核心是由SP核心（CUDA core，Tensor Cores，RT Core）+其他的一些资源组组成，同一代显卡的核心组成基本是固定的。
但是二级缓存部分4090是4070的二倍。
所以我个人认为，4090的规模确实接近4070的三倍。
在问题成立的基础上再进一步讨论，4090和4070的性能表现的差距有多大。

以FP32浮点性能为基准的话，4090是4070的283%，符合规模带来的算力提升。
所以当英伟达定下了以算力定价的计划后，显卡的规模，架构，显存等等为最终游戏表现的思路就变成了设定一个算力，然后根据现在的SM单元拼凑一个能稳定达到这个算力规格的配置就可以了。
我们再看首发定价一万的4080 16G，和本来应该是4070Ti的4080 12G。
我们以4080 12G为基准，4080的规模为130%，4090为213%。最后表现出来的性能差异（FP32浮点性能）是120%和205%。
算力和规模也成正比。
但是算力是给高科技计算的人准备的，只是一个客观指标。
但是真的到了游戏表现上，就是转化为帧率。
很多答主都从带宽，SM单元，架构方向去分析了，我们换一个刁钻的角度，4070的TDP200W，4090是450W……
对的，功耗两倍出头，里面还包含了因为功耗提升带来更高规格散热的功耗。
我们参考上一代3090和3070，虽然显存查了3倍，但是位宽150%，规模接近两倍，两张显卡的功耗差距是50%出头，最后表现出来的性能差距如下：

所以我个人更倾向于认为，英伟达在开发4090之初就发现了，带宽成为了限制显卡性能发挥的最大问题，因此当旗舰定下来以后，后续的更低规格显卡只能一层一层的阉割规格。这也是至今还没有4090Ti的原因。
性能上限已经被带宽限制了，所以尽管比3090Ti多了38个SM单元，但是功率也是一致（中间也有制程工艺提升的影响），用更低功耗达成更高的算力，因此得到了另一个“流言”——4090温度低。

很简单因为功耗限制。
4070的满载功耗就已经达到300W了，4090有3倍的硬件规格情况下，即便软件优化效率100%，硬件堆料没有衰减，300*3=900W的功耗也太恐怖了，即便电源负载能搞定，1000W的发热量难道你真在在个人电脑上塞个压缩机吗？所以肯定存在人为限制最大TDP，不可能真的3倍规格的硬件就给你3倍的耗电，即便是号称一发摧毁一个航母战斗群的GTX690双芯显卡的TDP也被限制在300W。

RTX4090的cuda核心数是RTX4070的三倍，但性能只有2倍。

无非是：
数据通道宽度不够；cuda核心的频率每升上去；
频率我看了，大家差不多，那极有可能是带宽、缓存、甚至显存的读写速度，综合起来形成的瓶颈吧，非专业，无法深究。
但我觉得啊，旗舰显卡的定价，更有意思。

这应该是有一个商业模型：高配的东西，溢价越厉害。
但凡打着旗舰名号的，恐怕十之八九要行苟且之事，啊呸，行噶韭菜之事，比如某旗舰轻薄本，某旗舰手机，某旗舰汽车，还有某旗舰配置的会所，等等。
但凡在乎钱的，十之八九，咱们就不是他的目标客户。

RTX4090这种大显存，配上Tensor Cores的溢价，对于拿民用的显卡搞商用的，显存在瓶颈条件下，不得已而为之的，算是少部分人吧。
炼丹的时候，显存大一点，性能提升两点，这个玩大模型的，应该都知道。
咱们臭打游戏的，买RTX4090，无非就是给老黄多送点钱，更何况现在的桌面版本RTX4090被禁售，有存货的也是疯狂溢价。
结果，韭菜很多，根本就噶不完，噶不完呐！

PS：2024年成品机，首推刃7000K

广告
PELADN 鳞甲 RTX4080 16GB GDDR6X DLSS3 电竞游戏设计
京东
￥8689.00
去购买?
另外我还看到个便宜的鳞甲显卡，价格不贵。

广告
联想(Lenovo)拯救者刃7000K 2023游戏电脑主机(13代i5-
京东
￥6968.00
去购买?

老黄：小伙子，饭要一口一口吃，牙膏要一点一点挤。
我要是这一代就给你用上了GDDR7的显存和512的显存位宽，那你让我下一代拿什么挤牙膏？

醒醒吧，没有4090用了，只有4090D
D for dog

瓶颈在于很多方面综合影响而带来的边际效应。

最在的核心原因就是功耗限制。我们可以先看看显卡总功耗，这里以NVIDIA官方标称的为准。4090是425W而4070是200W，确实有2倍。但是一张显卡包含很多部分的功能，比如硬件编解码，光追，DLSS等一般不会同时全部跑满。所以看常规游戏功耗，4090是302W而4070是186瓦。就算看超频后的极限功率，目前网上普遍的数据是4090上600W，4070在400W出头。
也就是说，在功耗上限方面，如果看总功耗，4090就是4070的2倍出头，如果只看官方标称的常规游戏功耗，只有1.6倍左右，看极限功耗，也只有1.5倍左右。所以性能也只有2倍左右，并不难理解。忽略掉散热和温度因素，就光以功耗来看，4090的上限就是4070的2倍出头。

由于近几年CPU和显卡功耗越来越高，TDP之类的字眼逐渐进入大众视野。TDP意为Thermal Design Power，原来是CPU给厂商的散热设计功耗指标，现在也引申到显卡上。以前没什么人关注TDP，因为那时候CPU和显卡发热都不大，我还记得我当年有一块NVIDIA GeForce2 MX 200，散热风扇久了有异响，到最后直接坏了不转，还是一样照用，要搁现在的显卡早就烧掉了。
由于功耗越来越高，不仅是CPU和显卡本身的功耗，同时还有主板的功耗墙甚至是电流墙等参数都成为了进阶玩家需要了解并调整的参数，否则就会撞墙降频而导致无法完全发挥硬件性能。2倍的功耗墙，2倍的性能，很正常。

我自己现在用的显卡就是4070，默认状态下平常烤机功耗上限也就是200W。之前测试也算过功耗，平时跑点AI应用或者游戏，功耗就更顶不满了。4090是同理的，就算不把各种衰减和边际效应算进去，2倍的功耗就2倍的性能，已经很不错了。
而且最重要的一点，4090的规格也不是4070的3倍。如果看CUDA核心的话，4090是14592个，4070是5888个，除一下是2.47倍。显存位宽和容量大小方面，4090是4070的2倍。就算再看其他规格，4090好像也没有哪方面是4070的3倍。
所以答案很明显了，4090没有哪个规格是4070的3倍，大部分是2倍，CUDA核心也不到2.5倍。性能是2倍左右也就很正常了。

这非常说明问题，在购买显卡的时候，不能只看其所谓的cuda单元数量，因为其性能的发挥是一个多方面的综合结果
这也说明老黄的刀法的奥秘在哪儿。简单类比，就像一辆跑车，虽然硬件很好，但是不加满油或者故意减少单位时间供给发动机的油流量，那么显然是不能充分发挥跑车的速度优势。
对于显卡，直观的外在表现是显存和位宽限制了GPU性能的发挥，流水线流水线，最好的状态是流水线一直不停地慢速运转
但是整个过程中，对于GPU的渲染流水线，其需要的是数据。这些数据是来自于CPU打包传递给显存，GPU再从显存读取所需要的数据，这里面涉及到相关驱动，比如OPENGL
显存的大小是有限制的1，如果显存的容量过小就会导致GPU流水线停工待料，这必将导致性能下降。
老黄是很清楚这些的，所以你才会看到，老黄的各种刀法，比如当年据说还有用4070的芯片做到4060上的情况，因为他完全可以通过控制显存大小和显存带宽来制约其性能发挥

实际上也不是真正的 3 倍规格，这个是多维度的，你只看到一个维度，就是只有 cuda 是差不多 3 倍。
而比如显存的带宽和位宽，就只有 2 倍，还要考虑 pcie x16 接口，同等pcie 版本下，4070 和 4090的pcie带宽是一样的，这里不深究太多，只简单聊聊，因为各个位置都可能成为性能瓶颈。

因为现在很难找到同等核心，不同显存的显卡，我按照记忆，去找了 ddr2 和 ddr3 的 7600gs的古董测试分数，你能看到，显存的带宽已经限制了 7600gs 的核心性能，特别是当 GPU 处理能力较强的时候，很容易出现“喂不饱”的情况。
你用 xfx 的 76GS d3 vs ASUS 的 76GS d2，能看出 d2 已经拖累 76GS 的核心性能了。
这里也感慨一下以前的显卡，76gt 和 gs 实际上差距不大，没记错的话，d3 的 76gs 是当时很超值的一款。

这个不是非常严谨，但能看出显存带宽对于性能的影响，数据来源如下，我只摘取了里面可以供对比的数据，看个大概就行。
数据来源1，最具实力的中端杀手:7600GS DDR3评测_评测_太平洋电脑网PConline
数据来源2，传承性价比 33款7600GS显卡沙场秋点兵_硬件_科技时代_新浪网 (sina.com.cn)
然后pci 带宽部分，gpd x1 的 oculink vs usb4，这里有三个，分别是 oculink 4.0x4，oculink 3.0x4 和 usb4 3.0 x 4，能看到 usb4 的性能比 oculink 落后的明显，这个就是 pcie 带宽的影响，因为 oculink 这是完全的pcie，没有 USB4 和 tb3 等的 dp等等乱七八糟的，也不需要芯片，一个 pcie x4 就可以转，可能是目前 eGPU 最合适的方案。能看出更高的 pcie 带宽提升超过 10%。

如果真的把大多数规格扩到 3 倍，性能应该会接近 3 倍，但这么做可能价格就不是 3 倍 4070 了。
归根结底，老生常谈的电脑的木桶效应，A 桶和 B 桶，A 桶最长的木板是 B 桶 3 倍，但最终装下的水的差距不是最长的决定的，因为整体性能受到多个因素制约，很可能因为一个方面的性能就产生瓶颈。

一夜之间，4090显卡的价格狂飙到了令人咋舌的地步。
10月18日，有网友发现在多个购物渠道中，英伟达RTX 4090系列显卡已下架，多家旗舰店在售的4090相关产品均呈缺货状态，“4090显卡全面下架”迅速登上了社交平台的热搜。
10月19日，电商网站上的第三方商家纷纷高价出售RTX 4090库存，定价大多在2万元至3万元，轻描淡写地达到原价翻倍的水准。更有甚者，已经将4090显卡卖到了接近5万元。

大幅涨价的4090，图源电商平台
种种乱象的起因，都得追溯到一则闻者心惊的网络快讯：“美国将对华禁售4090显卡”。
此消息一出，从游戏玩家到泛科技产业顿时一片哗然，因为禁售消费级产品听起来太过匪夷所思，波及面十分巨大。用户群情激愤之际，不少嗅觉灵敏的商家当即坐地起价，显卡贩子们也摩拳擦掌再闯江湖。
一时间，天价涨幅的截图四处飘散，语焉不详的店铺客服挑眉暗示，处处都营造出一种“4090再不买就来不及了”的火热氛围。
那么，这则搅动显卡市场风云的“禁售令”是否属实？从上市时12999元的通行价格，到现在直逼5万的缺货标价，RTX 4090系列显卡到底遭遇了什么？

火热的明星显卡
缺货、涨价，手握4090显卡的商家似乎迎来了史上最硬气的一天。
不仅主流电商平台普遍缺货，深圳华强北的线下商家们也面临着4090紧俏乃至断货的销售热潮。在睡一觉就上涨几千块的情况下，4090的价格体系正变得前所未有得混乱，众多炒作者争相入手。
市场的变化起于情绪，而情绪之所以被炒热，则是互联网舆论发酵的结果。
自10月18日下午起，关于4090即将遭遇出口管制的信息被诸多网络大V转发，人们普遍将之解读为“4090显卡禁售令”。其依据是，10月17日美国政府公布了新的人工智能芯片出口管制规定，高性能AI芯片出口将受到进一步限制。
英伟达公司向美国证券交易委员会提交的文件显示，当集成电路超过某些性能阈值时，新规对出口做出了额外的许可要求。根据英伟达罗列的产品名单，很多人注意到，大众市场中的明星显卡RTX 4090竟然也出现在了受管制的范畴中。

被提及的RTX 4090，图源网络
作为消费级产品界配置最高、性能最强大的显卡，RTX 4090系列上市于2022年10月，具有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存，能在4K分辨率的游戏中持续以超过100 FPS运行。
用英伟达官方的话来说，RTX 4090在性能、效率和 AI 驱动的图形领域都实现了“质的飞跃”。放在光追技术渐成游戏大作标配的今天，能带来极致体验的4090无疑是全球玩家的梦中情卡。
因此，很长一段时间里，4090显卡在中文互联网中最常扮演的角色，其实是玩家在游戏社区发帖秀恩爱的天花板——“对象买了4090送我当礼物”。

1300个回答的热门提问，图源知乎
可想而知，当这样一款备受追捧的消费级产品遭到“禁售”，会引发怎样的舆论浪潮。
在各大社交平台上，人们从不同的角度热议这一事件，影响力以科技圈与游戏圈为原点向外辐射，普罗大众的情绪被激起。“4090是什么”成为热搜词的同时，“美国为什么制裁4090”则是10月18日晚间的自媒体热门选题。
许多网友对美方越来越夸张的制裁行为表达不满，并联想起既往遭到限制的重点科技领域。也有人认为，美国的举措是某种恐慌的表现，本次禁售事件或许会成为推动国产厂商在对应领域奋起直追、突破技术限制的契机。
而与纷繁热闹的讨论并行的，则是投机商家的囤货风潮。
随着“担心绝版”的市场情绪持续发酵，渠道商、零售人员和黄牛加入战局，大手笔囤货以求炒高价格获利。
值得玩味的是，由囤货、炒作造成的普遍“缺货”现象，反过来又被不少网友视作“下架”“禁售”等传闻的证明，继而引发了事件的进一步传播。
就这样，4090以极快的速度身价倍增。在目前的节骨眼上，普通买家几乎不得不接受加价和预约等额外要求，才有可能入手这块处于风口浪尖的最强显卡。

卡大模型的脖子，游戏玩家先受伤
4090事件发酵后的10月19日下午，一张截图频频出现在相关讨论中，配文多半带着“反转”二字。

一张“反转”截图，图源网络
截图中的内容来自港媒HKPEC，其表示美国商务部已对相关管制政策进行澄清，RTX 4090显卡可以在中国消费市场零售，也就是说玩家们依然能买到4090。但供商用和生产的芯片出口受限，中国代工厂将无法再组装生产4090显卡。
结合美国商务部工业和安全局的文件来看，消费市场受到豁免，美国对高性能芯片的限制主要针对数据中心应用。所以尽管4090显卡的性能水平已经达到受限范畴，其自身所定位的娱乐用途仍然“安全”。
英伟达官网也介绍称，4090显卡是消费和娱乐级的，而非用于数据中心专门训练AI，和此前为了绕开出口限制打造的“中国特供版”A800和H800芯片并不一样。
但本次限制的范围还是远超预期，除了4090，A800、H800芯片同样被列入管制名单。而且规定在标准中新加入了性能密度指标，即便美国半导体公司试图绕开标准限制，向中国提供互连带宽指标较低的AI芯片，其难度也将大大增加。
也就是说，所谓4090显卡禁售的说法并不属实，它的进口事实上并未受到影响，故而在短暂的囤积期过去后，其市场价格大概率会回落到正常区间，过分恐慌与投机并不可取。但高性能AI芯片的进口确实越来越难了。
一方面，在没有得到许可的情况下，本土代工厂的高端显卡组装从此受限。生产转移的过程也势必会在一定程度上影响产品供给，未来可能导致显卡价格的波动。
另一方面，本次新规反映出美国芯片制裁策略越来越密集、专业，规则越来越复杂，还加入了性能密度、出口范围的限制，全方位阻击中国的半导体产业、AI行业。
在美国商务部工业和安全局的文件中，一套新的性能判断标准被提出，从各个角度限制了AI芯片出口。4090之所以成为这次风波的主角，正是因为立身民用领域的它也被这套标准所“捕获”。
值得关注的是，一同被列入所谓“实体清单”的还有摩尔线程、壁仞科技等国产显卡公司。至于国产GPU的另一巨头昇腾，由于它属于华为旗下，更是早早便进入了这一清单。
此举，再度给国产显卡公司自主研发的道路加入限制，试图拖慢中国企业拿出堪比4090、A100级别芯片的进程。

限制加深，图源美国商务部工业和安全局官网
由此可见，“卡脖子”的不仅仅是一张显卡、一块芯片，而是精确打击那些崭露头角的中国公司，醉翁之意不在“9”，意在中国整个半导体和AI产业链。
10月18日，我国商务部新闻发言人就美商务部发布对华半导体出口管制最终规则答记者问。发言人表示，中方注意到美方在去年10月7日出台的临时规则基础上，进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制，并将多家中国实体增列入出口管制“实体清单”。美方不断泛化国家安全概念，滥用出口管制措施，实施单边霸凌行径。中方对此强烈不满，坚决反对。
这般限制正常商业活动，也将对英特尔、英伟达等美国半导体企业的利益造成损害。正如美国半导体行业协会近期的一则声明所言：
“过于广泛的单边控制可能会损害美国半导体生态系统，而不会促进国家安全，因为它们会鼓励海外客户转向其他地方。”

啊，对
一个AD104，一个AD102
核心都不一样
你却觉得规格只有这点差异？
384bit位宽和192bit位宽是一个数量级么
别老拿游戏说事，有些游戏吃GPU，有些吃内存延时
你就玩个扫雷当然差距不大

反对所有说显存带宽是主要因素的答主，这个是一个因素但是不是根本原因，简单给显存超频测试一下就知道了。而核心规模的边际效应主要因素按重要性排列分别是：功率密度和散热，软件利用率，数字IC设计的瓶颈。后文详细说明。
------------------------------------------------
本人这张4090显存频率可以拉到+2000MHz，测试了TSE跑分与显存超频的性能提升情况，可以看到+2000MHz显存频率后，跑分提高了3.59%。4090显存默认频率为10502MHz，超频后显存频率相对提升19.04%，也就是显存带宽相对提升19.04%。可以看出显存带宽提升比例和跑分提升比例差距很大。显存带宽不是制约显卡性能的主要原因。

显卡核心规模提升带来的跑分提升比例显著高于显存带宽，因此明显看出显存带宽的边际效应比核心规模更明显，提升当前显卡性能的主要方式仍然是提高核心规模和核心频率。
下面来回答一下为什么增加核心规模（或者说CUDA数量）会有边际效应。
第一个原因是功耗和散热的限制。理论上来讲，功耗和发热会完全正比于核心规模，但是实际上不可能，尤其是采用先进制程工艺之后，核心的发热密度暴增，也就是说即使增加核心数量，也不能让他们100%的运转起来，这是“散热能力-功率密度”的边际效应，进而导致核心效能的边际效应。实际上来看，比如3090显卡上限可以达到1000瓦的功耗，但是实际使用不可能，一般限制在400瓦；4090显卡出厂直接锁死核心电压，让你功耗超频受限。（厂家不是故意限制性能，而是防止过热降低使用寿命）
第二个原因是软件利用率的限制。理论上GPU的全部核心同时做相同的简单指令是利用率最高的，然而实际使用时不可能达到这种理想状态。包括3dmark这种跑分软件在内，GPU的核心同时要处理多种不同的指令，比如渲染和着色，前处理和后处理；指令消耗的时间不同就导致多个流水线不能完全对齐，所有核心不可能同时100%的运转。然而，如果进行简单的运算，比如理论浮点算力的跑分，这样可以完全高效调度所有核心，算力提升更接近核心规模提升。软件利用率有几个层面，包括驱动程序→系统API（比如DX12，vulkan）→游戏优化。这三个层面每个层面利用率都不是100%，因此效能逐级递减，导致最终性能和硬件规模之间的边际效应。
第三个原因是数字IC设计的瓶颈。芯片规模大就导致芯片面积大，芯片面积大就很难做到时钟同步，尤其是现在频率越来越高的情况下，不同模块之间时钟相位差是物理规律必然导致的，这就导致不同模块间同步困难，这就要消耗大量硬件来进行同步校正。否则像有些厂家要发展异步运算技术，但是GPU不像CPU，GPU天然需求同步运算性，即使开发异步运算技术，仍然要花费大量硬件来进行最终同步输出。
如上所述，这三个原因重要性是依次排列的，其它还有一些小因素比如芯片架构设计和版图设计，厂商故意阉割显存和缓存等等。

买的没有卖的精
卖的没有老黄精
要问瓶颈在哪里
都在老黄的算盘里

其实吧，拿两种情况下的4090来对比，你会发现70%功耗的4090，还有满功耗4090的90%以上的性能。