推广 热搜: 终于知道  2022 

特斯拉表示:没必要自制芯片

   日期:2022-07-21     浏览:0    评论:0    
核心提示:在第二季度的财报会议上,特斯拉表示,特斯拉没有必要自己制造芯片,将与供应商合作。特斯拉已经大量使用定制芯片。与此同时,特
 在第二季度的财报会议上,特斯拉表示,特斯拉没有必要自己制造芯片,将与供应商合作。特斯拉已经大量使用定制芯片。与此同时,特斯拉也在重写软件,整合各种功能,以减少芯片的使用,处理芯片供应的问题。
 
早在2019年4月,特斯拉就正式发布了其自主研发的自动驾驶芯片。根据马斯克的说法,三星制造的这款自研芯片已经是“世界上最好的芯片”,远超其他竞争对手,性能是之前使用的英伟达芯片的21倍。特斯拉认为,在性能大幅提升的同时,其自研芯片的成本和功耗低于之前使用的方案。
 
去年,特斯拉公布了其最新的Dojo芯片。
 
特斯拉道场芯片,领先竞争对手一个数量级
 
特斯拉刚刚举办了他们的人工智能日,并透露了其软硬件基础设施的内部工作原理。本次披露的第一部分是之前披露的Dojo AI训练芯片。特斯拉声称他们的D1 Dojo芯片具有GPU级别的计算能力,CPU级别的灵活性,以及网络切换IO。
 
几周前,我们推测该系统的封装是TSMC晶圆集成扇出系统(InFO_SoW)。我们解释了这种封装的好处以及大规模扩展训练芯片所涉及的冷却和功耗。另外我们估计这个软件包的性能会比Nvidia系统好。这些看起来都是有教养的推测。今天,我们将深入探讨更多半导体细节。
 
 
在深入讨论硬件之前,我们先来讨论一下基础设施的评估。特斯拉不断地重新训练和改进他们的神经网络。他们评估任何代码变更,看看是否有改进。成千上万个相同的芯片被部署在汽车和服务器上。他们每周进行数百万次评估。
 
 
多年来,特斯拉一直在扩大其GPU集群的规模。如果特斯拉停止所有实际工作负载,运行Linpack,并提交到500强名单,他们目前的训练集群将成为第五大超级计算机。然而,这种性能的扩展对于特斯拉及其野心来说是不够的,因此他们在几年前就开始开发自己的Dojo芯片项目。特斯拉需要更高的性能,以节能、低成本的方式实现更大、更复杂的神经网络。
 
 
特斯拉的架构解决方案是分布式计算架构。当我们听他们的细节时,这个架构看起来很像地狱犬。我们分析了脑波芯片级引擎及其体系结构。每一个AI训练架构都是这样安排的,只是计算元素、网络、结构等细节差别很大。这类网络的最大问题是带宽扩展和低延迟。为了扩大网络规模,特斯拉特别重视这一点,这影响到他们设计的每一个环节,从芯片材料到封装。
 
 
功能单元被设计为通过1个时钟周期,但是它足够大,使得同步开销和软件不是主要问题。所以,他们想出的设计和脑波强化器几乎一模一样。由单个单元通过高速结构连接而成的网状结构,其功能是在一个时钟周期内路由单元之间的通信。每个单元都有一个1.25MB的SRAM高速暂存区,多个具有SIMD功能的超标量CPU内核,以及支持所有常见数据类型的矩阵乘法单元。此外,他们还引入了一种称为CFP8的新数据类型,可以用浮点8进行配置。每个单元在BF16/CFP8上可支持1TFlop,在FP31上可支持64GFlops,每个方向的带宽为512GB/s。
 
 
CPU也不逊色,在向量流水线上是4宽2宽。每个内核可以托管4个线程,以最大限度地提高利用率。不幸的是,特斯拉使用的是定制ISA,而不是RISC V这样的顶级开源ISA,这个定制ISA引入了转置、收集、广播和链路遍历的指令。
 
这354个功能单元的整个芯片可以达到BF16或CFP8的362 TFlops和FP32的22.6 TFlops。它总共有645毫米和500亿个晶体管。每个芯片都有惊人的400W TDP,也就是说功率密度比大部分Nvidia A100 GPU都要高。有趣的是,特斯拉实现了每毫米7750万个晶体管的有效晶体管密度,仅次于移动芯片和苹果M1,高于所有其他高性能芯片。
 
 
基本单元的另一个有趣的方面是NOC路由器。它与Tenstorrent在芯片内部和芯片之间的扩展方式非常相似。毫不奇怪,特斯拉正在采用与其他备受尊重的人工智能初创公司类似的架构。Tenstorrent非常适合拓展训练,特斯拉非常注重这方面。
 
在芯片上,特斯拉拥有惊人的10TBps定向带宽,但这个数字在实际工作负载中并没有太大意义。特斯拉相比Tenstorrent的一个巨大优势是芯片之间的带宽要高很多。他们有576个112GTs的SerDes。这导致总带宽为64Tb/s或8 TB/s。
 
我们不确定特斯拉每边4TB/s从何而来。更有可能是X轴和Y轴上的数字。除了这张令人困惑的幻灯片,这个芯片的带宽是疯狂的。目前已知的最高外接带宽芯片是32Tb/s网络交换芯片。特斯拉能够通过大量的SerDes和高级封装将这个数字翻倍。
 
 
Tesla通过PCIe 4.0将Dojo芯片的计算平面连接到与主机系统相连的接口处理器。这些接口处理器还支持更高基数的网络连接,以补充现有的计算平面网格。
 
 
二十五个D1芯片被封装在一个“扇出晶圆工艺”中。特斯拉并没有像我们几周前猜测的那样确认这个包是TSMC的集成晶片扇区系统(InFO_SoW),但考虑到疯狂的芯片间带宽和他们特别提到的扇出晶片,这似乎是可能的。
 
特斯拉开发了一种专有的高带宽连接器,可以保留这些芯片之间的片外带宽。每个芯片都具有令人印象深刻的9PFlops BF16/CFP8和36tb /s片外带宽。这远远超过了Cerebras的片外带宽,使得Tesla系统的横向扩展能力甚至优于横向扩展设计(如Tenstorrent架构)。
 
 
变速器是独特的,定制的,非常令人印象深刻。这么大的带宽,超过10KW的功耗,特斯拉在电力传输方面进行了创新,垂直供电。定制调节器调制器直接回流至扇出芯片。功率、热量和机械都直接连接到芯片上。
 
 
即使芯片本身总功率只有10KW,但芯片总功率还是15KW。电力传输,IO,晶圆线也是很耗电的。能量来自底部,热量来自顶部。特斯拉的刻度单位不是芯片,而是25芯片。这张地图远远超过了NVIDIA,Graph Core,Cerebras,Groq,Tentorrent,Sambanova,或任何其他AI训练程序的单位性能和扩展能力。
 
所有这些看起来都是非常遥远的技术,但特斯拉声称他们已经在实验室的真正人工智能网络上以2GHz的速度运行芯片。
 
 
扩展到数千芯片的下一步是服务器级。Dojo可以扩展到2 x 3 tile配置,在一个服务器中有两个这样的配置。对于在家计算的人来说,每台服务器共有12个tile,每台服务器共有108个PFlops。超过10万个功能单元,40万个定制核心,132GB SRAM,这些都是令人震惊的数字。
 
 
特斯拉继续扩大其网格中的机柜级别。芯片之间没有带宽中断,是一个同构的芯片网格,带宽惊人。他们计划扩展到10个机柜、1.1万亿次浮点运算、1,062,000个功能单元、4,248,000个内核和1.33TB SRAM。
 
 
软件方面很有意思,但今天不做太深入的讨论。他们声称他们可以虚拟地细分它。他们表示,无论集群大小如何,软件都可以在Dojo处理单元(dpu)之间无缝扩展。Dojo编译器可以处理硬件计算平面的细粒度并行性和映射网络。它可以通过数据模型图的并行性来实现,但也可以通过优化来减少内存占用。
 
模型并行可以跨芯片边界扩展,甚至不需要大批量解锁下一级AI模型的万亿甚至更多参数。他们不需要依靠手写代码在这个庞大的集群上运行模型。
 
总体而言,与英伟达的GPU相比,成本相当,但特斯拉声称他们可以实现4倍的性能,1.3倍的性能功耗比和5倍的面积减少。特斯拉的TCO优势几乎比英伟达的AI解决方案好一个数量级。如果他们的说法属实,特斯拉在人工智能软硬件领域已经超越了所有人。我很怀疑,但这也是硬件极客的梦想。
 
我们都必须试着冷静下来,等着看它何时真正部署到生产环境中。
 
《华尔街日报》:特斯拉是如何成为
 
芯片危机中的大赢家?
 
在半导体短缺和全球供应链拥堵困扰汽车行业的一年里,TSLA特斯拉公司(Tesla Inc .)成为汽车行业最大的赢家之一。从某种程度上来说,该公司的成功是因为它起源于硅谷。
 
分析师预测,埃隆马斯克的这家电动汽车制造公司今年的汽车产量将比2020年增长80%左右,有望实现2018年以来最快的年产量增速。根据IHS Markit的数据,在供应链中断的严重影响下,全球汽车行业的汽车产量预计将比去年增长约1%,比2019年减少15%。
 
行业高管和顾问表示,特斯拉能够保持生产线运转的部分原因是其内部的软件工程专业知识,这使得特斯拉在适应全球半导体短缺方面比其他许多竞争对手汽车公司更舒服。从电机控制到手机充电,芯片无处不在。
 
例如,该公司首席执行官马斯克表示,在今年早些时候面临短缺时,特斯拉可以迅速修改必要的软件,并将替换芯片集成到其车辆中。
 
半导体高管和顾问表示,特斯拉作为一家相对年轻的汽车公司,其优势在于从零开始设计汽车,而不是像许多传统汽车公司那样几十年来零敲碎打地添加零部件。一些高管和顾问表示,这一优势使特斯拉能够整合系统。
 
贝恩咨询公司对特斯拉2019款Model 3的研究表明,在Model 3轿车中,只有一组半导体可以实现扬声器控制、语音和手势识别等功能,而在许多其他车型中,这些功能需要更多的芯片来控制。
 
半导体供应商微芯片技术公司(MCHP)首席执行官Ganesh Moorthy表示,与传统车企相比,专注于电动汽车的车企在技术领域涉足较深,因此受益匪浅。
 
Moorthy说:“在很多情况下,这些汽车公司更热衷于接受新的信息,我认为这是他们的产品能够更加灵活的原因。”
 
特斯拉没有回应就其芯片购买策略置评的请求。
 
传统汽车制造商通常让零部件供应商负责采购芯片。一些半导体行业高管和分析师表示,马斯克更喜欢在内部生产汽车零部件,这意味着特斯拉在某些领域的供应链更加可见。在危机爆发之前,特斯拉与半导体公司建立了密切的关系。例如,特斯拉设计了一台计算机,使其先进的驾驶辅助技术能够应用于新车。
 
QCOM高通公司负责汽车业务的纳库尔·达戈尔(Nakul Duggal)说,“如果他们决定自己制造某种东西,那么他们必须与半导体供应商建立直接关系。”高通是一家芯片设计公司,为特斯拉供货。
 
芯片短缺可以追溯到2020年底,当时汽车需求从疫情低点反弹的速度快于预期,让汽车制造商措手不及。
 
根据咨询公司AlixPartners LLP的数据,如果没有足够的半导体,全球汽车制造商今年可能生产约7700万辆汽车,比1月份的预期低约9%。
 
特斯拉首席财务官扎克里·柯克霍恩(Zachary Kirkhorn)在10月份表示,特斯拉在芯片行业的专业知识以及向供应商持续传递信息的做法,帮助该公司应对了供应链挑战。
 
柯克霍恩对分析师表示:“我们从未向供应商下调产量预期,我们正在尽快提高产能。”
 
特斯拉也未能幸免于供应链问题的影响。该公司的工厂一直开工不足,今年2月,加州弗里蒙特的工厂因零配件短缺而关闭。特斯拉也采取了变通办法来应对短缺。据知情人士透露,马斯克要求工人先制造没有某些零件的汽车,然后再把这些零件补上。
 
以马斯克芯片短缺为由推迟了新型号的推出。人们期待已久的特斯拉电动皮卡和半挂卡车原定于今年投产,但现在分别推迟到2022年和2023年。
 
传统车企现在更加重视芯片技术。上个月,福特汽车公司(Ford Motor Co .)和通用汽车公司(General Motors Co .)都宣布,它们已经与半导体公司签署了开发计算机芯片的协议。
 
研究公司Gartner Inc预测,到2025年,按市值排名的前10大汽车制造商中,有一半将自己设计至少一些芯片。
 
而资深律师表示,与此同时,全球对电动汽车的追捧和特斯拉市值的上升,使得马斯克的特斯拉在一些零部件供应商眼中成为更有价值的客户。
 
代表汽车零部件供应商的底特律地区律师丹·夏基(Dan Sharkey)表示,他的一些客户愿意为特斯拉做一些他们不愿意为其他汽车制造商做的事情。夏基说:“这些供应商觉得抓住特斯拉就像抓住一颗冉冉升起的新星。”他说,特斯拉相对较小的产量有时对公司有利。“因为很容易产生这样的想法,好吧,我们就处理这些小规模的订单吧。”
 
特斯拉有望轻松实现自己的目标,即总交付量比去年的近50万辆多50%。今年前9个月,特斯拉向客户交付了超过62.7万辆汽车。特斯拉的规模相对较小,市场对电动汽车的需求不断上升,这使得公司更容易保持快速增长的趋势。特斯拉还优先考虑向客户交付汽车,即使有些车辆缺少一些零件。
 
39岁的莫·西迪基(Mo Siddiqui)住在德国汉堡,他说他在本月早些时候收到了特斯拉的一条消息,告诉他他价值约7万美元的Model Y紧凑型SUV可能会在没有一些USB接口或无线电话充电功能的情况下交付。
 
Siddiqui可以在提车后两周内预约车辆升级。他说:“这个我能接受。”
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行

网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  苏ICP备19027764号-1