大家好,欢迎来到IT知识分享网。
用眼睛看。
就是字面上的意思用眼睛看。
我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。
目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。
这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了
,然后看每秒Token数525!!!
如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token…
是的,它就是这么快。
刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计算的代表。
那它为什么这么快。
感兴趣的对空间计算,存算一体不太了解的可以先看Dojo系列。
特斯拉 DOJO超级计算系统究竟是个啥?(3) (qq.com)
我们先看一下它的架构和参数
如果只看芯片架构,就很Dojo…
- VXM:向量处理单元
- MXM:矩阵处理单元
- SXM:管理tensor的reshape和IO通信的
- 和Dojo不一样的,它没有常量处理单元,纯纯为AI设计
- 只有SRAM作为存储单元
- 5120个向量处理ALU
- 4个Matrix处理单元可以支持320*320,一共409,600个乘加器支持整数和浮点运算。
- 480G的外部互联带宽
- 80TB/s的单chips访问带宽!然而只有230多MB吧…
从总体算力上看还好吧,一片大概是A100 312(dense)的百分之60,这么好像也一般啊。
那它为什么这么快,说起来这个原因就是LLM推理和训练是两回事,目前业界提升大模型推理速度的方法都在内存上使劲。
1- Flash-attention派:把QKV拆给散的block然后尽量在1,2级缓存上做,也就是寄存器和SRAM上做,离芯片近啊,虽然空间不大,但是算的快。
2- vLLM流,在HBM上面使劲存KVcache,因为LLM的推理是自回归的,你可以理解为,第一次推一个字,第二次推两个字,第三次推3个字,这样的逻辑,然后你第二次推之前存储前一次的一个字,第三次推存储第二次推出来的两个字,以此类推。。。
其实还有第三种量化,第四种蒸馏,这个就没什么意思了,不在这里讨论。
业界目前比较开源的(闭源的其实也一样)推理计算方案都用第二种,只有Dojo和Groq用的是第一种方案,就是离算力最近的存储。
这第一种方案比较吃力不讨好,因为一块SRAM一般的chip面积是Dram的5-6倍,价格也差不多的倍数,死贵,而且它容量从来都不太大,230MB,其实不小,Dojo一个Dojo core才给1.25…..
这时候遵从第二种方向的HBM派的反对声音就来了,比如某yangqing说因为现在大模型本身权重文件就大,而且又涉及到推理的KVcache这部分消耗,所以用Groq的230MB,同样去做一个llama-70B的推理, 然而:
“在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。”
上文不是我写的,我一个字没改,沾过来了…
从特别传统的思路上来讲,你不能说他说的是错的。
但是现在AI发展的硬件瓶颈不在算力上,主要在带带宽通信上,跨节点的通信比如IB,这个算,然后HBM和SRAM通信的带宽也算。
其实你左右在真正计算的过程中不也是要把HBM的东西load到SRAM上做么,那你何不就直接让KV还有权重在SRAM上常驻留呢?
拿NV的Femi架构的图举个例子 ,其实A和H也是一样的,你不可能不要L2 cache直接让SM去你的HBM里拿东西算,然后再交换,那多慢啊。
另外一个值得说的是, 做软件的人就不太理解硬件的成本,只是有个大概的逻辑,才会说出40倍这种推论…
如果认真看一下Groq的工艺就知道了,人家14nm,3-5年前的制程了,稀烂便宜的,成本是H100 4nm的30%可能我都多说了…
Groq一个chip也可以理解为类似Dojo的Tile的概念大概查了一下25*29左右的大小,一般一个wafer也就是晶圆,可以整出来差不多80个,一个晶圆正常报价是6000USD,也就说这东西成本不到100美金,就算600个也才6万美金。按着上文逻辑300个Groq的成本大概在3万,我算它的产品赚成本的1倍也才就6万美金
有人会说6万美金也很贵啊,H100一块才3万5,从这个角度你说的很对。
然后如果我把推理延迟做到H100的20分之一,你还会说我卖的贵吗?
全文完
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/60206.html