怎么看待Groq

怎么看待Groq用眼睛看。就是字面上的意思用眼睛看。我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。目前Groq只能选Llama的70b,和Mi

大家好,欢迎来到IT知识分享网。

用眼睛看。

就是字面上的意思用眼睛看。

我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。

目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。

怎么看待Groq

这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了

怎么看待Groq

,然后看每秒Token数525!!!

如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token…

是的,它就是这么快。

刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计算的代表。

那它为什么这么快。

感兴趣的对空间计算,存算一体不太了解的可以先看Dojo系列。

特斯拉 DOJO超级计算系统究竟是个啥?(3) (qq.com)

我们先看一下它的架构和参数

怎么看待Groq

如果只看芯片架构,就很Dojo…

  • VXM:向量处理单元
  • MXM:矩阵处理单元
  • SXM:管理tensor的reshape和IO通信的
  • 和Dojo不一样的,它没有常量处理单元,纯纯为AI设计
  • 只有SRAM作为存储单元
怎么看待Groq

  • 5120个向量处理ALU
  • 4个Matrix处理单元可以支持320*320,一共409,600个乘加器支持整数和浮点运算。
  • 480G的外部互联带宽
  • 80TB/s的单chips访问带宽!然而只有230多MB吧…
怎么看待Groq

从总体算力上看还好吧,一片大概是A100 312(dense)的百分之60,这么好像也一般啊。

那它为什么这么快,说起来这个原因就是LLM推理和训练是两回事,目前业界提升大模型推理速度的方法都在内存上使劲。

1- Flash-attention派:把QKV拆给散的block然后尽量在1,2级缓存上做,也就是寄存器和SRAM上做,离芯片近啊,虽然空间不大,但是算的快。

2- vLLM流,在HBM上面使劲存KVcache,因为LLM的推理是自回归的,你可以理解为,第一次推一个字,第二次推两个字,第三次推3个字,这样的逻辑,然后你第二次推之前存储前一次的一个字,第三次推存储第二次推出来的两个字,以此类推。。。

其实还有第三种量化,第四种蒸馏,这个就没什么意思了,不在这里讨论。

业界目前比较开源的(闭源的其实也一样)推理计算方案都用第二种,只有Dojo和Groq用的是第一种方案,就是离算力最近的存储。

这第一种方案比较吃力不讨好,因为一块SRAM一般的chip面积是Dram的5-6倍,价格也差不多的倍数,死贵,而且它容量从来都不太大,230MB,其实不小,Dojo一个Dojo core才给1.25…..

这时候遵从第二种方向的HBM派的反对声音就来了,比如某yangqing说因为现在大模型本身权重文件就大,而且又涉及到推理的KVcache这部分消耗,所以用Groq的230MB,同样去做一个llama-70B的推理, 然而:

“在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。”

上文不是我写的,我一个字没改,沾过来了…

从特别传统的思路上来讲,你不能说他说的是错的。

但是现在AI发展的硬件瓶颈不在算力上,主要在带带宽通信上,跨节点的通信比如IB,这个算,然后HBM和SRAM通信的带宽也算。

其实你左右在真正计算的过程中不也是要把HBM的东西load到SRAM上做么,那你何不就直接让KV还有权重在SRAM上常驻留呢?

怎么看待Groq

拿NV的Femi架构的图举个例子 ,其实A和H也是一样的,你不可能不要L2 cache直接让SM去你的HBM里拿东西算,然后再交换,那多慢啊。

另外一个值得说的是, 做软件的人就不太理解硬件的成本,只是有个大概的逻辑,才会说出40倍这种推论…

如果认真看一下Groq的工艺就知道了,人家14nm,3-5年前的制程了,稀烂便宜的,成本是H100 4nm的30%可能我都多说了…

Groq一个chip也可以理解为类似Dojo的Tile的概念大概查了一下25*29左右的大小,一般一个wafer也就是晶圆,可以整出来差不多80个,一个晶圆正常报价是6000USD,也就说这东西成本不到100美金,就算600个也才6万美金。按着上文逻辑300个Groq的成本大概在3万,我算它的产品赚成本的1倍也才就6万美金

有人会说6万美金也很贵啊,H100一块才3万5,从这个角度你说的很对。

然后如果我把推理延迟做到H100的20分之一,你还会说我卖的贵吗?

全文完

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/60206.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信