p p p p p p啊,最近啊国产的开源m o e大模型deep sk v三可谓是火遍全世界大神卡帕西出来表示震惊,山姆奥特曼发推出来,阴阳国外媒体是左一个震惊又一个东方魔法。我的评论区都因为我没有提到deep sk有人抗议了。因为呢他用五百五十七万美元就干出了open ai谷歌。meta要花数亿美元才能干的事儿。大约呢是拉玛三点一的十分之一左右,g p t f o的二十分之一。在这样一个成本下,def sic还登顶了开源之最,打败了拉马三点一千万二点五,赶超了必然的昂贵的club三点五和g p t f o。那么这个d p c的深度求索到底是什么来头?为什么这么火?怎么做到又快又牛逼的普通人要怎么用上呢?实测效果又怎么样?缺点是什么?它的出现会带来多大的影响。今天我们就带着这些问题,一口气了解这个砸盘英伟达的国产大模型。deep c很低调啊,可能除了非常关注a i的朋友,很多朋友都不知道它,但是它其实来头不一般。它的全资东向呢是国产的顶级量化基金。冠方是不是还是没听说过。那反正呢def sk就是这一家规模曾经卖过千亿大关的量化私募,换方量化。在二零二三年四月成立的全资子公司。一毛钱都没让别人投过,我觉得呢这也是人家能做到这个结果的原因之一。那专家都说要做a i大模型,一万张,a一百是最基本的门槛。那换方这么一个量化公司是怎么入局的呢?凭什么?哎,没想到吧,我在一九年就开始挤卡了,到二一年直接投入了十亿,手握万卡。也就是说在g p t三点五正式出来之前,人家就已经默默囤购了入场券。当时啊能拿出万卡的公司就只有那几家大厂和换方。那你说这个量化基金为什么要入局人工智能呢?用他创始人梁文锋自己的意思来说,就是他们本来就是做大模型的,人家当时呢只是想找一个够复杂的场景来切入,然后就选了大模型用来搞金融。哎,当时就赚了,然后啊现在又觉得通用人工智能才是下一个更难的事儿,就觉得得做这个了。老凡尔赛了,所以梁文峰也并不是传统意义上的金融富豪啊,他就是技术出身的,每天干了就是看论文,写代码,讨论。那deep sea这一波为什么突然这么火呢?说白了就是v三非常显性的把训练高性能大模型的价格给打下来了。当所有的巨头们都在为数亿的训练成本发愁,扬言就是未来可能得到一百亿一千亿的时候,maybe too small. 他来了一个五百五十万,百分之一直接捅到喉咙,那又在别人拉马三点一需要一万六千张h一百训练好几个月nice。他只用了两千零四十八张h八,训练了两个月,算下来几乎是八分之一的计算量。那再看推理成本,别人卖二十刀的会员还限额,他a p i每百万token才一块钱,差不多是g p t四turble的七十分之一。在用美金的朋友眼里,三下五除二就等于不要钱啊,真香。哎呀,所以呢他也被外网称为来自东方的神秘魔法,还被各种媒体冠以什么英伟达大空头砸盘者,黑科技a i拼多多等名号。但是呢光便宜也不行,他还性能震撼。dev c c v三的数学能力和编程能力直接到这儿。那这俩可是最前沿的club,三点五和f o啊,他在多任务和复杂问题上也超越了其他,逼近了cloud。所以啊在twitter上爱发言的那些个大神全都忍不住了。卡帕西就说了,今天一家中国模型轻而易举地发布了一个前沿大语言模型。英伟达的高级科学家就说,去年他们就有最好的开源模型之一,连奥特曼都出来阴阳了一下,deep sea没有创新。那具体的影响呢我们后面会再分析,反正呢就是一把子把全世界人民给震惊了,看的国人是热血非凡的。那么为什么deep sk visa这么便宜还这么强呢?他这个东方魔法到底是个啥?我们同作为东方人是不是?哎,其实啊你可以把deep sk理解为聪明的花式卷王,简称花卷。嗯,首先啊先说一下它是个m o e架构模型,也就是一个混合专家模型。啥意思呢?就是它不是一个全彩的大模型,它是几百个专家模型组成的,有的擅长数学,有的专攻代码,就该谁上谁上。三个臭皮匠顶个诸葛亮,但是呢这不是它成本低的原因,毕竟m o e早就有了,有不少也不是很强。那deep sig之所以能做成a i拼夕夕,它是有这么些技术创新的。看不懂哈。没关系,我们一个个解析啊,我们可以把训练大模型想象成是一个工厂。那降低成本的方式呢就两招,一压缩整体的干活量。二不让一个工人闲下来。那他的这个m l a r和s p八混合精度训练,就是在压缩干活量的。m l a呢叫做多层注意力架构。那原来的注意力机制呢是每一层都挨个有一个名字对应一个值。训练的时候,这个名字和值多的呀,挨个计算和存在内存里面。就好比你们原来一个班,原来呢是张三一百二十斤,李四一百八十斤,m l a呢就把前后几层都给合并到一起了。他不记具体的名字,现在呢你们都叫第一排,想起你了,我再说第一排。第二个男生你多少级,那这呢就让训练占用的内存也少了很多。f p八呢就是二进制里八个比特,位,位数越多,代表精度越高。原来呢老是三十二位,十六位,就相当于啊原来能精确到一块八毛五。那人家deep seek大手一挥,算你两块吧,这就比人家少了一半的计算量。哎,那你说这中间岂不是会误差很大?首先你看人家这个名字混合精度,该精确的地方,人家还是用高精度。你要给我算一点八五个比特币,我就不给你抹零了。我还计算机掏出来,我好好给你算算。那你又说这个几毛钱的地方,他也怕积少成多,是不是?哎,他们也考虑到了,所以呢,他也不是最后再去算总账,他每一百二十八个数就把当前的结果交给三十二位的。算的贼细的一个会计给仔细算一下。那这两招就降低了这个计算工厂的整个的干活量。第二点并行提效,它用了刀pp无损失辅助的负载均衡策略化解点全对全全通信内核。哎,这几个呢就是为了让生产队没有一头驴是闲着的老孽。dpp呢就是优化这条计算的流水线。原来呢训练呢就让前面的人拧完螺丝传到你这儿,贴个胶布,就老有那种。你贴完了之后,他还没拧好,你总得等等它的时候,以及呢这个传送带啊送过来可能还需要点时间,那刀派不直接设计了两条并行流水线。你贴完直接转身,还有一条流水线很火等着你呢。你贴这边的时候,那边就在传着,等着,肯定并不耽误你干活。那这呢就变成了数据传输和计算同时进行直接提速了百分之五十,通信开销减少了百分之二十。那其次是这个无辅助损失的负载均衡策略。刚才不是说了嘛,他这个m o e啊是有几百个专家的那m o e中呢就有个麻烦的,是谁上谁不上,这都是偷懒的空子。就像外卖平台派单啊,原来的方式是硬性规定,小王必须送三十弹,小李必须送五只弹,那就很死板。而deep seek v三这个无辅助负载均衡就相当于智能派单。如果他发现某个骑手连续跑了太多单,那系统就自动降低他接到新订单的概率,把单子呢分给其他闲着的骑手。这种动态调整就让整个系统运转的更加顺畅高效,让不同专家的工作量动态的达到了一种平衡。那你说ok效率是高了,那你是怎么做到能力还比上了顶尖模型的呢?三个原因,模型够大,数据够好,适当的偏了点科。首先啊它有六百七十一b的参数量,比拉马三点一的四百零五b还大两百多人,底子就够强。第二呢是人家在训练数据上精益求精。deep sk呢从挑数据到清洗数据到数据处理,全部都精细调制。你说精品的食材,精细的擦洗,再加精湛的刀工,它还量特别大,有整整十四点八t token。那这道菜它就很难差。再者呢它有m t p技术,这就是说原来的大语言模型是一次预测一个图。可它呢同时预测多个连续的头肯不仅是效率提高了,还更能把握这个token跟token之间的依赖关系了。虽然呢这个m t p啊是meta今年四月提出来的,但是deep seek做的快啊,最后呢他还真留了deep sk r一模型。r一呢你就理解为deep sk版的o e一个推理模型。那推理模型我们都知道出个答案,那是有一长串思考过程思维链的那这些呢其实都是数据啊,所以呢v三也从r e模型中提取了推理模式和解题策略来作为数据来微调deep sk的主干模型。这就相当于我哥数学好呀,我把我哥脑子里的解题思路,我都当书看一下子,就提高了他的数学能力。所以啊也整的有点偏科了。在那些打败cloud和g p t四o的指标上,也确实都是他的这些强项。那这些技术叠加起来就实现了它性价比之王。所以呢这些并不是什么魔法,我将其称为在工程上聪明而创新的花式卷发。那么这么强,这么便宜,我们普通人怎么用呢?不得上手试试效果吗?来吧。使用呢非常简单,最简单的就是官网。那国产模型嘛都是打开用还免费。它呢还有这个联网搜索和深度模式,也能上传文件和图片。咱们日常用的就这么薅着就行了。那第二种呢是调a p i,那打开这个就是了,那在这里拷贝一个a p i k就行了。说白了直接打开命令行给他发消息就能用上了。那看他这个价格啊,现在还在优惠中,一毛钱百万,偷看你干脆不要钱呗。张柜长也让了啊,塞章酒。哎呀,有些朋友用它在kor或者是cine里面用替代cloud,或者是define啊开源的lobby chat之类的,平台上用,也很适合去做一些批量的任务。便宜又好用嘛。第三它是开源的,所以呢可以免费的下载和部署它的模型。但是毕竟人家有六百多b的参数量,这个呢真的就要有点钱了。有条件的朋友可以自己上哈face上去看。那么我们就来用它的官网测试水平吧,先问问他是谁吧。好,看来他已经修补了那个说自己是g p t四的问题,那再来问他一个他擅长的数学吧,这是一道二四年的考研数学题。答案呢是这个,那直接截图给他了。deep seek回答速度真快啊,好看起来,最终答案全都错了。但是呢其实deep seek是对了的。你看他这个解题思路里面,其实他算对了,c等于负四分之派,并且还得出了这个式子,只是他没有去代入化简。但是呢克劳德和四o这边是完全就错,c也没有算对。ok再来个编程试一下考题不难,但是我只给一次机会,那帮我做一个前端网页页面,用它来帮人决定是该继续读博士,还是该出道的偶像呢?啊,应该有一点交互性和数据分析,有创意一点啊,让他给我实际的代码。ok这个粘贴出去在浏览器看看哦,他这个有bug踩点第一道题就给结果了。那看看克劳德呢,哇克劳德这个挺满意的,建议我当偶像,而且还粉粉的有交互。那再来一个经典的弱之八改造题吧,喜欢装好人的王老汉被警察发现,冰柜里装满了好人,那他是不是好人哦。ok deep seek一本正经的分析啊,还给出了也许是好人,也许不是的这种严谨推理。但是呢他完全没有get到里面的坑和幽默,果然是偏科。理科生。那克劳德呢是直接发现了其中的暴力之处,拒绝回答了。富翁呢也发现了讽刺和黑色幽默,然后又一本正经的教育了一番。最后呢我们再来一个常规的文件总结吧,总结一下我上一篇a i编辑史的这个文稿。ok deep sk总结的这个问题呢其实不大。不过我个人感觉跟fo比起来还是少了一点。重点科劳德呢明明收到的是中文,回我的全是英文这一局失败。那所以呢他在数学和编程能力上非常强,创意生成相对弱一点,结构化的思维大大高于发散型思维。另外呢它有个缺点就是没有动模态。那官网上之所以我们可以传有文字的图,大概率是因为他在给大模型之前就做了文字的o c r处理。我们直接调用a p i是没有的,以及它只有六十四k上下文,大家用它替代curson里二百k上下文的cloud可能就会发现了,上下文不够长,就会可能会导致对整体项目的代码理解会有一点问题。修改起来项目也比较费劲,但总体还是很强了。要啥自行车,那么他这么火,这么便宜,这么强,实测效果也很亮眼。那它对整个ai行业有什么影响呢?首先扬眉吐气了,不让买顶尖的g p u,d p i c就拿着两千多块阉割版的h八零都训练出超过一点六万g p u的拉马三点一了。所以呢最震惊的其实是海外朋友给人吓了,making investment tion d o need the high and g p s. if you can get just as much out of the h eight hundreds of dummling version, 生怕英伟达被砸盘,当然也再一次掀起了忌惮我国像互联网和新能源车一样再次占领高地的一种小恐慌。但是呢也有声音说,这样的工程化卷法并不是创新,就是说这个工厂吧,流水线设计的好,生产质量好,有什么用,你又没有发明一个别人完全不知道的技术,发明一个新玩意儿。那这里面呢是因为deep sk v三用的核心技术啊啊,比如m l a是已经存在很久了,m t p呢也是今年matter的论文,而蒸馏r e的这个招也是受到open ai和谷歌的启发。所以呢也有专家将其称为大户型经济适用房。把deep seek的爆火比喻成小米夫妻都是人家用过的技术,又如何,三年造车只要二十一万,还带手机支架,这你受得了吗?但是呢他认为def c v三对a g i的贡献几乎为零。那我认为呢,即便def sec并没有像我们想象中的g p t五那样,在造一个更通用智能的大脑这件事上,有什么前一年的探索。但是呢说对a g i没贡献,倒是也忽视了一些工程创新的力量。比如马斯克最早造火箭,也没说他发明什么爵士材料,爵士技术,人家就是花式大大卷,卷到用不锈钢来造火箭,卷到成本低到nasa想哭,卷到全世界,百分之八十的卫星都是他发的。你能说马斯克没有为上火星做贡献吗?这基本全是他的贡献啊,你要没有点智慧,还真做不了功臣之王,效率之王。你还别说,整个美国还真就被马斯克学到了一点我们祖传魔法的精髓。所以呢deep seek v三的出现,至少会有以下几个影响,一价格。地震a i行业再次打响价格战,倒逼各家把大模型的价格都打下去。眼看本来两百刀的open a i要只让一小部分人先用起来deep,sk则会让更多的普通人和企业能用上更好用的模型。第二,思维革命。这种东方魔法会引起各方的注意,各家厂商呢就会在追求理论创新和工程的精细化实现上去找平衡。虽然说啊并不是彻底颠覆了算力和模型的关系,屯了卡去建超算的那些巨头,倒也不至于很后悔。但是呢至少会引发一些效率方式的竞赛。第三,火箭效应它是开源的那开源之王从拉马挪到了deep sk原本以为都指望拉火火的开源社区和企业,尤其是国内的,属于是看到自己的亲兄弟,发达安心多了。其次呢它的训练价格还低五百五十七万美元。咱们看着是多了点,但是呢比起来动辄多少亿美金啊,那对于科技公司,甚至是小科技公司那也好太多了。所以说能参与到训练大模型的入场玩家会增加,而这三波叠加的结果也是ai民主化的加速。或许呢可以不让高性能a i走向贵族玩具,而是成为人民工具,乃至为通向a g i的道路,扫平一些障碍,拉入更多的力量。也许通向ai未来的路,不一定只有最贵的那一条,你怎么看?记得点赞、收藏、关注,还有哪些话题是你感兴趣的,也欢迎留言,我们下次见啦。