DeepSeek公开大模型高效训练又一秘诀!这家公司盘中直线拉升7.5%,背后有什么联系?

每经记者 岳楚鹏    每经编辑 陈柯名,兰素英    

2月25日,DeepSeek开源周第二波来袭。

DeepSeek宣布开源DeepEP的代码库。DeepEP是首个用于混合专家(MoE)模型训练和推理的开源专家并行 (EP)通信库。

和昨日开源的FlashMLA是核心技术MLA(多头潜在注意力)的改进版本一样,DeepEP也是DeepSeek-V3核心技术EP的改进版本。它提供高吞吐量和低延迟的全对全GPU内核,适用于MoE的分发(dispatch)和合并(combine)操作。 

DeepSeek声称,DeepEP的特点包括高效的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCExsKibxm91hEVbsRibKDlyShHcyHX3S9DpmHo3xEcd5E3L711jx6REyQ.jpg图片来源:X

DeepSeek的官方解释不免有些技术流,《每日经济新闻》记者邀请了DeepSeek模型来深入浅出地介绍下这一技术。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCBcznO0ywejdOmsVib0N0yVeicv6ia5IgnKg0rqaYg9gFTTjDdYD3pzq8w.jpg

虽然EP技术能以较低的通信成本完成模型训练,但中金在最新的研报中认为,这种通信设计技术的进展并不一定会使高速通信的需求减少。

中金认为,由于张量并行(TP)和专家并行(EP)的通信开销比较没有绝对的多少之分,受制于多种因素限制,因此在张量或专家并行的选择上,需要具体问题具体分析,本质上都是现有硬件条件下的平衡。通信方面大量使用专家并行而减少张量并行并不能证明高速互联需求在更强基础模型训练中呈下降趋势。

值得注意的是,在DeepSeek宣布开源DeepEP软件库后半个小时,兆龙互连(300913.SZ)的股价直线拉升7.53%,但随后回落,截至收盘,兆龙互联报收于每股60.57元,下跌1.5%。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCsFLibjJslRJRotN34icjJHytjNTu4sBHjmtv319kH1wrurS71fH300OQ.png

兆龙互连是一家什么样的公司?和DeepSeek的开源有没有关联?

针对这一问题,每经记者使用了每日经济新闻App的“问投资”功能寻找答案。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCp9yaCIxibbodSJ7MxGDpwIO3AGgc77pReAEeuNxgMriaaAPAWPb50m6w.jpg

记者输入兆龙互连的公司名后,页面就弹出了股票趋势、资金、机构和概念等十大维度。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCiaTIwesRHvhN2hsolDwd5FZibPteYmVhOiaE1j7TN8NLJLz264vdqUzEg.png

记者点击“概念”维度后,发现兆龙互连是一家涉足高速通信设备(铜缆高速连接)的公司。不过,DeepSeek认为兆龙互连的盘中快速反弹,是受短期情绪驱动的,并没有直接证据表明兆龙互连的股价和这项技术的开源有联系。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCKED3PW8nv4UKLky0THCG30ajgzSqhYA4u5LPEdxp8dmEBcLPCkYibxQ.jpg

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCbnB9SJiceiaIdvhsFHEhrvXhjkyPsKwAP2RXbbTdu3JibNQV2VtYgEFew.jpg

不得不说,在每日经济新闻App里使用DeepSeek非常丝滑,不会碰见“服务器繁忙”的情况。目前使用量已经超14万次了! 

咋用呢?超简单!

先下载每日经济新闻App

https://www.nbd.com.cn/corp/2016app/index.html

再往下看

一、 在每日经济新闻App首页,点击“DeepSeek”图标或首页轮播图“自由问+问公司问投资问基金免费使用DeepSeek、Kimi、豆包等六款大模型”。 

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCzYlWjLwI43ummnxibpNw0wwSAyTnPJ9ckEmqZb9JyeticPz6JZfomkQQ.jpg

二、 进入“每经大模型平台”页面,即可使用DeepSeek、Kimi、豆包、智谱清言、文心一言和通义千问6款大模型中任意一款。 

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCR4WnCsvjvN0dejib3ukdC40uZg1RqiaFLtIMD428sJ0y1MwWdl4odIjg.png

最近,每经“136计划”还增加了新功能: 

大模型解读投资热榜。  

只需点击投资热榜中的任意新闻。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyC8sVwDRtPInblIFNhxZKXWFlLF1yyeeMQFrrVLAyNz2aMiasvfenRm5g.jpg

立即就能得到大模型的全面分析。

还能一键生成图片分享给朋友。

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyCWrSjRnLswHU0dCPXvEA6aaSjicg1UzO5jOX56v5crJf9DjfTTjfVpAg.jpg

CFF20LXzkOxqN7xcquf4vibBRE5ic9XjyC69xQZjwE6K1Y8Kk2aXT1icKxTyzAMYNKCd1QSRG4NKXG0CMlywrVRPg.jpg

告别“服务器繁忙” 

快用每日经济新闻App吧!

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

记者|岳楚鹏

编辑|陈柯名 兰素英 杜恒峰

校对|程鹏

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

|每日经济新闻  nbdnews  原创文章|

未经许可禁止转载、摘编、复制及镜像等使用

责编 陈柯名

Copyright© 2014 成都每日经济新闻社有限公司版权所有,未经许可不得转载使用,违者必究

互联网新闻信息服务许可证:51120190017  

网站备案号:蜀ICP备19004508号-2  

川公网安备 51019002002025号