DeepSeek全网“服务繁忙” 算力如何重构?(图)

大鱼新闻 财经 6 hours, 17 minutes



“服务器繁忙,请稍后再试。”这是近期DeepSeek用户经历的日常,需求井喷让DeepSeek始终处于满负荷算力运行状态。然而,“算力不足”的另一面却是“算力过剩”——市场上大量异构芯片因彼此之间“语言不通”存在“生态隔离”,难以被有效整合和利用。

入驻上海模速空间的国内AI基础设施头部公司无问芯穹捕捉到了DeepSeek爆火引发的算力瓶颈,今天推出首个支持DeepSeek多芯片适配和推理的AI异构云大模型服务平台。开发者不仅能一键获取R1、V3模型,还将能选用来自壁仞科技、海光信息、华为昇腾、摩尔线程、沐曦、燧原科技、天数智芯等7家国产AI芯片品牌的算力。这意味着国产芯片上也能跑“满血版”DeepSeek了。

对国内智算产业来说,DeepSeek是激励,更是绝佳的商业化试炼场。如何利用好DeepSeek模型带来的算力优化启示,高效盘活国产算力资源,成为值得行业思考和探索的话题。

全网“服务繁忙”,完善算力基建迫在眉睫

尽管DeepSeek本身降低了对模型预训练的算力需求,但却激发了大量推理算力需求,引爆了整个AI生态链更大的应用需求。目前,主流云厂商几乎均已宣布提供R1模型服务,但全网依然“服务繁忙”。在此背景下,国产算力实际上还有很大的挖潜空间,完善算⼒基建迫在眉睫。

如何将大量不同架构的国产芯片变得能用、好用,并在使用过程中形成硬件与算法之间的正向循环?无问芯穹的策略是做“异构云”, 即统筹模型和算力需求,把分散在不同地方的异构算力整合起来。

无问芯穹联合创始人、首席执行官夏立雪解释说,和人类社会一样,芯片之间的通信也需要“语言”,不同构架的芯片“语种”各不相同。无问芯穹基于团队成员此前在清华大学电子工程系的技术积累,实现了不同芯片间的高效通信,相当于发明了一种能让异构芯片顺畅交流的“世界语”。

与此同时,不同芯片擅长的“工种”各不相同,如果平均分配任务,就会出现“尖子生”空闲而“普通人”忙不过来的现象,造成算力浪费。要解决这一问题,需要对每种芯片在实际执行中的速度和效果了如指掌,从而在分配任务时“因片制宜”。此外,不同芯片还有不同优化空间,可深度挖掘软硬件的适配度,进一步提升“单兵作战”能力。

凭借着对算法、硬件、场景的深度理解,无问芯穹将“百花齐放”的国产异构芯片汇聚起来,将非标准化算力变成标准化算力赋能千行百业。2024年,公司推出业内首个千卡规模异构芯片混训平台,将来自不同厂商的异构芯片拉入大模型“聊天群”。这一创新“异构计算集群”执行AI训练任务的算力利用率最高可达97.6%。目前,无问芯穹异构云平台已接入13座城市的算力中心。

加速“国产模型-国产芯片-国产系统”产业闭环

深度解读DeepSeek的系统架构设计不难发现,其核心就是软硬件协同优化理念,这在国内算力受限场景下实现模型能力的突破具有重要意义。


无问芯穹联合创始人、首席执行官夏立雪。受访者供图

业内专家指出,在美国,模型、系统、芯片三大AI发展关键要素已形成闭环生态。而大部分国产模型是通过国际主流芯片(如英伟达)训练得到,尚未与国内的AI系统、芯片形成闭环生态。DeepSeek的异军突起激发了越来越多的下游应用创造力,未来行业日均tokens消耗量将达百万亿级别。这不仅将激发国产芯片的市场需求,也为打造全国产AI产业闭环,实现更可控的自主算力支撑创造有利条件。

据国际数据公司(IDC)预测,2027年中国智能算力规模将是2023年的3倍,达1117.4EFLOPS(每秒百亿亿次浮点运算)。新增算力从哪里来?在夏立雪看来,一方面是将数量占据半壁江山的国产异构芯片纳入标准化算力体系,另一方面则需通过算法提升算力使用效率,从而降低大模型的落地成本,由此打造“国产模型-国产芯片-国产系统”的全国产AI产业闭环。这种软硬件协同优化的技术路径与DeepSeek的模型构架创新在理念上异曲同工。

事实上,DeepSeek的成功也将更多优秀中国AI企业推向世界舞台。近日,知名科技商业智库《麻省理工科技评论》点评了4家中国AI新锐。报道指出,除DeepSeek之外,阶跃星辰、面壁智能、智谱AI、无问芯穹4家企业同样展现出不俗的技术实力与全球竞争力。目前,4家AI新锐已有3家入驻上海模速空间,某种程度上体现了上海在AI领域战略布局的前瞻性与精准性。

从国产模型到国产算力、国产应用,DeepsSeek让国内AI产业链上下游意识到,在堆叠算力储备、比拼模型精度的巨头竞赛之外,找到未被业界主流关注到的“创新盲点”,跨越软硬件,攒动上下游,有可能走出出奇制胜的技术路径。

栏目主编:任荃题图来源:受访者提供

 

相关新闻