DeepSeek“蒸馏”剽窃OpenAI?专家:很难制止(图)
大鱼新闻 科技 3 hours, 35 minutes
DeepSeek最新AI模型“价廉物美”,引发科技界震荡。但OpenAI本周三称,有证据表明DeepSeek使用OpenAI专有模型来训练自己的模型,并暗示这可能违反了OpenAI服务条款。美商务部长提名人卢特尼克指责DeepSeek似乎盗用了美国的人工智能技术。新闻可靠性评级机构NewsGuard 称,Deepseek-V3识别假新闻只有17%的准确率。
中国AI大模型初创公司DeepSeek(深度求索)1月20日免费开源的一款 DeepSeek-R1推理模型震惊了科技界和政界。该公司称这款新的AI模型性能足以媲美美国顶尖产品,但投资成本却低得多——仅557.6万美元,是OpenAI GPT-4o模型训练成本的不到十分之一。该公司还称,它使用是芯片是英伟达相对低端的芯片及其他低端进口芯片。
DeepSeek的这款AI聊天应用迅速登顶苹果中国和美国应用商店免费APP下载排行榜,同时引发市场对美国在AI领域竞争力的担忧、对美国企业投入天量资金研发AI合理性及这些公司发展前景的质疑,以及对美国对中国的芯片出口管制究竟有没有效的质疑,令美国科技公司股价大幅下挫。美国总统特朗普形容DeepSeek为美国业界“敲响警钟”,并提醒美国要“全力专注于在竞争之中取胜”。
对DeepSeek成本与芯片的质疑
不过,在一些媒体和专家把DeepSeek的“横空出世”称为AI界的“史普尼克时刻”之际,也有声音质疑DeepSeek所公布的开发成本以及所用芯片的规格与数量。
上周,美国人工智能数据服务公司Scale AI首席执行官汪滔 (Alexandr Wang) 在接受 CNBC 采访时对 DeepSeek的说法表示怀疑,称“这款产品的背后,可能使用了数万颗Nvidia(英伟达)的H100芯片”。他说,“DeepSeek显然拥有50,000颗H100芯片,但他们显然不能公开这些信息,因为那会违反美国的出口管制。”汪滔没有为他的说法提供证据。
亿万富翁埃隆·马斯克支持对DeepSeek持怀疑态度的人。他在X上有关亚历山大·王上述说法的帖子下跟帖写道:“显然”(Obviously)。
英伟达(Nvidia)的H100芯片是目前市场上最先进的AI训练芯片之一,但根据美国政府的出口管制政策,H100芯片是不能向中国公司销售的。
DeepSeek蒸馏提炼违反OpenAI条款?
DeepSeek也被一些技术专家怀疑其模型可能从美国先进的模型中学习到了部分成果,即采用了所谓的“蒸馏技术”。该技术是指通过从更成熟、更强大的人工智能模型中提炼数据来训练新的AI模型,由旧模型评估新模型得出的答案的质量,从而有效地转移旧模型所掌握的学习成果。这意味着新模型可以从旧模型中获益,而无需承担构建旧模型所投入的大量时间、算力等成本。
1月29日,OpenAI称,发现有证据表明DeepSeek使用OpenAI的专有模型来训练自己的模型,并暗示这可能违反了OpenAI的服务条款。不过,OpenAI没有进一步列举掌握了哪些证据。OpenAI的服务条款规定,用户可以使用OpenAI的API输出接口将其AI技术与自己的应用程序相结合,但禁止用户“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。用蒸馏输出构建竞争模型涉嫌违反 OpenAI服务条款。OpenAI表示,它将与美国政府合作保护美国技术,但没有详细说明如何合作。
美国商务部长提名人誓言要实施限制
特朗普总统提名的商务部长霍华德·卢特尼克 (Howard Lutnick) 1月29日在在参议院的确认听证会上表示,DeepSeek似乎盗用了美国的人工智能技术,并誓言要加强限制。他说,““我认为他们(中国)只关心自己,并试图伤害我们。因此,我们需要保护自己。”卢特尼克还表示:”我们必须停止帮助他们(中国公司)。Meta的开放平台让DeepSeek可以依靠。他们购买了大量英伟达的芯片,并找到了绕过(美国相关限制)的方法,推动了他们的DeepSeek模式。这一切必须结束。如果他们要与我们竞争,那就让他们竞争,但不要再利用我们的工具与我们竞争了。”
白宫的人工智能和加密沙皇大卫·萨克斯 (David Sacks) 也在周二接受福克斯新闻采访时对 DeepSeek的模型蒸馏表示担忧。
专家:阻止“蒸馏”非常困难
技术专家表示,阻止模型蒸馏可能非常困难,甚至不可能。
人工智能计算公司Groq的首席执行官乔纳森·罗斯 (Jonathan Ross) 表示,该公司已采取措施阻止所有中国IP地址访问其云端存储,以阻止中国公司利用其托管存储的人工智能模型。但是,“这是不够的,因为人们可以找到绕过它的方法”,罗斯说。“这将是一场猫捉老鼠的游戏……我不知道解决方案是什么。如果有人想出办法,请告诉我们,我们会实施。”
DeepSeek将会给世界带来哪些改变?图像来源: China DeepSeek AIThe smartphone apps DeepSeek page is seen on a smartphone screen in Beijing, Tuesday, Jan. 28, 2025. (AP Photo/Andy Wong)Mediennummer504473561BeschreibungThe smartphone apps DeepSeek page is seen on a smartphone screen in Beijing, Tuesday, Jan. 28, 2025. (AP Photo/Andy Wong)Aufnahmedatum28.01.2025Bildnachweispicture alliance / ASSOCIATED PRESS | Andy Wong
DeepSeek的一项创新是开辟了从一个更大、更强大的模型中获取相对较少的数据样本(不到一百万个)来显著提高较小模型能力的思路。这一新思路可能引来大量初创公司的效仿。
DeepSeek的数据保护引发担忧德国数据保护机构则希望对DeepSeek在数据保护方面的问题进行审查。DeepSeek的数据保护指南规定,该应用程序会收集大量信息——从IP地址、聊天记录到上传的文件,甚至按键的模式和节奏。鉴于成百上千万人的数据面临高风险,德国有关当局希望了解“哪些个人数据是从哪些来源收集的,以及用于什么目的”。
就在本周三,以色列网络安全公司Wiz发现DeepSeek发生数据泄露。超过一百万条数据记录,包括数字软件密钥和聊天记录,被意外地暴露在不安全的互联网上。这些敏感数据还包括用户对免费AI助手的请求。Wiz联合创始人鲁特瓦克(Ami Luttwak) 称,DeepSeek 立即做出了回应, “在不到一小时的时间内就将其删除。”不过,卢特瓦克表示,“这些数据那么容易被找到,我们相信我们不是唯一发现它的人。”
NewsGuard:Deepseek-V3在虚假新闻传播测试中表现差新闻可靠性评级服务机构NewsGuard本周三公布的可信度排名报告指出,Deepseek-V3在Newsguard关于虚假新闻传播和检测的测试中表现不佳。Newsguard是在没有互联网连接的情况下对Deepseek-V3进行的测试。在53%的案例中,Deepseek-V3回避问题,30%重复假新闻,导致失败率高达83%,排名倒数第二。
相比之下,ChatGPT-4o、Claude 和 Gemini 2.0 等十大聊天机器人的平均失败率为62%。
据《新闻卫士》报道,令人震惊的是,Deepseek-V3经常在未经询问的情况下重复中国政府的立场——即使是在与中国无关的问题上,在某些情况下甚至使用“我们”的形式来表达北京的观点。
和其他中国人工智能模型一样,该系统对一些虚假新闻并不驳斥或质疑,而是回避问题并转述中国官方的声明。
相关报道:DeekSeek靠“蒸馏”火出圈:创新还是剽窃?
中国新创公司深度求索(DeepSeek)研发的DeepSeek大型语言模型最近“出圈”爆火。不过有评论指出,DeepSeek是依靠 “蒸馏” OpenAI 模型的数据来帮助开发自家技术。这其中是否涉及窃取或者抄袭?中国的AI产业是否真的实现了“ 弯道大超车”,还是靠宣传自嗨了一把?以下请听本台记者凯迪的报道。
本周,科技和外交政策领域都在关注一则消息,即中国开源推理大型语言模型DeepSeek-R1 被发现在多项核心任务测试中的表现与 OpenAI 的 模型相当,而其开发成本仅为560 万美元,不到竞争对手的十分之一,并且使用的是英伟达相对低端的H800芯片。
依靠 “蒸馏”开发自家技术?
不过,美国总统特朗普的人工智能沙皇萨克斯1月28日对美国福克斯新闻(Fox News)表示,DeepSeek使用了一种名为“蒸馏”的人工智能训练方法,即一个新的人工智能模型透过向一个现有模型提出数百万个问题,从中吸取其知识及模仿其推理过程。
当被问及 DeepSeek 是否窃取了美国的知识产权时,萨克斯说这是“可能的”。他指出:“有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此不太高兴。” 他认为,美国的人工智能公司将采取措施,以保护他们的模型不被“蒸馏”,而这肯定会减缓山寨模型的发展速度。
美国《华尔街日报》报道指出,“蒸馏”技术已经被人工智能开发者使用多年,但从未取得像DeepSeek这样的成功。测试显示,DeepSeek创建的模型与OpenAI和谷歌的模型得分几乎一样高,而成本却远比竞争对手低。
窃取技术还是创新?
DeepSeek真的是靠“蒸馏” OpenAI 的数据来实现“弯道超车”的吗?据美国彭博社周二(28日)引述知情人士报道,OpenAI和微软正在调查DeepSeek 是否以未经授权的方式, 获取了源自OpenAI技术的数据输出。去年秋季, 微软的安全研究人员观察到可能与DeepSeek有关联的个人,使用OpenAI应用程序编程接口(API)窃取了大量数据。
OpenAI 还对英国《金融时报》表示,他们已经看到了“蒸馏”的证据,尽管他们并未公开这些证据。
据日本媒体《日经亚洲》周四(30日)报道,蒸馏并非新技术,也不一定都具有争议性。自 2024 年以来,随着企业对于使用大型语言模型 (LLM) 的需求增加,蒸馏变得越来越受欢迎。日本一家 AI 初创公司的工程师表示,大型语言模型难以处理,这需要大量昂贵的图形处理单元 (GPU)。而蒸馏可大大缩短开发时间与成本,开发出比大型模型运行速度更快的模型。
报道指出,DeepSeek 的问题在于其低成本模型是否“更多地基于蒸馏而不是创新”。对此,Astris Advisory Japan 分析师 Kirk Boodry 说:“他们是否能够使用现有的大型语言模型来提炼他们的结果是一个问题。这似乎在讨论中出现了很多次。人们说,‘我不知道这其中有多少是真正前沿的。’”
Omdia 咨询总监 Kazuhiro Sugiyama 则指出,DeepSeek的影响只是“暂时且有限的”,业界仍需验证其持久性。分析师也怀疑DeepSeek的开发预算是否真的那么小。Boodry 说,当人们谈论 DeepSeek的开发时间和费用时,他们谈论的是这个非常具体的模型:“人们随意给出的数字可能太低了。”
不过,美国信息技术与创新基金会的人工智能问题专家霍丹·奥马尔(Hodan Omarr)以书面方式告诉自由亚洲电台,DeepSeek 的确取得了一些值得认可的创新成就:“DeepSeek 的效率和性能源自多项创新的结合。其关键策略之一是混合专家 (MoE),即通过允许模型的不同部分专注于特定任务来降低训练成本。它还应用数据量化来显著缩小 AI参数,同时保持准确性。为了优化硬件性能,DeepSeek 将 GPU 工作负载划分到多个处理器上以加快计算速度,并采用 CPU 协调技术来高效管理大数据流。”
展望未来,《日经亚洲》引用专家Sugiyama的预测说,人工智能模型未来将逐渐“两极分化”,微软和谷歌等大公司将继续投资于更大、更强的模型用于其服务,而较小的公司则开发更小、更便宜而高效的模型,以适合有针对性市场。 另一位人工智能工程师也表示,缩小人工智能模型的规模是个大趋势:“随着时间的推移,将会有很多方法来实现这一点。”
DeepSeek实现“弯道超车”是媒体炒作?
过去一周,DeepSeek的出现被形容为中国向硅谷投下的一枚震撼弹,令美国在人工智能领域的主导地位受到空前质疑。投资者一度抛售了一万亿美元的科技股,纳斯达克指数一度下跌超过3%。同时,在中国社交媒体上,DeepSeek引发热议,被视为中国AI能力超越美国的证据,之前美国遏制中国半导体与AI硬件设备的努力似乎付之东流。
其实,中国媒体去年就曾关注到DeepSeek以超低成本开发大型语言模型DeepSeek V2,并说“今天开始,GPT4级大模型进入白菜价时代”。
去年7月, DeepSeek创建人梁文锋在接受中国科技新闻门户网站36氪采访时,对于为何DeepSeek V2会让硅谷的很多人惊讶的问题回应说:“他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow(跟着走),而不是创新。”
他谈到,中国和美国在AI领域“真实的gap(差距)是原创和模仿之差”。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。他还指出,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。中国必然需要有人站到技术的前沿。
DeepSeek真的已经“弯道超车”、站到技术的前沿了吗?据全国广播公司商业频道(CNBC) 报道,微软CEO萨蒂亚・纳德拉日前在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高……我们必须非常、非常认真地对待中国的这些进展。”
不过,美国国防科技公司Anduril Industries创办人拉奇(Palmer Luckey)29日在福克斯财经(FOX Business)节目专访中指出,媒体铺天盖地引述DeepSeek说法,称其如何以超低成本训练出一个可与美国数十亿美元开发的聊天机器人匹敌的AI模型。但这些消息的炒作成分居多,外界不必过度相信,也不要“上了中共宣传的当”。
拉奇指出,DeepSeek并未完整公布他们开发两种模型的成本,媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。他表示:“症结在于,他们公布这个数字的目的,就是为了重挫美国公司。”
据最新消息,DeepSeek 应用已从意大利的谷歌和苹果 App 商店中下架。虽然官方未解释确切原因,但路透社等媒体注意到,意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据存储地点及隐私问题。白宫新闻秘书日前也提到,官员们正在调查该应用程序对国家安全的影响。
截至发稿,DeepSeek尚未回复本台相关置评请求。
中国AI大模型初创公司DeepSeek(深度求索)1月20日免费开源的一款 DeepSeek-R1推理模型震惊了科技界和政界。该公司称这款新的AI模型性能足以媲美美国顶尖产品,但投资成本却低得多——仅557.6万美元,是OpenAI GPT-4o模型训练成本的不到十分之一。该公司还称,它使用是芯片是英伟达相对低端的芯片及其他低端进口芯片。
DeepSeek的这款AI聊天应用迅速登顶苹果中国和美国应用商店免费APP下载排行榜,同时引发市场对美国在AI领域竞争力的担忧、对美国企业投入天量资金研发AI合理性及这些公司发展前景的质疑,以及对美国对中国的芯片出口管制究竟有没有效的质疑,令美国科技公司股价大幅下挫。美国总统特朗普形容DeepSeek为美国业界“敲响警钟”,并提醒美国要“全力专注于在竞争之中取胜”。
对DeepSeek成本与芯片的质疑
不过,在一些媒体和专家把DeepSeek的“横空出世”称为AI界的“史普尼克时刻”之际,也有声音质疑DeepSeek所公布的开发成本以及所用芯片的规格与数量。
上周,美国人工智能数据服务公司Scale AI首席执行官汪滔 (Alexandr Wang) 在接受 CNBC 采访时对 DeepSeek的说法表示怀疑,称“这款产品的背后,可能使用了数万颗Nvidia(英伟达)的H100芯片”。他说,“DeepSeek显然拥有50,000颗H100芯片,但他们显然不能公开这些信息,因为那会违反美国的出口管制。”汪滔没有为他的说法提供证据。
亿万富翁埃隆·马斯克支持对DeepSeek持怀疑态度的人。他在X上有关亚历山大·王上述说法的帖子下跟帖写道:“显然”(Obviously)。
英伟达(Nvidia)的H100芯片是目前市场上最先进的AI训练芯片之一,但根据美国政府的出口管制政策,H100芯片是不能向中国公司销售的。
DeepSeek蒸馏提炼违反OpenAI条款?
DeepSeek也被一些技术专家怀疑其模型可能从美国先进的模型中学习到了部分成果,即采用了所谓的“蒸馏技术”。该技术是指通过从更成熟、更强大的人工智能模型中提炼数据来训练新的AI模型,由旧模型评估新模型得出的答案的质量,从而有效地转移旧模型所掌握的学习成果。这意味着新模型可以从旧模型中获益,而无需承担构建旧模型所投入的大量时间、算力等成本。
1月29日,OpenAI称,发现有证据表明DeepSeek使用OpenAI的专有模型来训练自己的模型,并暗示这可能违反了OpenAI的服务条款。不过,OpenAI没有进一步列举掌握了哪些证据。OpenAI的服务条款规定,用户可以使用OpenAI的API输出接口将其AI技术与自己的应用程序相结合,但禁止用户“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。用蒸馏输出构建竞争模型涉嫌违反 OpenAI服务条款。OpenAI表示,它将与美国政府合作保护美国技术,但没有详细说明如何合作。
美国商务部长提名人誓言要实施限制
特朗普总统提名的商务部长霍华德·卢特尼克 (Howard Lutnick) 1月29日在在参议院的确认听证会上表示,DeepSeek似乎盗用了美国的人工智能技术,并誓言要加强限制。他说,““我认为他们(中国)只关心自己,并试图伤害我们。因此,我们需要保护自己。”卢特尼克还表示:”我们必须停止帮助他们(中国公司)。Meta的开放平台让DeepSeek可以依靠。他们购买了大量英伟达的芯片,并找到了绕过(美国相关限制)的方法,推动了他们的DeepSeek模式。这一切必须结束。如果他们要与我们竞争,那就让他们竞争,但不要再利用我们的工具与我们竞争了。”
白宫的人工智能和加密沙皇大卫·萨克斯 (David Sacks) 也在周二接受福克斯新闻采访时对 DeepSeek的模型蒸馏表示担忧。
专家:阻止“蒸馏”非常困难
技术专家表示,阻止模型蒸馏可能非常困难,甚至不可能。
人工智能计算公司Groq的首席执行官乔纳森·罗斯 (Jonathan Ross) 表示,该公司已采取措施阻止所有中国IP地址访问其云端存储,以阻止中国公司利用其托管存储的人工智能模型。但是,“这是不够的,因为人们可以找到绕过它的方法”,罗斯说。“这将是一场猫捉老鼠的游戏……我不知道解决方案是什么。如果有人想出办法,请告诉我们,我们会实施。”
DeepSeek将会给世界带来哪些改变?图像来源: China DeepSeek AIThe smartphone apps DeepSeek page is seen on a smartphone screen in Beijing, Tuesday, Jan. 28, 2025. (AP Photo/Andy Wong)Mediennummer504473561BeschreibungThe smartphone apps DeepSeek page is seen on a smartphone screen in Beijing, Tuesday, Jan. 28, 2025. (AP Photo/Andy Wong)Aufnahmedatum28.01.2025Bildnachweispicture alliance / ASSOCIATED PRESS | Andy Wong
DeepSeek的一项创新是开辟了从一个更大、更强大的模型中获取相对较少的数据样本(不到一百万个)来显著提高较小模型能力的思路。这一新思路可能引来大量初创公司的效仿。
DeepSeek的数据保护引发担忧德国数据保护机构则希望对DeepSeek在数据保护方面的问题进行审查。DeepSeek的数据保护指南规定,该应用程序会收集大量信息——从IP地址、聊天记录到上传的文件,甚至按键的模式和节奏。鉴于成百上千万人的数据面临高风险,德国有关当局希望了解“哪些个人数据是从哪些来源收集的,以及用于什么目的”。
就在本周三,以色列网络安全公司Wiz发现DeepSeek发生数据泄露。超过一百万条数据记录,包括数字软件密钥和聊天记录,被意外地暴露在不安全的互联网上。这些敏感数据还包括用户对免费AI助手的请求。Wiz联合创始人鲁特瓦克(Ami Luttwak) 称,DeepSeek 立即做出了回应, “在不到一小时的时间内就将其删除。”不过,卢特瓦克表示,“这些数据那么容易被找到,我们相信我们不是唯一发现它的人。”
NewsGuard:Deepseek-V3在虚假新闻传播测试中表现差新闻可靠性评级服务机构NewsGuard本周三公布的可信度排名报告指出,Deepseek-V3在Newsguard关于虚假新闻传播和检测的测试中表现不佳。Newsguard是在没有互联网连接的情况下对Deepseek-V3进行的测试。在53%的案例中,Deepseek-V3回避问题,30%重复假新闻,导致失败率高达83%,排名倒数第二。
相比之下,ChatGPT-4o、Claude 和 Gemini 2.0 等十大聊天机器人的平均失败率为62%。
据《新闻卫士》报道,令人震惊的是,Deepseek-V3经常在未经询问的情况下重复中国政府的立场——即使是在与中国无关的问题上,在某些情况下甚至使用“我们”的形式来表达北京的观点。
和其他中国人工智能模型一样,该系统对一些虚假新闻并不驳斥或质疑,而是回避问题并转述中国官方的声明。
相关报道:DeekSeek靠“蒸馏”火出圈:创新还是剽窃?
中国新创公司深度求索(DeepSeek)研发的DeepSeek大型语言模型最近“出圈”爆火。不过有评论指出,DeepSeek是依靠 “蒸馏” OpenAI 模型的数据来帮助开发自家技术。这其中是否涉及窃取或者抄袭?中国的AI产业是否真的实现了“ 弯道大超车”,还是靠宣传自嗨了一把?以下请听本台记者凯迪的报道。
本周,科技和外交政策领域都在关注一则消息,即中国开源推理大型语言模型DeepSeek-R1 被发现在多项核心任务测试中的表现与 OpenAI 的 模型相当,而其开发成本仅为560 万美元,不到竞争对手的十分之一,并且使用的是英伟达相对低端的H800芯片。
依靠 “蒸馏”开发自家技术?
不过,美国总统特朗普的人工智能沙皇萨克斯1月28日对美国福克斯新闻(Fox News)表示,DeepSeek使用了一种名为“蒸馏”的人工智能训练方法,即一个新的人工智能模型透过向一个现有模型提出数百万个问题,从中吸取其知识及模仿其推理过程。
当被问及 DeepSeek 是否窃取了美国的知识产权时,萨克斯说这是“可能的”。他指出:“有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此不太高兴。” 他认为,美国的人工智能公司将采取措施,以保护他们的模型不被“蒸馏”,而这肯定会减缓山寨模型的发展速度。
美国《华尔街日报》报道指出,“蒸馏”技术已经被人工智能开发者使用多年,但从未取得像DeepSeek这样的成功。测试显示,DeepSeek创建的模型与OpenAI和谷歌的模型得分几乎一样高,而成本却远比竞争对手低。
窃取技术还是创新?
DeepSeek真的是靠“蒸馏” OpenAI 的数据来实现“弯道超车”的吗?据美国彭博社周二(28日)引述知情人士报道,OpenAI和微软正在调查DeepSeek 是否以未经授权的方式, 获取了源自OpenAI技术的数据输出。去年秋季, 微软的安全研究人员观察到可能与DeepSeek有关联的个人,使用OpenAI应用程序编程接口(API)窃取了大量数据。
OpenAI 还对英国《金融时报》表示,他们已经看到了“蒸馏”的证据,尽管他们并未公开这些证据。
据日本媒体《日经亚洲》周四(30日)报道,蒸馏并非新技术,也不一定都具有争议性。自 2024 年以来,随着企业对于使用大型语言模型 (LLM) 的需求增加,蒸馏变得越来越受欢迎。日本一家 AI 初创公司的工程师表示,大型语言模型难以处理,这需要大量昂贵的图形处理单元 (GPU)。而蒸馏可大大缩短开发时间与成本,开发出比大型模型运行速度更快的模型。
报道指出,DeepSeek 的问题在于其低成本模型是否“更多地基于蒸馏而不是创新”。对此,Astris Advisory Japan 分析师 Kirk Boodry 说:“他们是否能够使用现有的大型语言模型来提炼他们的结果是一个问题。这似乎在讨论中出现了很多次。人们说,‘我不知道这其中有多少是真正前沿的。’”
Omdia 咨询总监 Kazuhiro Sugiyama 则指出,DeepSeek的影响只是“暂时且有限的”,业界仍需验证其持久性。分析师也怀疑DeepSeek的开发预算是否真的那么小。Boodry 说,当人们谈论 DeepSeek的开发时间和费用时,他们谈论的是这个非常具体的模型:“人们随意给出的数字可能太低了。”
不过,美国信息技术与创新基金会的人工智能问题专家霍丹·奥马尔(Hodan Omarr)以书面方式告诉自由亚洲电台,DeepSeek 的确取得了一些值得认可的创新成就:“DeepSeek 的效率和性能源自多项创新的结合。其关键策略之一是混合专家 (MoE),即通过允许模型的不同部分专注于特定任务来降低训练成本。它还应用数据量化来显著缩小 AI参数,同时保持准确性。为了优化硬件性能,DeepSeek 将 GPU 工作负载划分到多个处理器上以加快计算速度,并采用 CPU 协调技术来高效管理大数据流。”
展望未来,《日经亚洲》引用专家Sugiyama的预测说,人工智能模型未来将逐渐“两极分化”,微软和谷歌等大公司将继续投资于更大、更强的模型用于其服务,而较小的公司则开发更小、更便宜而高效的模型,以适合有针对性市场。 另一位人工智能工程师也表示,缩小人工智能模型的规模是个大趋势:“随着时间的推移,将会有很多方法来实现这一点。”
DeepSeek实现“弯道超车”是媒体炒作?
过去一周,DeepSeek的出现被形容为中国向硅谷投下的一枚震撼弹,令美国在人工智能领域的主导地位受到空前质疑。投资者一度抛售了一万亿美元的科技股,纳斯达克指数一度下跌超过3%。同时,在中国社交媒体上,DeepSeek引发热议,被视为中国AI能力超越美国的证据,之前美国遏制中国半导体与AI硬件设备的努力似乎付之东流。
其实,中国媒体去年就曾关注到DeepSeek以超低成本开发大型语言模型DeepSeek V2,并说“今天开始,GPT4级大模型进入白菜价时代”。
去年7月, DeepSeek创建人梁文锋在接受中国科技新闻门户网站36氪采访时,对于为何DeepSeek V2会让硅谷的很多人惊讶的问题回应说:“他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow(跟着走),而不是创新。”
他谈到,中国和美国在AI领域“真实的gap(差距)是原创和模仿之差”。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。他还指出,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。中国必然需要有人站到技术的前沿。
DeepSeek真的已经“弯道超车”、站到技术的前沿了吗?据全国广播公司商业频道(CNBC) 报道,微软CEO萨蒂亚・纳德拉日前在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高……我们必须非常、非常认真地对待中国的这些进展。”
不过,美国国防科技公司Anduril Industries创办人拉奇(Palmer Luckey)29日在福克斯财经(FOX Business)节目专访中指出,媒体铺天盖地引述DeepSeek说法,称其如何以超低成本训练出一个可与美国数十亿美元开发的聊天机器人匹敌的AI模型。但这些消息的炒作成分居多,外界不必过度相信,也不要“上了中共宣传的当”。
拉奇指出,DeepSeek并未完整公布他们开发两种模型的成本,媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。他表示:“症结在于,他们公布这个数字的目的,就是为了重挫美国公司。”
据最新消息,DeepSeek 应用已从意大利的谷歌和苹果 App 商店中下架。虽然官方未解释确切原因,但路透社等媒体注意到,意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据存储地点及隐私问题。白宫新闻秘书日前也提到,官员们正在调查该应用程序对国家安全的影响。
截至发稿,DeepSeek尚未回复本台相关置评请求。
Advertisements
相关新闻
- 前英国安全大臣:DeepSeek会因中共控制而毫无用处(图)
- 专家:若没有中国资金,澳洲大部分大城市将不复存在(图)
- 媒体:当DeepSeek遇到华为,老黄和老美好日子到头了(图)
- DeepSeek颠覆投资观,Altman敦促美国继续砸钱支持AI(图)
- 微软出手!Win11电脑本地运行DeepSeek-R1大模型
- DeepSeek创始人回老家过年:家乡拉横幅 游客打卡
- OpenAI将向美国家实验室提供其技术 用于核武研究
- DeepSeek遭攻击烈度暴增百倍“僵尸网络进场”(图)
- 雷峰塔下真的有千年“小白”?杭州专家冲上热搜(组图)
- DeepSeek遭围剿 美国全面封杀中国AI 如何破局?(图)