DeepSeek,做AI竞争的破局者

DeepSeek,做AI竞争的破局者

来源 | 伯虎财经(bohuFN)

作者 | 森系

中美大模型的差距在1-2年。起码在今年春节之前,这还是一个获得普遍认同的观点。

直到中国科技公司深度求索发布了推理模型DeepSeek-R1,用不到GPT二十分之一的成本,获得了和OpenAI的顶尖推理模型o1相当的能力。

DeepSeek的影响很快扩散到大洋彼岸。

1月27日,美国科技股遭遇“黑色风暴”,费城半导体指数(SOX)狂泻9.2%,创下2020年3月以来的最大单日跌幅。英伟达股价重挫近17%,市值一夜之间蒸发近6000亿美元,创下美股历史上最大的单日市值缩水规模。博通、台积电、ASML、Google和微软等科技巨头也未能幸免,股价分别下跌17.4%、13%、7%、4%和2.14% 。

与此同时,欧洲科技股市场同样哀鸿遍野,各类科技股惨遭抛售。

引发全球资本市场“强烈地震”的幕后主角——DeepSeek,不是任何发力大模型的大厂,或者创业明星,而是一家此前名声不显的小型科技初创公司。它由幻方量化创始人梁文锋一手创办,成立仅一年多。

最能唤醒读者记忆的,可能是去年8月,DeepSeek率先宣布其API价格大幅下调,输入费用调整为0.1元/百万tokens,输出费用为2元/百万tokens,随后各家大厂纷纷跟进。大模型价格战也就此打响。

实际上,DeepSeek的创始人梁文锋或许是最早把目光投向AI的那批人。不仅仅是他创立了量化基金,更有意思的例证是,在算力紧缺的2023年,国内只有五家公司拥有万块规模的显卡,前四位是阿里巴巴、腾讯、百度和字节跳动,剩下的那个就是幻方量化。

开源、创新、成本。在硅谷,DeepSeek被称作“来自东方的神秘力量”。他们一面跟随,推出类似的推理模型,一面攻击,要求对其进行封杀甚至算力封锁。

1月28日,DeepSeek曾连续发布两条公告称,DeepSeek线上服务受到大规模恶意攻击。

客观来讲,从产品实际表现来看,DeepSeek目前只是跻身行业第一梯队,尚未实现对市面上现有产品的全面超越,也并非在技术底层实现了范式创新。

但DeepSeek确实为全球AI行业的长期发展探索出了新的模式,也让长期被硅谷霸占话语权的AI行业出现了一些不一样的声音。正如AI领域泰斗吴恩达所言:“DeepSeek的创新表明,中美在生成式AI领域的差距正在迅速缩小,在某些领域中国已现领先迹象。”

01 DeepSeek,破了谁的金身?

去年12月,36氪旗下的暗涌账号采访了DeepSeek。采访中提到了去年8月由DeepSeek发起的价格战,原因指向了一个事实——与很多大厂烧钱补贴不同,DeepSeek是有利润的。

早在去年5月,DeepSeek发布的DeepSeekV2模型,就展现了他们非凡的效率:推理成本被降到每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。

并且相较于OpenAI公司来自全球顶尖学府几千人的大公司人力成本,DeepSeek公司只有寥寥几百人,也没有全球前50的人才密度,聚集的是国内一众大学相关学科的博硕精英人才。

更加难能可贵的是,DeepSeek-V3在训练时使用的GPU是英伟达的H800,一款在性能上被阉割的特供AI芯片。相比之下,GPT-4o使用的是上万块英伟达H100芯片(性能优于H800)。

这和我们过去的认知是不同的。

英伟达及美股大跌的原因直指DeepSeek,原因在于DeepSeek的成功打破了AI大模型领域“拼投入”的惯常逻辑。AI大模型只有砸钱、砸算力才能做出来的观念在行业中深入人心。

2023年,OpenAI的CEO奥特曼(SamAltman)曾经访问印度,他对印度团队能否凭借仅 1000 万美元的预算,在AI领域构建出具有实质性成果的模型表示怀疑。

在他看来,如果没有上亿美元的训练成本,是炼不出好的大模型的。毕竟作为AI行业的领军企业OpenAI至今都尚未实现盈利,很大一部分原因在于尖端AI模型的训练耗资惊人,运行成本也十分高昂。据测算,仅维持ChatGPT的运营,每天成本就高达70万美元。奥特曼则表示,未来的AI模型成本预计将超过10亿美元。

高昂的成本也让后来者纷纷以OpenAI为标杆加大投入。马斯克旗下的xAI,其超级计算数据中心装配了10万颗英伟达H100 GPU芯片,成为全球最强大的AI训练集群之一。特朗普上台后,宣布投资5000亿美元启动“星际之门”项目,试图凭借巨额资金与强大算力,巩固美国在AI领域的霸权地位。

其他科技巨头们也在积极布局。过去一年,微软和谷歌的资本支出均超过 500 亿美元,其中大部分资金用于AI相关的基础设施建设,并且计划在2025财年将这一投入提升至700 – 800亿美元。国内方面,根据浙商证券的分析,2024年字节跳动的资本开支约为800亿元,预计2025年将达到1600亿元,其中约900亿元将用于AI算力的采购,700亿元用于 IDC 基建以及网络设备。

DeepSeek并非是拥有什么降本魔法,而是摸索出了一条不一样的道路。DeepSeek的研究员提出了一种新的MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse (混合专家结构)结合,这种架构的优势是显存占用仅为常用MHA架构的5%-13%。

与此同时,和行业惯常的用数万亿token(文本单位)训练模型不同,而是选择通过“数据蒸馏”,降低了数据计算程度,从而实现降本。

正因为如此,DeepSeek也有了“AI届的拼多多”之称,尽管这种表述可能并不完全准确,但也基本表达了DeepSeek对当前主流AI的冲击。通过这一低成本模式使得DeepSeek能够更快速地推出新产品和服务,并极大地降低了其市场进入门槛,可以吸引了更多企业和机构参与到AI研发中来。

02 开源会是更好的选择?

当然,DeepSeek对AI的冲击还不止于此。

作为一家中国公司,DeepSeek表现出了前所未有的自信,对产品实施开源策略,也就是公开模型的代码和架构等等,允许公众查看、使用和修改。这就意味着,很多中小企业可以直接使用其模型,极大降低了很多企业的研发成本。

相比之下,OpenAI和谷歌等旗下的AI产品都是闭源,DeepSeek的开源和低价策略,对于国际上那些依靠高收费的主流AI工具,也将带来巨大冲击。

DeepSeek并不是个例,在开源浪潮席卷全球的时代,Meta的LLaMA、阿里的通义千问,都在试图证明“开放才能赢未来”。甚至就连马斯克也是开源技术的支持者,此前曾批评OpenAI走向闭源,称其为“CloseAI”,并指责其违背了最初的开源初衷而奥特曼则是埋头向前,继续闭源。这个争议还不仅是打口水仗,还曾对薄公庭。

但尽管如此,依然也有不少业内人士对此嗤之以鼻。

去年,有行业人士表示:闭源大模型,才是AI商业化的最优解。

究其原因,开源模型仍有致命伤:“所谓模型开源,往往只提供了模型的大量参数。但想要有效应用这些模型,还需要进行很多后续工作。”即便公布参数,开发者仍难窥见参数的生成过程和数据源等核心“配方”。这种半透明状态,导致二次开发如同盲人摸象。

“由于不了解这些参数的生成过程和数据源,难以直接实现‘众人拾柴火焰高’的协同效应。即使获取了模型源代码,也可能不清楚训练这些参数所使用的具体数量和比例。因此,拿到这些开源资料,并不足以让人直接站在巨人的肩膀上轻松进行迭代与开发。

这也是为什么OpenAI能够通过闭源在一定时间内保持了技术的领先性和独特性,构建了自己的商业生态的原因之一。

另外,在医疗、金融等高敏感领域,闭源优势还可以在保护技术和商业利益方面有其独特作用,能保障知识产权安全,防止技术滥用。

但不可否认的是,DeepSeek的确迎来了填补生态位的绝佳机会。

在和暗涌的采访里,梁文锋就表示,长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。

用户无需付费即可享受强大AI推理能力,推动AI技术普及,让普通用户在日常工作生活中体验前沿科技的便利。在开源生态上,它已吸引大量开发者,形成了蓬勃发展的社区。随着越来越多的开发者和企业认可开源模式,DeepSeek有望进一步扩大其影响力,重塑AI产业格局。

03 一场DeepSeek风暴,揭开中美AI叙事重心的摇摆

实际上,在全球瞩目的目光聚焦于DeepSeek出圈的背后,从技术领域、产业范畴到资本市场,DeepSeek都以非凡之势打破了人们对AI发展的固有认知,掀起了一场前所未有的技术变革浪潮,在某种程度上预示着算力军备竞赛的终结。

长期以来,AI行业形成了一种依赖大规模算力与巨额资金投入的研发模式。以OpenAI等公司为例,它们在模型训练上动辄投入数亿美元,大规模采购英伟达最顶尖的GPU芯片,致力于构建庞大的数据中心。英伟达凭借早期卖显卡的业务基础,顺势踏上AI算力的发展大潮,缔造了算力芯片领域的商业神话。一时间,谷歌、OpenAI、苹果等各路科技巨头纷纷排队向英伟达输送资金,使其在AI算力市场占据了主导地位。

然而,DeepSeek却以颠覆性的创新打破了这一格局。它仅使用2000块芯片,投入不到600万美元,就实现了与行业巨头相媲美的性能。这一成果引发了行业的深刻反思:“如果DeepSeek的创新是真实有效的,那AI公司真的还需要如此大量的显卡吗?”当英伟达还在为每秒200TB的显存带宽而自鸣得意时,DeepSeek用一行开源代码有力地证明了:真正的人工智能不应被算力所束缚。

根据全球半导体观察的不完全统计,目前已有包括英伟达、AMD、微软、亚马逊云科技、英特尔等国外巨头,沐曦、天数智芯、摩尔线程、海光信息等国内GPU企业,华为云、腾讯云、天翼云、阿里云、百度智能云、火山引擎等云计算大厂,以及无问芯穹、壁仞科技、硅基流动、PPIO派欧云、云轴科技等共计20家企业宣布适配及上架DeepSeek模型服务。随着多家国内外知名云平台和科技企业相继上线DeepSeek大模型,AI市场迎来了新一轮的变革浪潮。

从另一方面看,英伟达股价的大幅下跌恰恰而言折射出的是在经受DeepSeek风暴冲击下其AI芯片霸权的逐渐被终结。正如塔勒布现任对冲基金Universa Investments的顾问的警告,当英伟达把一切都建立在人们会使用你的芯片的希望之上,希望需求持续增加,同时假设不会出现软件上的革命性改进或其他创新方法。而现在,这些假设受到挑战,未来或将出现数倍于当前跌幅的回调。

值得关注的是,DeepSeek带来的这种技术路径的转变,不仅是对美国科技霸权的有力回击,也让全球开发者重新认识到中国AI的巨大潜力。在美国不断通过各种限令限制中国AI和芯片发展的背景下,这场由中国团队发起的“效率革命”,或许将重现电动车颠覆燃油车的精彩历程——以更低的成本、更开放的生态,让AI从“美国巨头的专属玩具”转变为“全民普惠的实用工具”。

正如DeepSeek技术白皮书扉页所写:“我们并非在追赶GPT,而是在证明:通向AGI的道路,绝不止硅谷这一种走法。”从产业发展的角度来看,随着DeepSeek不断发展壮大,未来将逐步采用更多国产芯片,有效降低产业链风险。在DeepSeek的引领下,国产芯片有望逐步从中低端迈向高端,最终摆脱对美国芯片的依赖,在全球AI产业中占据更为重要的地位。

文章封面首图及配图,版权归版权所有人所有。若版权者认为其作品不宜供大家浏览或不应无偿使用,请及时联系我们,本平台将立即更正。

免责声明: 本文来自梵星网创作者,不代表梵星网的观点和立场。 本网页内容均来自网络采集,如果侵犯了您的权益请与我司联系。
THE END
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容