DeepSeek深度求索有深度-中华商报

首页科技风云

DeepSeek深度求索有深度

2025-01-28 10:27:16

来源：中华商报

浏览量：5588

字体：

小大

点击听新闻

相比2024年圣诞前OpenAI的连续12天线上发布会，DeepSeek-V3的发布，才是当年真正的压轴戏。DeepSeek正在探索一条中国式的AI发展之路。

DeepSeek远远不像是许多介绍的、尤其是海外报道和传说中的那样，是一家仅成立一年多的AI公司。实际上它脱胎于幻方量化基金，这是一家已经创办了17年的、有数学、计算、研究和AI基因的对冲基金。

2008年，浙江大学学习信息与通信工程的梁文锋创立了幻方量化，直到2014年，在幻方量化的初创阶段，团队从零开始探索全自动化交易。

2015年才是幻方自认为的创始元年，真正依靠数学与人工智能进行量化投资。“创始团队意气风发、勇于创新、勤勉奋进，立志成为世界顶级的量化对冲基金。”2016年，幻方第一个AI模型建立的股票仓位上线实盘交易，算力开始从CPU转向GPU。至 2017 年底，几乎所有的量化策略都已经采用 AI 模型计算。

作为一家对冲基金，幻方开始确立以 AI 为公司的主要发展方向。但是，复杂的模型计算需求使得单机训练遭遇算力瓶颈，同时日益增加的训练需求和有限的计算资源产生了矛盾，2018年，幻方的AI团队开始寻求大规模算力解决方案。

其实2019年可能是幻方大模型之路的起点，这一年，幻方AI（幻方人工智能基础研究有限公司）注册成立，致力于 AI 的算法与基础应用研究。AI 软硬件研发团队自研幻方“萤火一号”AI集群，搭载了500块显卡，使用 200Gbps 高速网络互联。一年之间，“萤火一号”总投资近2亿元，于2020年正式投用，满血搭载1100块加速卡，为幻方的AI研究提供算力支持。

幻方AI很快又投入10亿元建设萤火二号。2021年，萤火二号一期确立以任务级分时调度共享AI算力的技术方案，从软硬件两方面共同发力：高性能加速卡、节点间 200Gbps 高速网络互联、自研分布式并行文件系统（3FS）、网络拓扑通讯方案（hfreduce）、算子库（hfai.nn），高易用性应用层等，将萤火二号的性能发挥至极限。

到了2022年，ChatGPT时刻前夕，幻方已经成为国内一家领先的AI公司，而且手中握有上万块英伟达A100卡和一定数量的AMD卡。萤火二号取得了多800口交换机互联加核心扩展子树的软硬件架构革新，突破了一期的物理限制，算力扩容翻倍。新的hfai框架让模型加速50-100%。集群连续满载运行，平均占用率达到96%以上。全年运行任务135万个，共计5674万 GPU 时。用于科研支持的闲时算力高达1533 万GPU 时，占比27%。

从中可以推算出，在2022年，幻方已经平均每天用4.2万GPU时，相当于每天有近2000张GPU卡在几乎满负荷跑科研而不是交易。如果按照当时A100每小时云服务的市场价，相当于每年在科研方面投入2亿元人民币。这样规模的AI研究，在当时的国内处于领先状态，在当时的国际上巨头之外的AI初创公司中，也算得上是领先的。

2023年4月11日，开源模型Llama1和GPT-4和相继发布之后，幻方宣布做大模型，2023年5月把技术部门做大模型的团队独立出来，成立深度求索公司，进军通用人工智能AGI。

所以，如果从深度求索公司成立算起，DeepSeek还不满2年；但是如果从成立幻方AI算起，已近5年；再从2016第一个AI股票仓位模型上线交易算起，已近10年。

当2018年，幻方确立以AI为公司的主要发展方向时，就已经注定了它将是一家AI技术公司，而对冲基金是其当时主要的应用。

我们可以看到，量化投资与AI研究，构成了幻方基因的双螺旋结构。2019年，幻方跻身百亿私募，这一年，幻方AI成立，并且开始独立构建萤火集群。2021年，幻方管理基金规模一度超过千亿元，它开始构建更大更复杂的算力集群萤火二号。幻方的基金管理业务最辉煌的是2019年和2020年，自然年收益分别为58.69%和70.79%，此后因为行业等方面的原因，量化发展一蹶不振，但幻方作为一家AI公司凸显出来。

如果对比成立于2010年的DeepMind和成立于2015年的OpenAI，作为创业公司，幻方与其处于同一时代。DeepMind和OpenAI创立时都是纯粹的AI实验室，以实现通用人工智能（AGI）为使命，而且在这场深度学习革命中起到了先锋作用，从AlphaGo、AlphaFold到ChatGPT，都是革命性的技术与产品。相比之下，幻方AI一直在复刻研究其成果，直到成立深度求索，推出DeepSeek大模型。从这一点来说，DeepSeek取得的成就，是站在巨人的肩膀上。

从AI交易模型到幻方AI，再到DeepSeek，推动了幻方的对冲基金业务的同时，也一步一步从业务部门独立出来，并逐步重新定义幻方这家公司。幻方AI的发展离不开对冲基金业务的支持。进行长期的AI研究，离不开资金与算力资源的强有力支持。DeepMind最后被谷歌收购，作为一家独立的公司，它一直亏损，但作为一家AI研究实验室，在谷歌内部的作用是战略性的。

我在2017年采访DeepMind创始人哈萨比斯时，他告诉我说，谷歌收购DeepMind，就是为了推动从移动第一到AI第一的战略转型。在ChatGPT之后，谷歌更是对其内部显得杂乱的AI研发和业务进行了整合，全部归并到DeepMind旗下。

同样，OpenAI也从非营利改组为营利。其中微软先后投资达140亿美元，对于OpenAI能持续以大算力推进Scaling Law (扩展定律），以大资金和高估值吸引全球顶尖人才，成为一家生成式人工智能的领军企业，发挥了至关重要的作用。

对于所有的技术公司来说，AI大模型将成为其技术底座，也将重构所有企业的IT和软件部门，这可以部分解释为什么一个企业内生的AI能力，强大到一定程度，有可能定义出企业新的增长曲线。

从2019年幻方开始构建萤火一号开始，就注定了它走上了一家AI公司的轨迹。2021年，幻方构建萤火二号，在亚太第一个拿到A100卡，在ChatGPT之后，幻方成为全国少数几家拥有上万张A100 GPU的机构。投资十多亿元构建万卡级算力级群，这不会是仅仅用于炒股。

而硅谷和Alex王和Dylan Patel等，在DeepSeek-3V推出之后，更是相信DeepSeek拥有5万块H100。不管怎么说，在DeepSeek做研究，应该是中国实现GPU自由的地方。

DeepSeek与DeepMind和OpenAI一样追求人才密度，所不同的是，后两者吸收了全球最优秀的AI人才，而前者目前只吸收了国内最优秀的人才。记得当时我采访哈萨比斯时问过同样的问题，他回答说：DeepMind吸引了全球60多个国家顶尖的博士生和科学家。

DeepSeek从一家对冲基金的技术研究部门，逐步将其母体转变为一家AI公司，这是一个非常特殊的例子。对冲基金和AI技术都来自美国，但无论是华尔街的对冲基金、还是从华尔街海归做量化的团队，没有一个能像幻方这样，进化出一个做通用AI大模型的核心能力，例如，彭博曾经很早推出了BloombergGPT大模型，然后就没有然后了。从这一点上来说，DeepSeek这个本土团队是独特的，没有“模式”可谈。

但是，DeepSeek也蹚出了一条路，可能用550万美元、千张GPU卡训练出高性价比的模型，这让许多在巨头面前感到绝望、纷纷放弃预训练的初创AI企业，开始重新思考它们的战略，从这一点来说，DeepSeek开创了一种“模式”。

作者：周健工

摘编源自：未尽研究

来源：中华商报

收藏文章

上一条：一個臺灣人的鄭州創業路：他和他的店鋪粉絲們下一条：贾云峰：DeepSeek赋能文旅发展的路径与应用策略

评论（0人参与）

点击登录

提交评论

评论列表（0条）