城市频道
北京
河南
上海
江苏
大湾区
2025年02月09日
DeepSeek深度求索有深度
2025-01-28 10:27:16
来源:中华商报
浏览量:1120
字体:
点击听新闻

相比2024年圣诞前OpenAI的连续12天线上发布会,DeepSeek-V3的发布,才是当年真正的压轴戏。DeepSeek正在探索一条中国式的AI发展之路。

DeepSeek远远不像是许多介绍的、尤其是海外报道和传说中的那样,是一家仅成立一年多的AI公司。实际上它脱胎于幻方量化基金,这是一家已经创办了17年的、有数学、计算、研究和AI基因的对冲基金。

2008年,浙江大学学习信息与通信工程的梁文锋创立了幻方量化,直到2014年,在幻方量化的初创阶段,团队从零开始探索全自动化交易。

2015年才是幻方自认为的创始元年,真正依靠数学与人工智能进行量化投资。“创始团队意气风发、勇于创新、勤勉奋进,立志成为世界顶级的量化对冲基金。”2016年,幻方第一个AI模型建立的股票仓位上线实盘交易,算力开始从CPU转向GPU。至 2017 年底,几乎所有的量化策略都已经采用 AI 模型计算。

作为一家对冲基金,幻方开始确立以 AI 为公司的主要发展方向。但是, 复杂的模型计算需求使得单机训练遭遇算力瓶颈,同时日益增加的训练需求和有限的计算资源产生了矛盾,2018年,幻方的AI团队开始寻求大规模算力解决方案。

其实2019年可能是幻方大模型之路的起点,这一年,幻方AI(幻方人工智能基础研究有限公司)注册成立,致力于 AI 的算法与基础应用研究。AI 软硬件研发团队自研幻方“萤火一号”AI集群,搭载了500块显卡,使用 200Gbps 高速网络互联。一年之间,“萤火一号”总投资近2亿元,于2020年正式投用,满血搭载1100块加速卡,为幻方的AI研究提供算力支持。

幻方AI很快又投入10亿元建设萤火二号。2021年,萤火二号一期确立以任务级分时调度共享AI算力的技术方案,从软硬件两方面共同发力:高性能加速卡、节点间 200Gbps 高速网络互联、自研分布式并行文件系统(3FS)、网络拓扑通讯方案(hfreduce)、算子库(hfai.nn),高易用性应用层等,将萤火二号的性能发挥至极限。

到了2022年,ChatGPT时刻前夕,幻方已经成为国内一家领先的AI公司,而且手中握有上万块英伟达A100卡和一定数量的AMD卡。萤火二号取得了多800口交换机互联加核心扩展子树的软硬件架构革新,突破了一期的物理限制,算力扩容翻倍。新的hfai框架让模型加速50-100%。集群连续满载运行,平均占用率达到96%以上。全年运行任务135万个,共计5674万 GPU 时。用于科研支持的闲时算力高达1533 万GPU 时,占比27%。

从中可以推算出,在2022年,幻方已经平均每天用4.2万GPU时,相当于每天有近2000张GPU卡在几乎满负荷跑科研而不是交易。如果按照当时A100每小时云服务的市场价,相当于每年在科研方面投入2亿元人民币。这样规模的AI研究,在当时的国内处于领先状态,在当时的国际上巨头之外的AI初创公司中,也算得上是领先的。

2023年4月11日,开源模型Llama1和GPT-4和相继发布之后,幻方宣布做大模型,2023年5月把技术部门做大模型的团队独立出来,成立深度求索公司,进军通用人工智能AGI。

所以,如果从深度求索公司成立算起,DeepSeek还不满2年;但是如果从成立幻方AI算起,已近5年;再从2016第一个AI股票仓位模型上线交易算起,已近10年。

当2018年,幻方确立以AI为公司的主要发展方向时,就已经注定了它将是一家AI技术公司,而对冲基金是其当时主要的应用。

我们可以看到,量化投资与AI研究,构成了幻方基因的双螺旋结构。2019年,幻方跻身百亿私募,这一年,幻方AI成立,并且开始独立构建萤火集群。2021年,幻方管理基金规模一度超过千亿元,它开始构建更大更复杂的算力集群萤火二号。幻方的基金管理业务最辉煌的是2019年和2020年,自然年收益分别为58.69%和70.79%,此后因为行业等方面的原因,量化发展一蹶不振,但幻方作为一家AI公司凸显出来。

如果对比成立于2010年的DeepMind和成立于2015年的OpenAI,作为创业公司,幻方与其处于同一时代。DeepMind和OpenAI创立时都是纯粹的AI实验室,以实现通用人工智能(AGI)为使命,而且在这场深度学习革命中起到了先锋作用,从AlphaGo、AlphaFold到ChatGPT,都是革命性的技术与产品。相比之下,幻方AI一直在复刻研究其成果,直到成立深度求索,推出DeepSeek大模型。从这一点来说,DeepSeek取得的成就,是站在巨人的肩膀上。

从AI交易模型到幻方AI,再到DeepSeek,推动了幻方的对冲基金业务的同时,也一步一步从业务部门独立出来,并逐步重新定义幻方这家公司。幻方AI的发展离不开对冲基金业务的支持。进行长期的AI研究,离不开资金与算力资源的强有力支持。DeepMind最后被谷歌收购,作为一家独立的公司,它一直亏损,但作为一家AI研究实验室,在谷歌内部的作用是战略性的。

我在2017年采访DeepMind创始人哈萨比斯时,他告诉我说,谷歌收购DeepMind,就是为了推动从移动第一到AI第一的战略转型。在ChatGPT之后,谷歌更是对其内部显得杂乱的AI研发和业务进行了整合,全部归并到DeepMind旗下。

同样,OpenAI也从非营利改组为营利。其中微软先后投资达140亿美元,对于OpenAI能持续以大算力推进Scaling Law (扩展定律),以大资金和高估值吸引全球顶尖人才,成为一家生成式人工智能的领军企业,发挥了至关重要的作用。

对于所有的技术公司来说,AI大模型将成为其技术底座,也将重构所有企业的IT和软件部门,这可以部分解释为什么一个企业内生的AI能力,强大到一定程度,有可能定义出企业新的增长曲线。

从2019年幻方开始构建萤火一号开始,就注定了它走上了一家AI公司的轨迹。2021年,幻方构建萤火二号,在亚太第一个拿到A100卡,在ChatGPT之后,幻方成为全国少数几家拥有上万张A100 GPU的机构。投资十多亿元构建万卡级算力级群,这不会是仅仅用于炒股。

而硅谷和Alex王和Dylan Patel等,在DeepSeek-3V推出之后,更是相信DeepSeek拥有5万块H100。不管怎么说,在DeepSeek做研究,应该是中国实现GPU自由的地方。

DeepSeek与DeepMind和OpenAI一样追求人才密度,所不同的是,后两者吸收了全球最优秀的AI人才,而前者目前只吸收了国内最优秀的人才。记得当时我采访哈萨比斯时问过同样的问题,他回答说:DeepMind吸引了全球60多个国家顶尖的博士生和科学家。

DeepSeek从一家对冲基金的技术研究部门,逐步将其母体转变为一家AI公司,这是一个非常特殊的例子。对冲基金和AI技术都来自美国,但无论是华尔街的对冲基金、还是从华尔街海归做量化的团队,没有一个能像幻方这样,进化出一个做通用AI大模型的核心能力,例如,彭博曾经很早推出了BloombergGPT大模型,然后就没有然后了。从这一点上来说,DeepSeek这个本土团队是独特的,没有“模式”可谈。

但是,DeepSeek也蹚出了一条路,可能用550万美元、千张GPU卡训练出高性价比的模型,这让许多在巨头面前感到绝望、纷纷放弃预训练的初创AI企业,开始重新思考它们的战略,从这一点来说,DeepSeek开创了一种“模式”。

作者:周健工
摘编源自:未尽研究


来源:中华商报
评论 (0人参与)
评论列表 (0条)