董小英:从Deep Seek看突破式创新的“深度求索”
发布时间:2025-02-12 浏览次数:362 来源:老不董课堂
长期以来,中国企业一直被认为只擅长于渐进式创新,通过追赶和模仿获得发展和新技术应用,但缺乏引领世界和技术变革的“突破式创新”能力。突破式创新需要跳出既有思维框架和技术路线,在一个充满未知、挑战和风险的“无人区”不断探索前行。
近年来,我国企业在电动汽车、新能源、航天等众多领域的突破,打破了传统的认知魔咒,引发全球高度关注。最近,在中美激烈竞争的人工智能领域,以深度求索(Deep Seek)为代表的年轻企业以“低成本、高效率”的突破式创新模式和极低的训练成本,实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能,在国际上引发了强烈反响。
本人作为一直关注高科技企业知识创新与知识管理的学者,对深度求索“突破式创新”的模式、路径和方法十分感慨,迫切地想了解这个企业并围绕其突破式创新模式谈谈感想。

01

突破式创新与企业家精神

创始人的愿景与理念

 

要从追随者到原创者。根据媒体对深度求索创始人梁文峰的早期访谈,他对科技创新有很高的志愿和追求。他认为,中国的AI不应永远处于跟随的位置,而是要在技术创新上成为全球的重要力量。“中国要逐步成为技术创新的贡献者,而不是一直搭便车。” 在梁文峰看来,中国不缺乏创新资本,缺乏的是对原始创新的信心以及组织高密度人才进行有效创新的方法。要做0-1的创新必须从基础研究做起。中国AI与美国的差距在于原创和模仿,而非单纯的技术差距。

 

在他看来,“一些技术如神经语言模型的尺度规律(Scaling Laws for Neural Language Models)是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,中国必然需要有人站到技术的前沿。”

 

战略预判与前瞻。2002年,17岁的梁文峰考入了浙江大学电子信息工程专业。2007年,考上浙江大学信息与通信工程专业研究生,主要做机器视觉研究。研究生第二年,他就笃信“人工智能一定会改变世界”。技术出身的他之后从事量化金融,创立了幻方量化。2012年,他感受到神经网络(AlexNet)给金融业带来的冲击,发现其错误率远低于当时其他模型,由此,他敏锐地意识到,模型、数据和算力组合将是未来最关键的资源和要素。

 

此后几年,人们看到他在人工智能的技术层面不断发力。2016年,他推出第一个AI模型,通过深度学习生成的交易仓位上线执行。

 

2017年,他的企业推进投资策略全面AI化,并把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施;2018年确立以AI为本公司的主要发展方向;2019年,为其自研的深度学习训练平台“萤火一号”总投资近2亿元;2021年,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡,是国内仅有的五个拥有万张显卡的企业,其余均是互联网大厂。由于路线正确,短短几年,深度求索便脱颖而出,他的成功并非“弯道超车”,而是在对AI战略的超期认知和执着投入的合力推动下,持续大胆尝试和点滴积累获得了创新成果。

 

志向高远与自我挑战。在每一波技术创新浪潮中,既有胸怀远大的探索者,也有跟风求利的搭便车人,深度求索并未按照通常的路径依赖战略选择做金融领域的“小模型”,面对着国际上强大的竞争对手和国内互联网大厂的“大模型”之战,仅有139人的小型创业公司却偏偏选择了难度更大的通用人工智能作为再次创业入口。

 

在梁文峰看来,语言大模型是通往AGI的必经之路,大厂和创业公司都各有机会。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。“做最重要、最困难的事”,既是80后和90后创业者的高起点,也是他们选择作为通向原创者的必由之路。2018年,幻方量化将自身从金融领域转型为人工智能公司,更名为深度求索(Deep Seek),其目标不只是复刻ChatGPT,还要去研究和揭秘通用人工智能(AGI)的未解之谜。

 

技术理想情怀。从事技术创新的企业家们在其理性的技术探索背后,都有一颗改变世界、造福人类的赤子之心和理想情怀。梁文峰的技术理想主义情怀主要体现在AI技术应普惠大众和开源两个方面。梁文峰带领团队提出了多头潜在注意力机制(MLA)架构和DeepSeekMoESparse结构,显著降低了模型的计算量和显存占用,大幅降低了推理成本。在此基础上,技术普惠大众的理念从深度求索的价格中体现出来,通过降低大模型价格使更多人能够消费AI技术。开源文化既是策略,又是理想,从长远发展看,开源是通过开放汇聚各方资源的最佳途径。

深度求索通过开源为生态伙伴提供低成本模型训练条件和应用开发环境,降低更多企业的研发成本,让更多人以低成本用上大模型,而不是让技术仅掌握在一部分人和公司手中形成垄断,更不是通过闭源打造护城河将自己保护起来。这既是一种利他主义行为,更是支持企业长期可持续发展的保障。

 

战略耐心与长期主义。在人工智能热潮中,只有理性和冷静认知技术方向,长期坚守战略目标的企业才能行稳致远。深度求索选择从模型结构切入,以基础研究,而不是直接的商业应用作为战略选择。他们认为,只有这种策略才能在全球创新浪潮中占据一席之地。在大语言模型中还需要更多的研究揭秘,尽管这意味着更多的算力、更高的成本和对人员更高的要求。

 

面向未来的发展战略,企业也以类似大学的使命将研究探索作为核心任务,用求知的心态探索AGI的本质和技术前沿,带着好奇心,用长期的眼光追寻解答重要问题,而不是追求快速商业化,做平庸的事情。与技术短期主义不同,对技术有信仰的人会一直坚守在该专业领域长期深耕,并为其所需资源和基础设施做战略投资,而不是以租赁资源的方式随时做好撤退的准备。

02

“突破式创新”与人力资本

在深度求索创始团队看来,仅靠资本投入并不一定产生更多的创新,人力资本才是关键。在我国,虽然劳动力红利在递减,但人才的智力资本开发利用还有巨大的空间,该企业的实践对我们很有启发。

 

年轻人是创新的最大财富。在突破式创新领域,年轻人是最重要资源,他们有梦想、有激情、无包袱,学习速度快,有探索勇气。深度求索偏好年轻天才,整个团队具有年轻化特点(刚刚毕业甚至是在校生),公司员工许多是来自清华大学、北京大学、北京航空航天大学、北京邮电大学的博士。公司在招聘人才时看重能力,而不是经验,辍学生只要有能力照样招进来。他们尤其希望招到那些热爱大模型、有天赋、有冲劲、敢于挑战难题的年轻天才,把研究探索,而不是把挣钱放在第一位的人。

 

企业团队只有139名研发人员,而ChatGPT的OpenAI团队是其人员数量的近10倍,小小的企业释放了巨大的能量,用这么少的人做有突破性的事情,关键是打造一个可以让突破式创新发生的组织架构和企业文化,所以,企业在招人时重视价值观的一致性,通过企业文化确保步调的一致性。

 

好奇心是驱动突破式创新的原动力。突破式创新需要激情、梦想、执着、全身心投入,正如法国新浪潮导演特吕弗告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。” 深度求索深谙这一“箴言”,公司非常看重员工的好奇心,正是在这种背景下,深度求索领导人和团队成员像是一群急于在钢琴上展示才能的年轻音乐家,不断将头脑中回荡的美妙旋律在通过琴键流淌出来。在这个过程中,创新者的激情与疯狂是引领前行的原动力,奋力探索AI的能力边界。当技术痴迷者与学术怪才汇聚在一起产生奇思妙想时,一些看似离经叛道、特立独行和另辟蹊径的争议做法往往能够出奇兵。

 

用研究的精神做突破式创新。深度求索的核心成员在学术研究上积累了扎实的知识和能力,这从他们成员有很多国际发表和学术论文获奖经历可以略见一二。很多高科技企业在创新中面临的最大困境是基础研究与技术开发之间存在着较大的鸿沟和距离。但深度求索却将学术研究与工程开发紧密结合,其核心成员兼具深厚的学术功底与实践经验,使研究能力成为发现解决现实问题的战略资源,所攻关的大模型在数学、代码、生物计算以及语言理解等多方面已展示出强大的竞争力,从而在短短时间内成长为全球瞩目的新锐力量。

 

在国内打造顶级创新人才。从海内外挖人才是很多高科技企业常用的方法,目的是将海外已有的知识和经验快速转移复制过来,这种方法借助资本的力量,耗时短、见效快,但它丧失了早期发展解决诸多难题的艰辛求索与能力构建过程,同时也弱化了在早期打基础阶段推进原创的机会。

 

深度求索在做量化投资时采用了与其他企业不同的路径,作为金融界的舶来品,我国几乎所有量化基金头部企业的创始班底都有或多或少的美国或欧洲对冲基金履历,唯独幻方完全是中国造,依靠本土班底独自摸索长大。在进入AI领域后,深度求索也采用了类似的方法,重用国内人才,选择自己来做最难的、基础的、具有创新意义的事情,这对人力资本与创新能力都是非常宝贵的经历,也是企业产生独特的差异化能力的关键阶段。

 

摆脱经验羁绊释放创造潜能。深度求索在人才招聘更看重能力,而非经验。这样做有三个原因。一是从深度求索既往经验来说,在做量化投资时团队也缺乏专业背景和经验,有经验的人通常会根据思维惯性复用既有的知识和方法,按照便捷优先的原则做事,从而抑制了思考、研究、探索和开创。二是企业将人的能力视为有限条件。知识经验可能过时,但能力常用常新。有能力的人通常具有快速学习并进入新兴行业的能力,在此,能力并不仅仅是衡量学习成绩和论文发表,还包括创新能力、团队协作能力等诸多方面,而对大模型的热爱则是驱动员工持续投入精力和心血进行研究和开发的重要动力。三是作为初创企业,早期没有经验、没有资源、没有积累,员工会更加努力、更加谦虚、更加好学。深度求索员工第一年都是学习探索,没有绩效考核,第二年才可能开始产出成果。企业的考核标准与其他公司不同,没有KPI,也没有非常具体的任务,给员工足够的时间、空间和自由去开拓,发展朋友圈,认识更多的人,产生更大影响力。

 

减少干预,给员工更多的信任和空间。深度求索交给员工重要工作后不干预其工作方法,而是让他自己想办法,发挥想象力和创造力。其实,一家公司的基因很难被模仿。他们吸引的是有好奇心、有激情、朴实肯干和有执念的年轻人,他们对做事有强烈的意愿和自觉,学习能力超强,素质非常高,这些人需要的是使命、平台、机遇和激励,而不是管理和束缚。这些来自顶尖高校的应届毕业生、博四、博五实习生以及毕业几年的年轻人,通过自身培养和团队共同成长,能够打造出顶尖的技术人才,而不必依赖海外挖人。

 

支持创新涌现的企业文化。突破式创新具有不确定性,有可能是在各种试错探索中意外涌现。根据这些特性,深度求索着力打造无形文化和无结构组织,无形文化是企业营造隐性的氛围鼓励员工探索求新,而不是总结一大堆标语口号限定边界;企业高管以身作则身先示范,并以潜移默化的方式影响员工的决策和行为。同时,为了确保创新涌现打造无结构组织,不做前置的岗位分工,专业分工是根据业务发展自然形成;每个人都可以根据需要调用企业训练集群并不设上限;当好的想法出现,有兴趣的员工就可以开启项目,也可以自上而下地调配资源。企业没有等级,所有人都可以直接与梁文峰交流思想,企业的知识流动无障碍。

03

深度求索对突破式创新的启示

第一,充分鼓励企业家精神和高度重视人力资本价值。从改革开放第一代企业家、互联网创业第二代企业家、到人工智能时代第三代企业家,我国企业家不断在市场创新、商业模式创新和技术创新上寻求突破和发展,取得了很多成就。在国际科技竞争日趋激烈的环境下,面对未来的不确定性和战略性,需要新一代更年轻的创业者、科学家和专业人才投入突破式创新领域,无论是政府、资本还是企业,都需要给年轻人提供和创造更多的机会和平台承担挑战、奋力探索,支持和保护其创业创新的激情与能量,为其打造更加宽松包容的环境和氛围,支持更多的“黑马”脱颖而出。

 

第二,通过“赛马”而非“相马”机制,让优秀者脱颖而出。突破式创新往往发生在未知领域,具有很大的不确定性和偶发性,难以规划、确定与预判,因此,从事突破式创新需要接纳混沌、模糊、涌现和偶遇,允许失败和结果未知。 创新往往都是自己产生的,不是刻意安排的,更不是选出来教出来的。因此,试错是必然的路径。与渐进式创新有特定框架和范围相比,突破式创新昂贵且低效,有时候伴随着浪费和失效,这是必要的代价。赛马的优势在于多个团队、多条思路和多种方法同时在“摸着石头过河”,增大创新探索的多样性、差异化和另辟蹊径,这在一定程度上会降低风险,提高成功的可能性。

 

第三,给年轻人打造更宽松包容的创新空间。深度求索与笔者之前拜访的大疆有不少相似之处,作为80后、90后创业者,他们站在国际前沿,立意更高,志向远大,追求卓越、自信自强,不少人员不为五斗米奋斗,而真正为梦想、为愿景、为兴趣、为自我实现而奋斗。与第一代创业者相比,他们有了更坚实的经济基础,因此不必为五斗米追逐短期行为。他们在战略上从容淡定,在社交上内敛自持,行为自律自知,技术上持续寻求突破、在产品上精益求精。这批人将逐渐成为创业创新的主流,在国家政策的扶持和创新企业特有的技术和人文环境中,有望在突破式创新的道路上取得更大成就,成为我国高质量发展的新兴力量。

 

第四,行稳致远,保持成长。深度求索一下子被推到全球的“聚光灯”下,既是好事,也是负担。作为一个以研究为核心使命的企业,需要静心做事、低调做人,免除干扰,潜心研究。他们需要的是默默的信任、尊重、支持、包容与耐心,而不是“捧杀”或频繁的参观打扰。我们要保护这一珍贵的资产,让他们能专心致志静水潜流,在突破式创新的道路上逐步成长。