成立即 “准独角兽”,腾讯投资的这家 AI 企业有何本事?
出生即 “准独角兽”,手握腾讯投资 、业务合作阿里云,这家备受关注的云原生数据库公司终于在闭关钻研两年多后,发布了新一代产品。在与全天候科技的对话中,创始人解答了外界的种种疑惑。
作者 | 张超 编辑 | 罗丽娟
出生即 “准独角兽”,手握腾讯投资 、业务合作阿里云,到底哪家企业有这个本事?
答案是拓数派(英文名:OpenPie),一家于 2021 年在杭州成立的云原生数据库企业。
过去两年间,这家公司鲜少披露产品或业务进展。但据官方资料,拓数派天使轮就获得了来自腾讯的投资;9 个月后,公司又获得了来自元禾重元、东吴证券的 Pre-A 轮加持,身价随之上涨。而资本对公司未来估值预期,可能达到上百亿元。
究其原因,与创始团队核心成员的背景有着密不可分的关系。
据了解,公司创始人、董事长兼 CEO 冯雷曾以浙江物理奥赛银牌的成绩进入北大物理学院,攻读物理、经济学双学位;之后进入全美人工智能专业多次排名第一的卡内基梅隆大学(CMU),攻读研究生,与前百度首席科学家吴恩达、前百度副董事长陆奇等成为校友。
拓数派创始人、董事长兼 CEO 冯雷
拓数派合伙人兼 CTO 郭罡则毕业于中国科学技术大学少年班,有超过 18 年底层基础软件领域开发经验;公司合伙人兼 COO 陆公瑜毕业于英国约克大学,有超 15 年产品生态建设和运营管理经验。
值得注意的是,三人都曾是 GreenPlum 产品及社区的核心成员,冯雷还曾是 Pivotal 中国创始人兼总经理。
众所周知,Greenplum 是分布式数据库的全球领导者,原本隶属于美国 Pivotal 公司,随着 2020 年的一场并购,才成为 VMware 全新产品和服务组合 VMware Tanzu 的一部分。而 Pivotal 在业内久负盛名,主要提供 PaaS 云原生应用开发平台及服务。其厉害之处在于,拥有多个在软件和云计算领域举足轻重的开源项目。飞鱼研投盘点了一下 Pivotal 旗下的开源项目,包括 Spring、cloud foundry、RabbitMQ、Greenplum 等。
这样一家企业的核心技术成员创业,获得资本青睐似乎也就不足为奇。
闭关钻研两年多后,今年 3 月 14 日,拓数派发布了基于新一代云原生数仓虚拟化技术,打造全新 PieCloudDB“云上云” 版。
据冯雷介绍,新一代云原生数仓虚拟化技术,可将多个数仓统一整合到一个高可用的云虚拟数仓,打通多云的数据管道,从而让数据计算资源按需扩缩容,以提升数仓的敏捷性和弹性。
拓数派新一代云原生数仓虚拟化技术
举例来说,一家企业有 100 个数仓(数据集群),每个数仓可能要用 100 台服务器,总共需要 10000 台服务器。实际运行时,很多计算资源会闲置,服务器负载可能不到 30%。如果把 100 个物理数仓变成 100 个虚拟数仓,计算的时候启动,不计算就不启动,就可以把服务器缩减到 3000 个。
不仅如此,原本 100 个物理数仓之间存在数据隔阂,互相无法访问,现在把数据放到公有云上,可以通过授权另一个数仓使用数据。
数仓虚拟化技术的核心价值就在于,能够数量级降低数仓硬件和维护成本、打开数据计算资源利用空间。
为了保障数据安全,拓数派还采用了以灵活敏捷、降本增效等特点著称的 eMPP(Elastic MPP,弹性大规模并行计算)分布式专利架构。
相较于传统的 MPP 架构,eMPP 架构是基于云计算平台诞生的,能够实现存算分离,即在存储侧可单独进行计算或者存储资源的扩展,避免了企业对集群进行扩容时,因计算资源和存储资源的绑定而造成的资源浪费;在计算侧可以利用计算节点池,按需扩容和缩容,灵活根据业务和数据量变化来动态调整。
新一代数仓虚拟化技术利用 eMPP 架构,可以实现多集群并发执行任务,让企业灵活进行扩缩容,随着负载量变化实现弹性伸缩,以应对 PB 级海量数据。
目前,拓数派基于阿里云构建的公共云数据仓库服务已经正式上线。
数理背景出生的冯雷,一直是个 “万物皆数” 的狂热拥趸,是图灵核心思想的践行者之一,尽管其初衷是为了证明图灵理论的错误。他痴迷于用数学逻辑解决社会学问题,用逻辑运算和算数运算模型回答万事万物的源头性问题。
在冯雷看来,这套数学模型思维的美妙之处就在于可预测,“使得一切非常可控”,即便有不可控的部分,也能比别人多一个抓手。
事实上,冯雷算不得一个典型的商人,他并不想让拓数派成长为有上万名员工的大企业,也没有急着实现业务盈利,更没有奔着百亿估值狂飙。
冯雷是个骨子里带着点浪漫色彩的理想主义者。在他看来,拓数派就是自己的一次实践探索,是其和创始团队在做的一个无限游戏。而之所以叫 “拓数派(OpenPie)”,就因为π是一个无理数,可以一直计算下去。
关于数仓虚拟化技术的突破点、拓数派的业务模式、创始人的思维逻辑等更多详细问题,冯雷近期与全天候科技一一都进行了分享。
以下是对话主要内容(经全天候科技编辑整理):
“数仓虚拟化技术” 可能是里程碑事件
全天候科技:拓数派发布的数仓虚拟化产品,突破性在哪里?对行业影响有哪些?
冯雷:它可能是我们团队程碑式的事件。
讲产品逻辑可能比较难解释,用服务器虚拟化打比方,大家都能接受。
以前在服务器虚拟化之前,一个典型的企业里大概有上千台服务器,每台服务器都有自己的操作系统。
服务器虚拟化就是把这 1000 台服务器变成一个虚拟服务器,然后硬件共享,服务器都没有本地硬盘,存储用共享存储模式。这 1000 台服务器全部虚拟成 1000 个操作系统文件,少数硬件上可能把 1000 台服务器缩减到 300 台,因为企业里大部分服务器的负载不到 30%,这意味着 70% 是闲置的。
把物理服务器变成虚拟服务器,硬件可能只用了 300 台服务器,成本减少是一方面,更大的好处是软件跟硬件脱离。一旦底层服务器坏了,虚拟服务器很容易从硬件迁移到硬件用户,中间无感知。
软件跟硬件分离就是行业突破。
对比数仓虚拟化,就是企业通常有 100 个数仓,可以简单理解为 100 个集群,每个数仓可能多到 100 台服务器,总共可能是 10000 台。其中很多计算资源也是闲置的,大部分负载不到 30%。我们把 100 个物理数仓变成 100 个虚拟数仓,计算的时候启动,不计算就不启动,就可以把服务器缩减到 3000 个。
成本降低是一方面,对于每一个服务器来说,当其它服务器不用时,这 3000 台服务器可以独占,可使用计算资源空间会增大。
更重要的是,这 100 个虚拟数仓原本数据之间有隔阂,互相无法访问,现在把数据放在底下,可以授权另一个数仓,这样计算空间就会增大、成本缩小。
全天候科技:服务器虚拟化带来的物理成本减少大概有多少?
冯雷:我们预计可能有两类场景,一类是大机构,比如银行、券商等,有 10 个以上集群,我们可以把物理成本减少三分之一,数据计算空间增大 10 倍;
另一类是小企业,我们鼓励他们上公有云、跟云厂商合作,传统的企业自己在公有云上租 5 台服务器,一年 20 多万元,但虚拟数仓不启动就不算钱。企业假设有 2 个 T 的数据放在公有云上,费用就只有几千块,虚拟数仓使用的时候再算钱。
全天候科技:这样会不会影响云厂商的收入?
冯雷:对于云厂商而言,我们提供了增值服务。假设带来 1000 家企业,每家一年存储 2T 数据,相当于拓数派给阿里带来了流量和收入;企业启用数仓虚拟服务器,我们也会付钱给云厂商,是双方共赢的局面。
全天候科技:拓数派和中小企业之间是什么关系?
冯雷:数仓虚拟服务技术是将存储和计算分开,实现了技术突破。企业之前没有使用这款云原生虚拟仓产品,没法真正享受数据计算带来的红利。现在有了技术,大家都能上云,企业还能以更低的成本实现存算资源在云上更灵活的配置,对所有人都有好处。
全天候科技:数仓虚拟化系统服务云上所有企业的时候,如何满足差异化需求?
冯雷:拓数派的魅力就是一家基础软件公司,数仓虚拟化技术本质上接口是标准的,对所有企业一个样,属于基础设施软件。不一样的地方,可能是应用场景的差异。我们跟各行各业打交道,也会形成一些预制方案给到合作伙伴,但行业领导者们还是喜欢自己做。比如,券商核心竞争力就是股票定价模型, 它不可能把这个模型给到我们。
全天候科技:数仓虚拟化技术由拓数派首次提出,只有拓数派可以做吗?为什么不能是其他更有实力背景的企业做出来?技术难点是什么?
冯雷:我们有自身的特点,人要做自己擅长的事情。
拓数派的团队背景是来自于 Pivotal,而 Pivotal 是云原生的提出方,虚拟化是 VMware 的提出方。我们吃这碗饭吃了将近 20 年,熟了。无他,惟手熟尔。我们 CTO 是中科大少年班,团队清华、北大、奥赛奖牌得主都有。40 多人的研发团队,这个画像已经很厉害了。
大公司要做的是云平台,到每一个项目上人数其实有限;而且大公司不会跟所有人竞争,与外部企业永远是竞争与合作的关系。
当初我刚创建 Greenplum 中国的时候,他们创始人就说过一句话,“有钱是一方面,有文化是另外一方面”,文化传承很重要。
我跟中国投资人也说,如果钱能解决问题,明天就可以造一个斯坦福出来,但这显然不行。因为斯坦福经过了 100 年的迭代,有自己独一无二的文化,孕育出一代又一代人;我来自 CMU,CMU 在人工智能领域孕育了一代又一代人,背后文化很抽象,但是符合一方水土养一方人。
全天候科技:CMU 带给你最大的收获是什么?
冯雷:CMU 是人工智能诞生地,不仅在理论探索方面有独创性,理论与实践组合的体系也比较少见。最早的无人驾驶越野车等项目,CMU 研究团队都是世界最领先。CMU 不像一些学术机构简单发一篇论文就结束了,而是真正有实际的产品落地。
全天候科技:纯理论教育和理论与实践结合式教育,对技术突破有什么不同影响?
冯雷:这是近 20 年发生的比较大变化。很多公司设有专门的研究机构,但今天发现这些研究机构的研发力量还不如一些产品团队,因为产品迭代太快、产业迭代太快。一个纯粹的学术机构发一篇论文,然后只能申请赞助;但是产品团队有创成果,就能得到更多资本认可。
ChatGPT,微软一共投了 100 亿美元,哪个学术机构能跟它 PK?
这也带来了一个巨大的问题,传统意义上发明一个物理装置,推广到全世界最起码需要几年时间;但今天数字世界一秒就可以推广到全世界,它迅速把红利回收后能获得更大投资,轮子越滚越快。
不过数字力量对于财富再分配的问题确实需要进一步探讨,要不然就是赢者通吃。
全天候科技:这个情况已经出现。
冯雷:而且有越滚越快趋势。
微观经济学讲,企业的目标就是追求利润最大化;但今天可能这么说不对,因为赢者通吃实在是有问题在里面。所以,现在机构强调商业化的同时,也强调 ESG。
拓数派成立的第一天,我们就设立了一个平行机构——1024 数字产业基金会,它是非盈利机构。
全天候科技:未来在国内或国外,多久可能出现一个类数仓虚拟化技术的产品?
冯雷:其实国外有两家公司,可能有这个能力。
为什么他们不推虚拟数仓的概念?因为不想强调服务器虚拟化这件事情,但这个概念对中国私有云用户已经深入人心了,大家知道服务器虚拟化带来的所有好处,对大家有百益而无一害。
“我们的目标是,先把成本固定住”
全天候科技:拓数派创办于 2021 年,天使轮就获得这些有实力背景的投资人支持,核心原因是什么?
冯雷:其一,是大势所趋。通过新的基础计算设施改进来产生深度智能化设施这件事,有些人停留在好奇层次,有些企业在盈利层次,甚至可能是战略层次。一些有识之士看到这方面需要,就进行了投入和部署。
其二,是稀缺性。能够承接这个任务、有成功履历或者证明过成功的团队,在国内数量非常有限。两点综合考量,大家就比较容易促成这件事情。
这次想通过跟国内战略投资机构和一些 PE 基金合作,尝试一些前面没有做过的东西,感觉时间点到了。
全天候科技:当时只有腾讯找你们聊,阿里没有吗?
冯雷:接触的都是很有战略眼光的投资机构或者政府机构。
我们不想花太多时间在这方面讨论,所以当时聊得并不多,只跟两三家机构接触过。大家如果意向上愿意做,我们就尽可能把时间放在 “做” 这个事情上。
全天候科技:拓数派拿的是腾讯投资,但注册在杭州。
冯雷:业务方面,我们是跟阿里云存储团队有战略合作。国内投资界的视野上升很快,并没有简单商业利益上肤浅地切割开。
全天候科技:研发团队目前是什么规模?投入有多少?
冯雷:现在总体超过 40 人,硕士比例占 70%,博士比例占 10%。研发投入都是国际水平,已经超过我在 Greenpulm 中国最高时候的投资了。科创板喜欢研发比例高的企业,我们保证是科创板里数一数二的水平,配置实际上相当于研究机构。
全天候科技:拓数派目前的商业模式包括哪些?
冯雷:公有云部分,就是三方运营的 Pass 服务模式。比如,我们与阿里云的合作,把机会给到用户,阿里也愿意带我们。这个运营模式相对比较轻,是比较互联网的商业模式,用户自己开账号、自己把数据传进去、自己计算;我们给用户计费账单、收用户钱,跟阿里云结算资源消耗费用。
这必须技术过硬,确保拓数派从阿里拿过来的资源对用户有效率提升,否则用户直接去找云厂商服务更便宜了。
公有云上也有大客户,相对来说是一个长尾市场,但这个市场也令人非常期待;一旦做起来,复购率、市场占有率都会很高。这个市场在中国的公有云领域做起来还需要时间,但我们需要占位。
目前私有云部分,是拓数派与大客户直接合作,收费像传统的软件模式,即给到客户软件许可后每年收取费用;另一种行业云,类似 OEM 模式,他们赚钱我们分成。总体来说,就这三类商业模式 。
全天候科技:目前公司整体处于盈利状态吗?
冯雷:还没有。去年 10 月 24 日,拓数派才推出私有云、行业云方案;今年 3 月 14 日,推出数仓虚拟化技术。我们的目标是,先把成本固定住。
因为拓数派是研发非常重的一家公司,市场发展非常依赖合作伙伴,头部企业还会找事前事后团队贴身服务。我们尽量以树立标杆客户为目标,标杆起来后,我们会把同一套方法教给合作伙伴,希望这套技术不仅仅让几家公司获利,而是我们的生态合作伙伴都能从中获利。
全天候科技:拓数派没有盈利压力?
冯雷:虽然我们前两期投资是传统意义上 VC 阶段的投资,但股东主要是产业基金,产业基金是用战略性的眼光来看企业发展。
但是再往后的投资,最终投资方还是要以上市为目标。所以,我们去年也开始推进商业化,把商业化当做公司的重点来做。
全天候科技:可能在哪部分客户上实现盈利?
冯雷:对我们来说,收支平衡并不难。
假设成本固定住,我们每年就只要花这么多钱。投资人开玩笑说,我们手里就像有个印钞机,因为用户自己会传数据,不需要我们干什么,就能生钱。但这个机器是我控制不了的,市场发展的时候,它可能突然运作起来,而且是一个指数级分布增长。
另一方面,我们私有云的目标客户画像很清楚,可以跟他们一起合作。但我们也不太可能把全中国的市场份额都拿下,整个市场大概有 500 多亿元,私有云、公有云对半开是 250 多亿元,我们只要占个 5%,就差不多 10 个亿了。
资本对公司未来估值预期可能是上百亿元。
全天候科技:按照你的计划,2023 年公司整体成本会得到控制?
冯雷:成本我们会控制。商业化去年做了一些,今年收入会继续增大,希望尽快能看到一个收支平衡的情况。
全天候科技:有一个上市计划时间表吗?
冯雷:我们做 Pivotal 这家公司的时候,只花了 5 年不到就上市。
当然,人家董事长水平高,我们水平稍微差一点(笑)。拓数派已经创业两年,我想未来三年如果能实现收支平衡,那么科创板会比较喜欢(我们)。科创板本身是允许亏本企业上市的,但我们还是以收支平衡为目标。
这就是 “专精特新” 的一个好例子,我没有目标把企业做到 1 万个人,但是希望能影响人工智能整个学科的进展。
“我和团队核心人员一直在做无限游戏”
全天候科技:为什么选择放弃 Pivotal 高薪职位,从零开始创立拓数派?
冯雷:其实我和团队核心人员做的事情其实一直没有中断,就叫无限游戏。
我从 CMU 毕业以后就在甲骨文做数据库,后来回国创建 Pivotal 中国,负责 Greenplum 产品。随着 Greenplum 事业的深入,当时做了很多风控模型、征信模型、推荐模型,我们越来越对数学模型产生兴趣,认为这种探索很有价值。
我们发现云上有一个新机会,即利用更多的存储资源、打破数据之间的隔阂,就可以让运营商有更多计算资源、更多数据,然后这个模型可以想象能产生更好结果。
对我们来说,做这件事不是一个艰难的决定,但需要有突破式创新或者破坏式创新;按照教科书理论,最好是重新设立一个机构来做。
《创新者的窘境》(The Innovator's Dilemma)这本书上有个观点,如果创新是连续性的,建议待在大公司里接着做;如果是突破式、破坏式的创新,要推倒很多前面做过的事情,一般鼓励设立新的机构。可能是个研究机构,可能是家新公司。
我们很自然地捕捉到了新机会,创立一个新机构,所以得到了头部互联网产业基金,以及很多国内 PE 资本,甚至国资的支持。
全天候科技:你之前接受采访时提过,更愿意用数学逻辑解决社会学问题,思考源头性问题。在技术研究上,数学逻辑和符号逻辑解决问题时的差异是什么?
冯雷:其实不是我说的,是 “计算机科学与人工智能之父” 艾伦·图灵说的,一台机器(图灵机)能模拟人类所能进行的任何思维计算过程,本质上这些思维过程都可以拆解成逻辑运算和算数运算。
人工智能学科就是尽可能把这些定义做成逻辑运算或算数运算的模型。
全天候科技:所以你一直支持图灵的观点?
冯雷:我其实是想证明他错,所有人都想证明他错,但是给不出一个反例。
全天候科技:你接触这个理论以前,就一直用数学逻辑思考问题的吗?
冯雷:我进 CMU 以后才开始这么思考。确实 CMU 沉浸在人工智能世界里,也进行了很深层次对人类认知的思考。
全天候科技:数学模型式思考逻辑总是很严谨规范,也相对严肃刻板,在处理计算问题可能比较合适。但在解决生活问题、组织管理问题,接触与人相关的问题时,这套模式能运行得通吗?你一般怎么思考这类问题?
冯雷:很对,目前人的行为或者说人跟人之间的社会行为是没有办法很精准地用 AI 模型来描述。
即使今天的计算机视觉识别有时候也会出错,脸识别不出来,ChatGPT 也会说错话。这个过程它就是个无限游戏,只能无限逼近它。
但是有没有一种可能性,在某一个阶段点突然打开了另外一扇窗,发现外面有个广阔世界,这就有很大的好奇心在驱动。
全天候科技:听下来,你在运用这套思维模式的过程中还没有遇到难点?
冯雷:它的美妙之处就在于可预测。
比如以一个老板心情很古怪,你就不愿意跟他相处;但好的老板不在你身边,你也知道他大体上会怎么反馈。
数学化物理这套方法使得一切非常可控,说一不二,说一个自由运动的小球在几秒钟出现在什么位置,它就出现了,是不是很神奇?
全天候科技:你怎么处理不可控的事情?
冯雷:我尝试着建立一套模型拆解成逻辑和算术运算,然后去让模型落地。至少从不可控中能找出一些可控,其他不可控就不可控了,我至少比别人多一个抓手,让不可控变成可控。