作者|三七
出品|产业家
【资料图】
在中国,大数据正在从萌芽迈向成熟。
根据数据显示,在过去的几年时间里,我国大数据市场规模从2019年的619.7亿元增长到2021年的863.1亿元,复合年增长率达到18.0%,发展势头强劲。
从2015年入局至今,袋鼠云在去年成功获得第四轮融资,成为业内极少数处在C轮的企业中的一员。
在大数据蓬勃发展的如今,这个能拿到C轮融资的企业的独特之处到底在哪?以及于中国的数据智能赛道上,袋鼠云的定位究竟是什么?
电话另一边,陈吉平向我们娓娓讲来。作为袋鼠云的掌舵人,在过去的几年时间里,他代表的不仅是袋鼠云这一个企业的生长发展,也更是整个中国数据产业的求索和探知。
一、从“数据仓库”走向“大数据”
永远快人一步的决策前瞻性——这是在采访中,陈吉平和袋鼠云给我们的最直观感受。
早先,陈吉平就职阿里,花名拖雷,是淘宝第一代数据仓库建设者。据他回忆,在2004年到2010年间,不止阿里,中国整个业界都还没出现大数据的概念,当时市面上厂商做的叫数据库(TP)或数据仓库(AP)。
随着移动互联网时代的到来,产业市场的数据量呈现迅猛增长的态势。对于数据仓库而言,其仅仅可以作为结构化数据存储的一种方式,而伴随着企业数字化进程的推进,在结构化数据之外,企业更产生了大量的半结构化、非结构化数据,其数量更为庞杂且无序,但其同样具备数据价值。大数据技术应运而生。
“虽然都是处理数据,但数据仓库和大数据处理还是不一样的。”陈吉平告诉我们,“直到13年,业界出现大数据概念,我才开始在阿里做大数据。不过 那时候,大家对大数据只不过存在一些概念,留下了一个影子。”
2014年,陈吉平参与了阿里巴巴第一代大数据平台的规划与建设,担任阿里集团数据治理、数据规划、数据安全负责人,打造了集团的统一数据标准与数据安全体系。
从原本的IOE架构,到数据中台架构,数据层面产生了天壤的差别,在数据处理量、数据种类、数据预判上都有着不同程度的升级,相当于从“水库捞蝌蚪”转向“大海捕鱼”。
首先,数据量以TB、PB为基本处理单位,在数据量上爆炸式飙升。
其次,在数据类型上,种类繁杂,包含结构化、半结构化及非结构化数据等多种类型。
另外,还需要依据现有数据来预判其余数据出现的可能性,并将收集到的数据作为资源来辅助解决其他领域所遇到的问题。
2015年,陈吉平有了一个坚定的念头。即经过在数据行业的多年摸爬滚打,他认为,云计算解放了生产力,而大数据作为其中的生产要素也即将能被同步释放。
想法之后,动作迅速跟进 。陈吉平的选择是离开阿里,正式创办袋鼠云。
根据不完全统计,2015年全年产生的数据量等于历史上所有人类产生的数据量的总和。此后,全球大数据储存量的增速保持在40%左右,到2016年甚至达到了87.21%的增长率。
这场“数据风暴”一直持续到现在。根据相关机构统计,未来几年中,数据将仍会保持着40%左右的增长率持续增长。
因此,海量数据的处理成为全球共同的挑战。
但困难也意味着机遇,对陈吉平而言,袋鼠云的成立也恰代表着:他已经准备好了。
“袋鼠和大数据的前两个字谐音,比较好记。而且袋鼠是陆地上跳得最高、最远的动物,它只会前进不会后退。”陈吉平笑谈,袋鼠云的名字就这样定下了。
二、“全链路数字化”,新数据路线背后
实际上,陈吉平需要面临的挑战要更大。
即相比海外更加先进的数据处理技术,我国庞大数据量所带来的压力更大,此外,在数据收集、整理之外,释放海量数据的实际价值,也更是众多企业亟需解决的难题。
IDC发布的统计数据显示,美国的数据产生量占比约为21%,欧洲、中东、非洲(EMEA)的数据产生量占比约为30%,日本和亚太数据产生量占比约为18%,全球其他地区数据产生量占比约为8%。而中国,数据产生量约占全球数据产生量的23%。此外,我国由于底层架构的不统一,由此产生的数据也多种多样,数据呈现难度极大。
对于这些,陈吉平和袋鼠云选中的方法是——产品。
1、打通数据孤岛
在传统IT架构中,由于各系统从后段到前端均为相互独立的个体,极易出现整体系统架构过于庞大,运行时耗费大量人力物力。
同时,企业为了快速实现业务需求所采取的烟囱式开发模式也导致不同业务线数据完全割裂,造成大量数据指标重复开发、浪费储存和计算资源的情况。
解决这一问题的关键在于增强数据传递及汇聚能力。陈吉平结合多年经验发现,对数据工程师来说,一个好的平台赋能是很重要的。平台不过关,当在数据量大时,开发效率便会很低。
发现这一痛点后,袋鼠云推出了第一款产品——数栈DTinsight。
聚焦于打通数据链路,赋能企业将全域资产汇聚,统一数据治理的能力。在此前数据库、大数据处理经验的沉淀下,这款产品在技术能力、响应能力、兼容能力及安全保障能力上都体现出先天优势。
但很快,又随即出现了第二个痛点。
2、数据的可视化呈现方式
“拥有数据后,如何让数据更快更好的呈现这件事,在我国拥有很大需求。”陈吉平拿石油举例,“对于石油来说,你能够看得见实物,可以把这个实物的价值最大化,提炼成汽油、柴油、煤油,这些都是看得见摸得着的。但数据是缥缈的,你需要让用户去直观地感受到数据、用明显的方式看到数据,实时地监测数据。”
袋鼠云把用户的这项需求沉淀为第二个产品,易知微EasyV。
能够基于数字孪生技术,对场景诉求、数据探索指标、故事线及交互整理,策划出可视化设计,实现可视化组件开发、模型调试、动效开发等呈现,为用户提供低代码数字孪生可视化平台。
终于,在深耕行业7年后,袋鼠云着手布局基础架构及智能分析,着手化解第三大痛点。
3、延伸产品能力链路
对于数据仓库而言,其仅仅可以作为结构化数据存储的一种方式,而伴随着企业数字化进程的推进,在结构化数据之外,企业更产生了大量的非结构化数据,其数量更为庞杂且无序,但其同样具备数据价值。
湖仓一体是一种结合了数据湖和数据仓库优势的新范式,是同时处理结构化和非结构化数据的底层数据架构,在用于数据湖的低成本存储上,可以实现与数据仓库中类似的数据结构和数据管理功能。
这不是一件容易的事。首先从技术上来看,尽管国外已经有相关的如DataBricks等企业跑出来,但在国内,湖仓一体仍然没有大规模落地,产品层面的研发尚且有难度,比如对于流批一体的支持,再比如数据共用和跨库分析的能力等等。
这一次,袋鼠云又走在了前面。
2022年,袋鼠云从“数字化基础设施供应商”升级为“全链路数字化技术与服务提供商”,并推出数驹DTengine、数雁EasyDigit两款产品,搭建起全链路产品线。
数驹DTengine,是袋鼠云研发的极速湖仓引擎,包含大数据基础平台EasyMR,以及高效计算和管理的数据湖平台DataLake。基于数驹的数据存储管理能力,可以同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,降低学习、使用、维护成本,提高开发效率。从而让企业产生的所有数据,都能够被采集、被存储、被计算,赋予数据全新价值。
除了夯实底层基础平台外,袋鼠云在应用层也拓展了相应能力。数雁EasyDigit,是一站式数据智能分析与洞察平台,包含指标管理分析EasyIndex、客户数据洞察DataTag两个产品。能够实现标签和指标的全场景、全流程开发和管理,构建出以业务价值为导向的数据分析与应用体系,从而帮助客户实现营销效率最大化。
“产品和服务是相辅相成的,服务需要依托在能为用户提供相应解决方案和服务能力上。”陈吉平认为,最大的目的是让数据产生价值,用基础架构让用户建立起从0~1的数字化能力,用共创的形式进行连接,赋能出能力。
凭借全链路赋能的产品模式,如今袋鼠云已赋能5000多家不同行业的灯塔用户成功进行了数字化转型,并且连续多年被Gartner评为数据中台标杆供应商。
大数据这条路,陈吉平和袋鼠云已然打起头锋。
三、用生态做加法、定边界
“授人以鱼不如授人以渔。”在过往二十年间,我国经历了PC时代到移动互联网时代变革的阵痛。而今,已经走入下一个时代的风口。
根据国际机构Gartner最新公布的报告显示,“数字经济”2021年在我国经济占比中已达到40%,除互联网等传统数字经济领域外,金融、零售、高端制造等领域等中国企业数字化转型整体成熟度正在不断提升。
这也印证,“数字化转型”在中国经济发展中“已成为主流基调”,对提升经济发展质量和可持续性“有重要的正向作用”。
信息化、数字化、智能自动化这“三化”中,拥有层层递进的关系。可以说,只有在信息化完成后才会有数字化,有了数字化才能产生智能化。数字化,是我国发展到全面智能路径中的不可回避之隅。
在产品之外,陈吉平的第二个选项是生态。
“生态是我们一直有专门团队去进行培育的。服务不代表要去替客户把所有活干完,提供‘保姆式服务’。而是要去做‘管家’,提供核心、关键的规划、战略,从而提升客户自身的数字化能力,把工具用起来。”陈吉平如是说道。
在数字化转型浪潮中,将数据利用起来是走向智能化发展的第一步。而传统企业,由于缺失科技实力,所以需要有一批对应技术商来为他们赋能。
由于行业浩瀚、痛点各异,企业需求也不尽相同,客观来看独立完成整个生态链建设难度是极大的。
从数据萌芽到步入成熟,陈吉平一路走来,清晰看到数字化转型并非交付产品即可,建设完成后仍需长期运营、维护的核心问题。也由此,萌生出构建生态底座,与合作伙伴共同赋能的念头。
于是,在2020年,袋鼠云正式开启“飞跃计划”,联合社会各界打造“数字生态共同体”,赋能企业数字化发展。从根本切入方式来看,即袋鼠云构建底层的数据底座,完成“难度最大”的数据底层梳理,上层的企业可以基于低代码为企业做场景化的产品和服务。
生态圈赋能的想法显然和行业玩家不谋而合。自实施以来,“飞跃计划”已吸纳了200多位伙伴加盟,涵盖金融、政府、教育、军工、制造等30多个行业。
从更本质的角度来看,基于生态做产业服务一方面可以帮助更多产业链上的其它企业成长,以袋鼠云的数据能力为核心,帮助企业可以以贴身的姿态更好地服务企业客户;另一方面,也是最关键的,这种模型也更能帮助袋鼠云建立自己的业务边界。袋鼠云正在以最开放的模式,和合作伙伴一起加速中国企业数字化转型。
有所为有所不为,在中国的TO B浪潮里,这是最关键的哲学,也是企业最能长久生存的关键方法论。
对于袋鼠云的未来,陈吉平的认知一直是清晰的。重产品,有边界,强赋能,在袋鼠云身上,一个在中国产业土壤中成长起来的TO B独角兽形象正在愈发清晰。