今天,很高兴为大家分享来自极客公园的AI 时代,这家公司想做一个免费数据库,如果您对AI 时代,这家公司想做一个免费数据库感兴趣,请往下看。
要做「服务化的数据库」,而不是「数据库即服务」。
作者 | 宛辰
编辑 | 靖宇
数据可能是大模型驱动下,最先走向商业落地的领域之一。过去一个月,不少行业人士认为,随着算力成本的降低、开源模型的进步、以及模型部署服务的渗透,数据可能是软件公司利用大模型做出差异化,最重要的因素。
数据库领域的领头羊 Snowflake 和 Databricks 均在各自的大会上,描绘了大模型+数据的理想前景——现在由数据工程师和数据科学家才能取数、用数的场景,未来人人可得。
尽管实现这一图景还需要很多技术、工程、场景上的探索,但数据是大模型时代绝对的主角。相应地,承载数据调度的数据库也会迎来新一轮变革。
日前,国内数据库厂商 PingCAP 在用户峰会上,分享了关于 AI 时代数据库的新思考。
「如果为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」
五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样的需求。」
现在,黄东旭表示,「这个经典架构搬到云上想要支撑这个需求,PingCAP 得赔死了。」当 AI 正在改写软件行业时,PingCAP 推出了新一代架构的数据库——TiDB Serverless。
刘奇认为,TiDB Serverless 从架构上更系统地做到 AI ready,当「算算分离、存存分离、存算分离,这个时候非常容易引入 AI」。
01
AI 时代的数据库架构
作为软件公司,刘奇对这波「AI 重塑软件」有两个直接体感——一个是代码,还有一个是数据。
峰会上,他用一个「惊人」的数字来阐述 AI 变革——过去七个月,GitHub 上新增的原代码已经有超过 46% 由 AI 生成。「也就是说,如果从软件开发效率的角度去看,AI 已经完成了差不多一半的人类的工作,这是短短过去七个月的时间发生的事情」。
在 AI 时代到来之前,要先编程把各种各样的辅助工具编出来,再运行。但在今天,没有写一行代码,只提了个要求,就有结果了。数据消费的门槛变得极低,可以预见,数据将呈十倍、百倍规模的增长,这会对数据库带来巨大的挑战。
刘奇在峰会上分享数据库领域的变化 | 图片来源:PingCAP对此,PingCAP 创始人兼 CEO 刘奇认为,团队于四年前开始预研、到现在正式商用的 TiDB Serverless 数据库,可以从架构上满足 AI 带来的新需求。
TiDB Serverless 数据库架构简化了应用的开发,让客户不必再花时间在数据库上,把复杂的事情交给 PingCAP 的系统自动化处理,而把自己的时间精力投资在业务创新上。过去,PingCAP 从解决 MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是这一理念的延伸。
PingCAP 联合创始人兼 CTO 黄东旭,在峰会的「年度保留节目」——「下一代数据库」主题演讲上进一步拆解了 TiDB Serverless 数据库的由来。
他认为,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。并且,下一代数据库还面临着新的要求和挑战:
除了极致的性能支持海量数据外,性能的可预测性成为关注焦点;
线性开发体验,数据库扩缩容对应用透明;
高效的成本控制,可以零成本起步(Scale-to-Zero);
多租户支持成为新常态,不仅要实现隔离,还要实现数据的共享。
为此,在重新设计 TiDB Serverless 的时候,PingCAP 定下了一个规范:「我们应该做的是数据库的服务化,而不是服务化的数据库。」
黄东旭介绍,8 年前一开始设计 TiDB 数据库时,他看到的东西就是一台台具体的服务器、CPU、内存、磁盘,基于这些东西来构造 TiDB,但是现在到 Serverless 版本的数据库,重新再去设计系统时,他看到的已经不是这些 CPU、磁盘、服务器,而是云上的服务,EC2 虚拟机、对象存储、甚至是云厂商的 RDS(关系型数据库)——他想在新的云原生的工程哲学里充分利用云的基础设施,这也是 TiDB Serverless 能把成本推到当前的极限水平的核心原因。
掀开最新一代数据库 TiDB Serverless 的引擎盖,里面大概有三个新的东西:
换了新的云原生的引擎 CSE(Cloud-native Storage Engine)架构;
在 TiDB 引入了逻辑上的 Key Space;
Resource Control 以及 RU 的概念,从上到下做全局流控。从而实现了无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务。
过去几个月的时间里,TiDB Serverless beta 版已经拥有超过 1 万个活跃的集群。
02
小模型服务企业场景
PingCAP 副总裁刘松认为,数据库正经历着从云原生数据库到 Serverless 数据库,再到拥抱 AI,将 AI 与数据库进行融合的大方向。TiDB Serverless 数据库作为 PingCAP 全新一代的架构,可以和 HTAP、AI 融合,成为三位一体的创新。
这些技术融合之后,下一步要看 AI 和数据库融合怎么才能提升数据库的处理能力、分析能力。
对于 AI 对数据库带来的变革,刘奇认为,AI 跟数据库应用的结合有更多的层面。最广为熟知的场景是用自然语言与数据库交互,就自动完成了数据分析的工作。
但是,还有其他中间和底层的环节,并且这些环节很多时候跟大模型无关。比如,可以用数据训练一个小 AI 模型,来预测用户 workload(工作负载)的变化,用户会感觉:数据好像本来就在这,分析速度非常快。他说:「之前跑的一个 workload,我们现在快了几十倍,结果看起来也是对的,突然有这么大的改变,会让人觉得难以置信」。
小模型正在发挥着超出预期的价值,这似乎有点反常。事实上,自 ChatGPT 以来,让 B 端企业用户再次为AI惊喜的是大模型的通用能力,可以省去根据小模型一个场景一个场景训练的「项目制」工程。
对于小模型的通用性,刘奇认为,当训练参数达到 120 亿、160 亿的时候,模型的知识丰富度已经很高了。而且,过去一段时间,小模型训练也很充分,起步的训练量在 1TB 的 Token,这样训练出来的结果至少是高中大学生的水平,再进到不同的行业做一些专有训练,其实也具备比较强的通用性。但调用 OpenAI 的 API,特别是 GPT-4 非常贵,以现在的成本没有办法做到人人可用。
另外,模型怎么跟互联网结合,让它能变得更加通用,现在这一技术也相对比较成熟。
比如要完成一个任务,允许模型使用工具(包括上网搜索关键词),经过几次的反复也能完成工作。「大模型也许不必装那么多知识,关键是推理能力到什么程度,剩下的可以依据推理能力把任务完成。」小模型推理能力的进步,是衡量可用性的重要因素。
他认为,有一些目前还没有开源、训练量没那么大,已经证明了推理能力可以显著改变,甚至可以超过 GPT-3.5。尽管不是全领域,是在某一方面,或者某几方面已经做到了。
更重要的是,用企业安全合规的标准来运维,小模型往往是更好的选择,它会更加专用。「如果把 AI 植入到各个环节,很多地方的应用都是专用的小的模型,它的速度需要很快做出预测;同时需要考虑到用户本身数据的安全合规,用户也不允许你把数据发出去给一个大模型,我的数据必须在我自己的地方」。
对于外界关心的 PingCAP 会接入哪家大模型,刘奇再次强调了小模型,尤其是开源小模型的价值。他说,如果超过千亿的参数是大模型,那么现在有大量数百亿参数的小模型进步速度非常快,超出了所有人的预期。
「当初谁也没有想到能够在短短的半年时间就有模型敢出来和 OpenAI 叫板,小模型想达到相对接近的能力需要多少年,现在我们发现至少有非常强的信心,一年之内就可以看到开源的小模型能够做到这一点,同时能更好的满足用户对于数据的要求,因为你数据不用出我们的服务,就能做到端到端的合规。」
从「算算分离、存存分离、存算分离」的 TiDB Serverless 架构,再到小模型的选择,PingCap 做出了实践其 AI 时代数据库服务商转型的重要一步。当数据量成倍增长时,「服务化+数据库」的逻辑,显然已经成为数据平台们的共识。
*头图来源:视觉中国
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
从「用爱发电」到可持续的商业化探索,B 站 UP 主创作的心路历程如何?广告主的投放逻辑、需求又有哪些变化?
7 月 19 日(周三)20 点,极客公园「开始连接」直播间将邀请到塔宸广告VP兼联合创始人 Kimi、追觅科技中国区副总经理郭人杰以及 B 站科技区 UP 主大康评测,一起聊聊 B 站发力商业化,生态背后那些不得不说的故事。
好了,关于AI 时代,这家公司想做一个免费数据库就讲到这。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。