当前位置:趣投网 > 数码产品 > 正文

数据库技术 数据库底层技术:正经历50年未有之大变局

导语:几千年前,数字被用来计算羊的数量,几何图形被用来测量田地和绘制道路。这是人类漫长的历史上第一次出现数字。如今,过去分散的自然图形在信息时代逐渐演变成一个庞大而无处不在的数据库。无论是电子商务、游戏、社交网络等互联网行业,还是通信、交通、金融等传统行业,现代社会的商业经济活动都离不开数据库。数据库不是一个新兴的

几千年前,数字被用来计算羊的数量,几何图形被用来测量田地和绘制道路。这是人类漫长的历史上第一次出现数字。

如今,过去分散的自然图形在信息时代逐渐演变成一个庞大而无处不在的数据库。无论是电子商务、游戏、社交网络等互联网行业,还是通信、交通、金融等传统行业,现代社会的商业经济活动都离不开数据库。

数据库不是一个新兴的行业,它起源于20世纪60年代,但长期以来,这个行业几乎是在传统数据库制定的游戏规则下发展的。直到现在,这条坚不可摧的防线已经逐渐被撕裂。

6月8日,蚂蚁集团宣布将独立运营自主开发的数据库产品OceanBase,并成立蚂蚁100%控股的数据库公司北京奥星贝思科技,由蚂蚁集团CEO胡小明亲自担任董事长。此举标志着明星技术产品Ant走上了大规模商业化的轨道,也推动了国内自主开发的顶级技术分布式数据库进入新的发展阶段。

不到一个月前的5月21日,数据库领域最权威的榜单TPC-C发布了最新结果。支付宝海洋基地(Alipay OceanBase)仅用7个月时间就打破了去年自己创造的世界纪录,并将榜单的表现得分从1000万提高到1亿,达到7.07亿tpmC。

传统数据库似乎立于不败之地,面临着一定的冲击。支付宝正在打开技术变革的大门。

在过去的50年里,传统的数据库已经逐渐从神坛上走下来

五六十年代,IT行业落后于软件和算法。当时,大多数技术创新都是硬件驱动的软件。

当时计算机从晶体管时代进入集成电路时代,计算能力和存储容量都有很大提高。计算机也逐渐从军事领域进入中小企业,最基本的目的就是做数据管理。

遗憾的是,传统的文件系统在面对复杂数据时资源不足,主要是由于数据共享性差,无法描述数据之间的关系。为了解决这个问题,数据库被提出作为“新物种”。

1970年,关系数据库之父、IBM研究员E.F.Codd发表了题为《大型共享数据库的数据关系模型》的论文,首次提出了关系模型的概念,成为现代数据库产品的主流。今天,我们看到的几乎所有主流数据库都集中在这个模型上。

1978年,仍在为中央情报局做数据项目的拉里·埃里森,率先嗅到了关系数据库的商机。几个月后,甲骨文1.0诞生了。虽然这个产品没有提供太多的功能,只能完成简单的关系查询,但正是这样一个不成熟的产品,让数据库行业正式进入了大导航时代。

当时甲骨文1.0拿下了两大订单,分别是中情局和海军情报研究所。在政府机构的背书下,埃里森的公司声名鹊起,顿时一大批国际商业巨头纷纷寻求与埃里森的合作。

此后,硅谷科技公司纷纷推出自己的数据库产品。关系数据库的支持者IBM在1983年推出了第一个商业数据库。六年后,软件巨头微软姗姗来迟,推出了第一个商业数据库SQL服务器。

这个世界为了利益而熙熙攘攘。对于企业场景,商业数据库和操作系统一样是重要的软件,由于技术门槛高,价格极其昂贵。按照当时的价格,传统数据库的价格从几十万到几百万不等。在商业数据库市场,只有Oracle、SQL Server和IBM DB2的市场份额超过80%,所以传统数据库赚了不少钱。

2018年12月,甲骨文在2018年世界500强品牌中排名第31位,埃里森本人以661亿美元的净资产位列世界富豪榜第7位。

然而,数据库行业并没有停止前进。互联网时代的高价格和对数据库截然不同的需求加速了数据库行业的转型,愿意为传统数据库买单的企业越来越少。

因此,在数据库领域出现了一股新的力量,如开源数据库、分布式数据库等。这些新技术的诞生正在一步步挤压传统数据库的市场。据第三方机构称,到2021年,传统数据库市场将下降20%至30%。

分布式数据库成为不可逆转的趋势

阿里巴巴是最早面临互联网规模挑战的企业之一。

2009年,阿里巴巴的Oracle RAC集群节点数量达到创纪录的20个。虽然当时已经是亚洲最大的Oracle数据集群,但还是解决不了当时的流量压力。

由于传统架构可以获得数千万的并发处理能力和PB级的数据库管理能力,而且系统可以在一天内扩展100次,并在高峰营业时间后立即发布,因此获得这样的性能需要巨大的成本,因为传统的数据库集群很难横向扩展,最多只有几十个节点,很难实现性能的线性增长。

为了解决日益增加的流量压力,阿里巴巴决定用分布式架构取代传统的“IOE”架构,分布式数据库OceanBase取代了传统数据库。

从当时的数据库行业来看,团队面临两个选择-

第一,基于开源数据库开发,优点是开发周期短,但开源数据库的性能瓶颈依然存在;

另一种方式是走完全自学的道路,难度大,周期长,但更有想象力,可以在表现上取得更大的突破。

作为OceanBase的创始人,杨振坤的态度非常坚定。他认为单机数据库已经走到尽头,下一步必须分布式。当时的团队成员大多研究分布式起源,做自己最擅长的事情。团队应该开发一个新的分布式数据库。杨振坤坚信:“这是千载难逢的机会,我们一定要做到,一定要做到。”

2010年,项目正式启动,团队编写了OceanBase第一行代码。

高科技的自主研究之路一直荆棘丛生,整个分布式数据库领域的成功案例并不多。团队就像在黑暗中行走,没有任何模仿对象。很少有人敢相信团队能完成完全取代Oracle数据库的使命。

但出乎所有人意料的是,这支队伍仅仅用了一年时间就跨过了死亡之谷。

2011年,海洋基地迎来了第一个客户——淘宝收藏夹。当时淘宝收藏夹正处于业务快速发展时期,数据库访问量增长迅速,而OceanBase则在第一场战役中脱颖而出,将淘宝收藏增加的服务器数量减少了一个数量级。

在接下来的几年里,海洋基地一路运行-

在2014年的双11中,OceanBase支持了十分之一的交易流量;

2015年,支付宝交易库和支付库被OceanBase取代;;

2016年,支付宝的会计系统上线,也标志着OceanBase真正站在了金融体系的核心和最关键的领域;

2017年,OceanBase开始走出支付宝和蚂蚁金服,在商业银行推广使用。目前已在数十家商业银行投入运营。

如今,分布式数据库跨越了上一代数据库的技术差距,不仅可以通过扩展集群大大提高扩展能力,还可以充分保证业务场景的一致性,实现整体性能的一个数量级提升。

在这次TPC-C测试中,OceanBase也向全世界展示了分布式数据库的威力。拥有1500多个数据库节点,5000多万个仓库和相应数量的客户端,连续8小时以上的压力测试,OceanBase在数据库领域取得了新的成就。

OceanBase的成功也为各个行业的企业带来了更多的选择。近几年来,企业数据库选择的天平逐渐向分布式数据库倾斜。由于分布式数据库在性能和价格上的优势,在过去的十年里,银行的IT架构已经从大型机时代的集中式架构转向了UNIX小型机,现在完全拥抱了分布式存储和数据库技术。

作为中国第一个拥有独立产权的分布式数据库,海洋基地服务于中国建设银行、南京银行、Xi银行、PICC健康保险、苏州银行、广东农信、网商银行等多家商业银行和保险机构。

据了解,独立后的新公司今年将发布重大版本升级,在原有功能的基础上增加分析业务处理能力,OceanBase将升级为支持HTAP混合负载的企业级分布式数据库。海洋基地还宣布,它将在未来三年内为全球10,000多家企业客户提供服务

分布式数据库是未来

为什么OceanBase选择分布式数据库的方向,为什么机构越来越多地选择使用分布式数据库?分布式数据库与传统数据库相比有什么优势?

我们知道,传统的关系数据库,由二维表及其连接组成,实际上是一个数据组织。关系数据库的优点是:

关系模型比网络、层次等其他模型更容易理解。

易于使用,使用SQL,可用于复杂查询;

统一使用关系模型可以降低数据冗余和数据不一致的概率,更容易维护。

但是,它的缺点也很明显。当用户集中查询时,传统的关系数据库查询请求压力很大;而且很难横向缩放。通过添加硬件和服务节点来扩展性能并不容易。升级和扩展数据库系统是一个难题。特别是在处理大规模、高并发的微博、微信、社交媒体数据时,传统的关系数据库显得力不从心。

过去为了应对这些困难,大多采用非关系数据库的路线,不需要提前定义数据模式和表结构。插入数据时,不需要预先定义它们的模式,系统运行时可以动态添加或删除节点。

OceanBase仍然是一个关系数据库,但与Oracle不同,它是一个分布式架构数据库。OceanBase的突破在于采用了新一代的分布式设计技术,可以在线扩展、收缩、迁移、平衡负载,通过分布式扩展集群大大提高扩展能力。整个集群可以部署在不同的地方,跨城市。

这样就颠覆了传统的数据库集中处理技术架构。OceanBase还通过分布式选举技术和事务技术来确保业务场景的一致性并提高性能。目前OceanBase集群的节点数已经超过1500个,是世界上唯一超过1000个节点并通过TPC-C测试的数据库。

在最新的TPC-C基准测试中,OceanBase的业绩得分超过1亿,达到7.07亿tpmC,这意味着每分钟创造7.07亿新订单,比去年10月的6088万tpmC高出近12倍。这背后是分布式技术架构的影响。

分布式体系结构存在稳定性问题。随着机器和节点的增加,可用率会降低。如何解决这个问题,OceanBase采用了多次备份的方法,同时备份每个数据的三个副本,存储在三个不同的机器上。如果电脑故障的概率是千分之一,那么两个同时故障的概率可能是百万分之一,三个同时故障的概率是十亿分之一。这保证了分布式系统的稳定性。

可以很好的解决性能问题,保持良好的稳定性。这样的分布式数据库,必然是行业的未来,不难理解它能被很多银行级客户认可。

标签

在过去的几十年里,信息技术产业经历了许多技术革命,每一次技术浪潮都是新旧力量的交替。技术进步永无止境,数据库未来将朝着更稳定、更灵敏、更友好的方向发展。目前,传统数据库仍然占据主要份额,但在未来,更多的份额将被分布式数据库侵蚀。

当然,分布式数据库的发展不是一蹴而就的。开拓市场,一方面要在产品和技术上不断突破,在实际应用中证明自己;另一方面,我们也需要一个教育市场的过程。

免责申明:以上内容属作者个人观点,版权归原作者所有,不代表趣投网立场!登载此文只为提供信息参考,并不用于任何商业目的。如有侵权或内容不符,请联系我们处理,谢谢合作!
当前文章地址:https://www.qthbsb.com/shuma/639001.html 感谢你把文章分享给有需要的朋友!
上一篇:1月汽车销量排行榜 5月国内乘用车销量排行榜:大众稳居第一 自主老大力压日系三杰 下一篇: 急性心梗 著名演员因它而猝死:年仅38岁!每分钟害死一人