圖片來源@視覺中國
文 | 鈦資本研究院
中國數據庫市場將迎來高增長態勢,原因有四點:首先是政策利好,國家大力支持國產數據庫廠商的發展;其次是需求拉動,國產化和數字化轉型帶動需求的爆發式增長;同時,供給端傳統、初創和跨界各類型廠商厚積薄發,產品和技術經歷了多年工程實踐的打磨走向成熟;此外,國內企業對基礎軟件的付費意愿和IT支出占比在逐年提升,有利于市場的長期發展。
可以預見的是:未來,中國數據庫多場景現狀與融合需求長期并存,云數據庫(包括公有、非公有各種形式)成為主流;開源成為產業互聯網時代數據庫廠商的破局之刃;人工智能延伸DBA的能力半徑,優化數據庫性能,是數據庫下一步發展的目標。
數據庫市場現狀如何?未來有什么發展趨勢?在哪些細分方向值得投資?最近,鈦資本投研社邀請南虹資本VP董宇進行分享,他主要負責南虹資本數字化、新材料、新能源方向,擁有復旦大學本科、碩士學位。南虹資本由市場團隊和國有公司共同發起成立,是集科創投資、資產管理于一體的綜合平臺,聚焦于先進技術與產業升級的科技創新投資領域。本次分享主持人是鈦資本董事總經理王勇,以下為分享實錄:
行業背景
數據庫是按照一定數據模型和組織形成的,具有冗余度小、獨立性高和拓展性強的特點。數據庫全稱為數據庫管理系統(DBMS),正如其名,它是負責維護數據庫底層的管理系統,而負責維護管理系統的人則被稱為DBA。數據庫管理系統由線程和內存池組成,如果客戶要看數據庫中的數據,它會通過實例(Instance)來實現,而不是直接讀取硬盤上的文件。數據庫系統之上還有一層應用系統,就是我們平??吹降慕换ソ缑?,平常用戶在這個界面上進行操作,給數據庫發動一個指令,數據庫系統就會把實例發放給數據庫進行讀取工作,再經過一系列后臺分析,將數據提取到用戶面前。
根據統計,數據庫全球市場規模大概在八百億美元左右。比較突出的是,數據庫在全球范圍內市場集中度非常高,近五年內全球top5企業常年占市場份額的80%以上,而位列top3的微軟、甲骨文和亞馬遜常年占比更是達到70%左右。
整個數據庫行業的產業鏈上游主要是硬件廠商,比如國內的中興和華為。中游分為DB(數據庫底層開發商)、數據庫DBMS(管理系統開發商),以及為他們配套實施服務的服務商。下游分為應用開發商和行業用戶。整個數據庫行業有多種參與方式,比如華為同時參與了上游的硬件,又開發推出了中游的華為云數據庫DBMS系統。
發展趨勢
數據庫誕生于20世紀60年代,經歷近十年蝶變,到了70年代,IBM提出了商用的關系型數據庫,此后,這種商用數據庫經過包括Honeywell、IBM、微軟等主流廠商的迭代更新,逐漸推廣于市場。隨著數據化趨勢的發展和大數據時代的到來,數據庫逐漸從燈光邊緣來到舞臺中心,成為了大數據時代最為重要的基礎設施之一。自商業化后,長期以來,商用關系型數據庫始終處于本地化部署階段,直到2010年以后,數據庫逐漸發展出了以下三大新趨勢:第一,數據庫的多元化。隨著人們的需求逐漸多元化,一些非關系型的數據庫得到了蓬勃發展,可以適應更多應用場景。第二,數據庫上“云”。隨著云技術、通訊和網絡技術的大發展,數據庫逐漸從本地部署向云上轉化。第三,數據庫的開源。最早的數據庫是以閉源為主,后來逐漸有更多開源的數據庫入場。
第一個發展趨勢是數據庫的多元化。當下,關系型數據庫仍然是市場主流。什么是關系型數據庫?最常見的就是我們常用的excel,非常直觀地用二維的行列來排布數據。非關系型數據庫即儲存形式不是二維結構的數據庫,從實時性來看,數據庫還分為兩類:一個是事務性的數據庫,特點是要求有互動行為,對于響應的時間要求比較高;另一種是非事務性數據庫,單純把這些數據儲存在里面,后續再進行分析。
關系數據庫中的數據,彼此之間的關系一目了然,理解起來輕而易舉。由于它的儲存性能比較好,所以有易于維護、便于理解、使用方便等優點。但它有幾點問題:一點數據庫的靈活性較差,數據只能以規定的形式來填取,一旦一個數據庫成型之后,想更改它的形式非常困難;二是它的數據儲存方式非常講究數據關系,對海量數據的處理非常不友好。
隨著數據行業的大發展,數據要求的應用場景越來越多,出現了不以二維結構而是其他一些關系來儲存數據的數據庫,這些統稱為非關系型數據庫。它們的特點是格式靈活。由于不通過關系處理數據,所以它的響應速度和性能比較優秀。
但是非關系型數據庫也有一些問題:第一,它的邏輯比較難,比如圖數據庫就是以圖形或者網絡作為儲存的結構,以網絡結構勾結起數據之間的關系,在理解和學習上需要投入較高成本;第二,不適合進行復雜操作,由于不是通過強關系性來儲存,在調取復雜查詢的時候,需要從一個表跳到另外一個表,再跳到后一個,以此類推,效率比關系型數據庫要低。
常見的非關系型數據庫包括鍵值數據庫、文檔型數據庫、時序數據庫和圖數據庫。
以Redis鍵值數據庫為例,經典應用場景是微博上的發帖功能,因為微博是個超大規模應用,經常會出現高并發的狀態,所以適用鍵值數據庫。其他的數據庫也都有自己特定的應用場景。
關系型數據庫有一個比較權威的評價社區叫做“DB-Engines”。作為一種比較成熟的數據庫形式,關系型數據庫還衍生出了諸如分布式數據庫、云關系數據庫等分支形式。但該類數據庫近年發展面臨挑戰,在2022年8月受關注程度最高的前20個數據庫產品中,非關系型數據庫占了9個,相關技術更是發展迅速,正逐漸取得市場認可。
第二個發展趨勢是云數據庫。通常來說,傳統的本地數據庫是把數據庫以及DBMS這些軟件都部署在本地的服務器上。云數據庫就是把數據庫和大部分的DBMS管理軟件、總環管理系統放在了云端。它主要有兩種模式:一個就是通過虛擬機映象在云上獨立運行,數據庫實際上是一種比較常見的私有云形式;另外一種就是將數據庫的硬件系統和DBMS的大部分功能都交由云數據庫廠商來提供,而用戶只需獲得訪問權限,通過網絡去訪問數據庫的服務。隨著云計算技術以及通訊技術的發展,云數據庫已經步入了商業化進程。根據統計,本地數據庫每年的增長只有4%左右,而云數據庫每年的平均增長大概為16%。
據統計,截至2021年,全球本地化部署的和云數據庫系統的DBMS的收入情況方面,Oracle常年處于霸主地位,2019年之前一直保持第一。但繼2020年微軟憑借微軟云的增長奪走魁首之位后,2021年,亞馬遜也憑借亞馬遜云AWS超過Oracle躍居第二。國內有三個廠商進入排名榜單,分別是位列第7的阿里云和位列第9的華為云以及第12的騰訊云。傳統本地部署數據庫的占比排名都有所下滑,新興云數據庫廠商排名上升。這是云數據庫的大勢所趨。
為什么會有這樣的發展趨勢?因為本地部署的數據庫存在一些不足之處:最突出的一個缺點就是成本高。數據庫跟倉庫有一定的相通之處,用倉庫來打比方,本地化部署的數據庫其實相當于廠商租用倉庫的用地,這是一筆投入;還要在里面安裝各種的貨架、服務設施,這是初始投入;同時還需要為這樣的一個數據中心配備員工,為一些系統在使用的時候提供電力系統,整體來說初期投入很大、決策很重,而且后續的運營也需要持續投入,成本比較高。第二點是可靠性需要冗余,需要額外的部署儲存作為備用。第三點是擴容和迭代比較困難,數據庫本身是本地部署的數據庫,有硬件系統和軟件系統,硬件系統要擴容的話要買更多的服務器。另外一點就是因為老系統用著比較舒服,導致沒有那么強的動力去更新發展,導致在擴容和迭代方面比較困難。
相比之下,云數據庫就有不少優勢。它最大的特點是服務器硬件和維護服務是云數據庫廠商提供的,初始成本投入比較小,而且不需要提供太多的維護。由于冗余的備份都是由云數據庫廠商來提供服務,因此這一方面的成本又進一步下降。既能滿足需求又成本低,就逐漸產生了數據庫上云的大趨勢。但云數據庫也有的一些問題,其中最大的問題就是其成熟程度。本地化的數據庫,從商業化到現在經歷了近50年的發展,有大量的功能和代碼的豐富積累,功能比較完善,而云數據庫廠商由于業態、業務形式都比較新穎,因此它的工藝積累不如已經成熟的本地化部署方案。而且在升級和迭代方面,其系統的兼容性也不如本地化部署。
第三個發展趨勢是數據庫開源。首先,什么是閉源數據庫?大家所熟知的一些商業化數據都是閉源的,源代碼對于這些廠商來說屬于商業機密,不對客戶開放。開源數據庫正相反,其數據庫代碼向公眾開放。
它有幾個特點:第一,由于開源的授權費沒有商業化數據庫那么高,成本相對來說要低一些。第二,也是最重要的一點,它的源代碼完全公之于眾,客戶在使用的時候能夠清晰地看到里面數據的情況,對數據的流向、指令了如指掌,不用擔心數據庫里面是否存在“走后門”的情況,可以滿足自主化和信息安全的需求。第三,由于傳統的商業數據庫集中度比較高,對于用戶來說是比較強勢的一方,它本身不提供額外的定制化開發,僅由第三方服務商提供應用層面的二次開發;而開源數據庫不僅可以自行開發,還可以在DBMS代碼層面直接進行開發。
開源數據庫收費方式遵循開源數據庫的開源許可證,一般由一家公司來運營,以MySQL為例,它的代碼在一個開源平臺上面公布,由各個成員單位和成員進行定期維護。它的準則是,如通過開源的代碼二次開發的數據庫產品也是開源系統,就不用收費,反之則要收取一定的授權費用。
開源數據庫已經成為了數據庫行業發展的趨勢。DB-Engines在2022年統計過,發現開源數據庫的許可證數量在2021年反超了商業化閉源數據庫的許可證數量,并在2022年8月呈逐漸擴大態勢?,F在就數量來說,開源的數據庫比閉源的數據庫更多。
回到國內市場,我國數據庫市場也是以關系型數據庫為主,根據信通院的測算,2020年數據庫市場行業的整體規模大概是二百四十億,根據IDC的統計,2021年關系型數據庫大概有一百八十億,占比70%左右。但我國比較特殊的一個特點是上云的系統比本地化部署的系統要更多。
IDC對國內的數據庫市場份額進行的統計顯示,實際上,國內廠商如阿里、騰訊和華為在云數據庫市場合計占比已經超過了70%。就本地化部署模式來說,雖然Oracle還是占有最大的比例,但從2019年的數據來看,海外四大廠商的市場份額已經從原來的接近70%降到40%多,而國內的如華為的本地部署模式的數據庫的份額有一定程度的上升。
國內數據庫有幾個特點:第一,比較重視應用層面而輕數據庫,大部分的存量數據庫還是Oracle和IBM的數據庫,但是隨著“去IOE”積極推進,國有四大行的新構建的核心系統已經改為國產的數據庫。那么就出現一個問題,它們現有的數據庫還有相當比例的Oracle和IBM老數據庫,但新系統又是各種國產廠商的數據庫,為了統合原有的商業化數據庫和開源數據庫,只能在上層的應用層面來進行修改,這就形成了所謂的重應用和輕數據庫的模式。
第二,國產的數據庫大部分是關系型數據庫。國產數據庫有58%是基于MySQL這類開源的數據庫二次開發得來。事實上,國內數據庫的市場規模在全球的占比其實并不高,只有5%,但是國內數據庫的廠商數量在全球占比相當高,達32%,遠超過國內數據庫市場規模占比。這顯示出小數據庫廠商現在也處于蓬勃發展的狀態。
同時,國內的數據庫在云數據方面是私有云、公有云、混合云多種模式并存,未來是以組合形式為主。主要原因在于數據庫涉及到數據安全。政企、金融這類數據高度敏感的客戶有監管合規的要求,需要把那些數據庫部署在本地的服務器上面,而不是放在云服務器上面。除了混合云模式以外,還有把云模式以及本地部署的原有的數據庫打通,產生的一種組合形式。
問答
Q1:現在國內數據庫大廠也有開源的數據庫了,那么中小初創企業數據庫還有機會嗎?
A:在云數據庫方面,國內其實已經有幾個比較大的廠商了,但是需要指出的是,三大廠商現在的數據庫還是以關系型數據庫為主。全球大趨勢是關系型數據庫并不能夠滿足所有場景的各種需求,我認為隨著國家的數據化和信息化的進一步建設,必定會產生新的應用場景,需要國產數據庫提供比較好的持續性數據庫的服務。其次,國內現在正處于一個重應用而輕數據庫的階段,雖然國內現在的數據庫類別多元,但國內廠商普遍IT能力還不足。所以,他們需要第三方服務商來幫他們部署實施開發上層的應用程序管理系統,來打通不同的數據庫。這個第三方就是開源的數據庫,三大廠商的云數據庫系統并不能滿足所有的需求,肯定會有定制需求,也會有一些客戶想要一套相當于本地部署的二次開源的數據庫??偨Y來說,在非關系型數據庫上,國產還是有一定機遇的。
Q2:美國這幾年基于傳統的幾大勢力,新出來Snowflake,以及開源玩法Mongo DB這兩種,您覺得這對于中國來說有借鑒意義嗎?
A:Mongo DB兼具幾種屬性。第一,它是一個開源的數據庫。第二,它是一個非關系型技術數據庫。文檔型數據的應用場景實際上和傳統的數據庫有一定差異,國外的這些數據庫也在避開單純的關系型數據庫,跟傳統的商業化數據庫進行比拼。這其中有幾個思路,一個是做開源的系統,像MySQL其實就已經跑出來了,它是一個比較典型的情況。第二個就是像Mongo DB做非關系型數據庫,能夠得到更加有差異化的一些應用系統。另外一個非關系型數據庫怎么做,因為要上云系統,對于廠商的資質要求還是比較大的,所以能上云做公有云的玩家還是比較少的。舉個開源的例子,像MDB,有一個運營主體和社區,吸引大家來貢獻自己的代碼,但它也不是完全免費,而是基于二次開發、商業收授權費的模式,這一點對國內有一定的參考意義。
Q3:在數據庫的B端方面,您剛才提到了占比最高的是功能受限,請問具體原因和表現是什么?數據庫混合部署的云數據庫對于多類型的非關系容納性,解決方案是怎樣的?
A:功能受限的主要原因是因為這些云數據庫廠商,除了微軟以外,其實本身以前都沒有做數據庫。一些老數據庫在一些過程當中的代碼量遠遠超過新生的幾個數據庫,我覺得單純就是靠時間的積累造成的。以MySQL為例,雖然說從1996年就開始了,但是在當時,它的系統非常簡陋,功能也非常受限,而且穩定性也很差。MySQL是不斷迭代更新才得到了比較滿意的、有一定基礎功能的開源數據庫。這一點本身不是問題,隨著技術的進步、包括各個云服務廠商的數據積累,遲早會拿出解決方案。
Q4:目前國產化的進度如何?
A:實際上國內60%的關系型數據庫還是基于開源數據庫二次開發得來的。但據信創的要求,這種也算國產化,因為它的代碼是公開的,不會存在黑箱子的情況,全部代碼都能夠被國內掌控,所以認為是國產的也行。國產現在走得比較快,我覺得只要國內的數據庫應用市場能做大做強,是能培養出一個徹頭徹尾的、更好的國產產品的。
Q5:非關系型數據庫、時序數據庫、圖數據庫的融合是一個方向嗎?
A:有一個模式叫多模型數據庫,如果說一個數據庫融合既有時序型數據庫,也有圖數據庫,就稱為多模型數據庫,它支持不止一種數據庫,這也是現在發展方向之一。不過這一發展方向全球也有不少在做的企業,有些已經能把關系型數據庫也一起囊括進去,這樣同一個DBMS可以平行管理三套甚至更多的數據庫結構類型。這一點也是算是發展趨勢之一。只不過這也有一個替代的邏輯,就是不在DBMS這一層進行統一,也可以在應用層面進行統一,因為大家在做不同的數據邏輯接口的時候,還是會發現一些問題。這是一個重點的研發趨勢。
鈦資本研究院觀察
隨著信息化、數字化程度的加深,數據庫已經可以視為企業的一種重要的基礎設施。技術的進步和發展,令數據庫呈現如下的趨勢:結合細分場景的多樣發展是必然選擇,用戶簡單化需求驅動的一體化融合也不容忽視;DBaaS解決彈性伸縮問題,為供應商和企業提供更多的想象空間;湖倉一體,架構創新,同時實現海量大數據的聯機交易和聯機分析。此外,開源開源模式成為產業互聯網時代數據庫廠商的破局之刃,人工智能延伸DBA的能力半徑,優化數據庫性能。
從中國數據庫市場格局來看,多類型數據庫百花齊放,關系型占據絕對主流,NoSQL數據庫更多地基于開源模式,產生二開和服務的費用。未來,借助政策東風,國產廠商厚積薄發,市場版圖快速擴張。公有云數據庫增速放緩,仍有一定滲透空間。以NewSQL/NoSQL/SQL on Hadoop為典型路線的初創廠商不斷涌現,成為中國數據庫市場增長率最快的賽道,預計未來五年有10倍以上的成長空間。鈦資本將持續陪同行業領先者擴張、發展,不斷攀登商業高峰。
Oh! no
您是否確認要刪除該條評論嗎?