博客
大數據——數碼經濟的新石油
2022-07-06
傳統經濟學形容生產有三個基本要素,即土地、勞動力及資本,這些物理要素促進生產,推動經濟增長。工業革命後,知識、企業家精神等成為非物理生產要素。自上世紀末,互聯網闖進人類生活,現已有如電力、汽車般成為生活不能缺少的基本配置。當下的數碼經濟時代,越來越多人相信「得數據者得天下」,數據成為關鍵的生產要素,而大數據更被譽為21世紀數碼經濟的新石油。 所謂大數據(Big Data)並非只是形容數據的數量龐大,而是有特殊涵意的。在我們身處的年代,大部份人都有手機,攝像鏡頭和傳感器無處不在,無時無刻都在產生數據。這些數據有眾多不同形式,大部分屬非結構化,組織散亂。面對如此龐大的數據,傳統數據處理軟件根本無法應付,只好忽略這些數據。 隨着近十年的技術突破,儲存及運算成本已大減,處理巨量數據不再是複雜又昂貴的事。透過大數據技術,我們可觀察、研究及追蹤行為及事件,在分析及應用後掌握未來趨勢,作出更精準、更全面的決策。大數據產業正是這種以數據生成、採集、存儲、加工、分析、服務為主的新興產業。 大數據特徵:數量速度種類 面對來自不同源頭、海量的碎片化數據,大數據分析在初期集中解決數據的三大難題──龐大的數量、快速的產生及多樣化的格式,這亦是大數據的3V特徵:Volume(數量)、Velocity(速度)及Variety(種類)。大數據的數量已不能用Megabyte(MB, 兆字節)、Terabyte(TB, 太字節)形容,而是達到Exabyte(EB, 艾字節)及Zettabyte(ZB, 澤字節)的級數。我們每日上傳至雲端的檔案量以十億份計算,相片量則以億計算,這已不包括音頻、視頻及交易等。每天全球創造的數據量高達2.5EB(即100萬兆,10的18次方)。 根據數據機構Statista的報告,全球數據量增速由2010年2ZB(10的21次方)增長至2020年64.2ZB,複合年增長率41%。Statista預測到了2025年數據量更達到180ZB。除龐大外,數量增速亦非常驚人,由最初一組組的數據發展至實時發生的數據也包括在內。由於每分每秒都在產生量數據,過了數年的數據已用處不大。現時要求做到即時分析並立即回應,才能發揮數據的最大價值。 中國大數據產業五年增兩倍 種類方面更是包羅萬有,無論是人類製作的表格、報告、音頻、視頻以及互聯網的所有事物,甚至由人工智能自動生成的數據亦已出現。這些多樣化的數據既有結構化的,亦有非結構化,甚至半結構化的,要在數據之間進行交互分析及尋找關聯性,難度甚高。 大數據的發展一日千里,除了最基本的「3V」外,近年加入兩個公認的新「V」──Veracity(真實性)及Value(價值)。Veracity關心的是數據是否造假、即使真確但紀錄是否準確、數據有無異常值等問題。至於Value,着重的是可否將數據轉化為有價值的東西。海量的數據價值密度低,要通過強大的機器算法挖掘價值。 「5V」之後,出現了Variability(可變性)、Visualisation(可視化)、Viscosity(黏度)、Validity(有效性)等「V」,甚至出現「7V」、「8V」,最誇張的是「42V」。其實,這些「V」是隨着大數據發展引伸出的問題,新「V」便是解決這些問題的方向。面對繁多的「V」,中國推動大數據產業發展,便訂下以「容量大、類型多、速度快、精度準、價值高」的「5V」作為大數據的主要特徵。截至2020年,中國大數據產業規模超過1萬億元。到了2025 [...]