這篇文章出至我的前同事——90后美女程序員(龔菲)。關于元數據、元數據管理的文章有很多,但要說是最通俗易懂的還得是這一篇。
我將文章分為兩大部分,第一部分介紹元數據概念,第二部分從幾個方面說明元數據管理的應用,最后一部分總結一下元數據的重要性,僅代表我的一些個人觀點,還請各位前輩們不要見笑。
01 元數據什么鬼?
我入職的時候剛好趕上公司的元數據產品升級換代,同事們的研發氣氛正火熱,作為新入職菜鳥,總得先了解一下元數據概念,不然日后怎么和小伙伴們愉快地玩耍,于是查找國內外相關材料:
一段時間之后有了一些知識積累,才發現用“關于數據的數據”來給元數據下定義確實再準確不過了,但同時也略微抽象,新人難于快速理解,待到上周我們數據治理專家從心理學的角度來闡述元數據之后,我終于也算理解了元數據到底是個啥,今天也算是站在“巨人”的肩膀上,用一種更簡單的方式來回答“元數據究竟是什么”這個問題…
元數據是關于數據的描述,存儲著關于數據的信息,為人們更方便地檢索信息提供了幫助。咦?檢索信息?小蝌蚪找媽媽的過程也是一個檢索信息的過程,是不是看懂這個故事就能懂元數據是什么了?
池塘里有一群小蝌蚪,他們看見鯉魚媽媽在教小鯉魚捕食,就迎上去,問:“鯉魚阿姨,我們的媽媽在哪里?”
此時蝌蚪們意識到,不對啊,我們的數據庫里不是應該存在著一張Mother表嗎,但是蝌蚪們竟然對這張表一無所知,不知道有什么字段,也不知道各個字段對應的具體數值:
鯉魚媽媽說:“你們的媽媽有四條腿,寬嘴巴。你們到那邊去找吧!”
鱷魚笑著說:“你們的媽媽有兩只大眼睛,披著綠衣裳。你們到那邊去找吧!”…
烏龜笑著說:“我不是你們的媽媽,你們的媽媽肚皮是白的,到前面去找吧。”…
青蛙聽了“咯咯”地笑起來,說“唉!傻孩子,我就是你們的媽媽呀!”
整個過程可以看成是Mother這張表逐步完善的過程,數據來源分別是鯉魚媽媽、鱷魚媽媽和烏龜媽媽,如下圖所示:
對蝌蚪們最終獲取到的信息進行進一步抽象,就可以形成一種“元數據”,該元數據描述了Mother這張表的結構:
剛才不是說元數據能為檢索信息提供幫助嗎,那是不是也說明元數據能為小蝌蚪找媽媽提供幫助?我們將在第二部分試著對這個故事進行改編,詳細介紹小蝌蚪利用元數據快速找到媽媽的過程。
02 元數據管理的應用
通常一款元數據管理工具應具備元模型設計、元數據采集、元數據分析、數據地圖展現等核心功能,我們試著改編小蝌蚪找媽媽這個故事,在改編的過程中理解這幾個核心功能,前提是我們假設所有動物共同構成了一個龐大的數據體系,小蝌蚪們Mother的具體數據已經存在于此體系之中(鯉魚系統、鱷魚系統、烏龜系統)。
1、元模型設計
先解釋一下元模型。如果說元數據是對數據的描述,那么元模型就是對元數據的描述,是對元數據的進一步抽象,三者的關系如下圖所示:
再講一下元模型設計的過程。首先獲取到系統中的所有元數據,將這些元數據匯總并進行合理規劃,進一步抽象成元模型,從一定角度來說,可以把這個抽象的過程看成元模型設計的過程。
元模型定義了各種元數據的結構以及元數據之間的關系,是元數據管理的基礎,也就是說,如果我們想用元數據幫助小蝌蚪找媽媽,需要先設計出合理的元模型。下圖是我試著給它們設計出的元模型(對于企業來說,真正的元模型設計過程非常復雜,受多方面因素影響):
我們認為小蝌蚪的媽媽(Mother)由若干個屬性(Property)組成,每個屬性的名稱用Name表示,每個屬性的類型用Type表示。
現在元模型有了,下一步就是按照這個設計好的元模型采集小蝌蚪們需要的元數據信息,也就是我們常說的元數據采集。
2、元數據采集
設計好元模型之后,元數據管理工具能通過全自動的方式采集到企業所需要的元數據,在這個故事中,按照我設計好的元模型,元數據管理工具的元數據采集結果應該如下圖所示:
小蝌蚪們拿著這份元數據再去針對性地檢索關于媽媽的信息,就能一步到位,將目標直接鎖定到青蛙,整個故事將因元數據的出現而成功改寫。
說明:在真實的企業數據環境中,數據與元數據是已經存在于系統之中的,元數據管理就是根據企業現有的元數據設計出適合企業的元模型,然后將系統之中的元數據按照元模型集中匯總并關聯到一起,達到企業對數據統一管理與應用的目的。
3、元數據分析
a、血緣分析
假設動物園園長慢羊羊正管理著整個動物園的數據信息,有一天園長發現自己這里有個數據不對,需要找出錯誤數據的提供者并追究責任,那么這個錯誤數據來自于哪個動物家庭呢?挨家挨戶去敲門核對數據顯然不夠高效,元數據管理工具的血緣分析功能會自動幫助園長分析這個錯誤數據的上游路徑,比如這個數據是由鯉魚媽媽交給鱷魚媽媽,鱷魚媽媽再提交給園長的,那么此時園長只需要去敲鯉魚和鱷魚家的門就可以了。
b、影響分析
數據終于更正了,此時園長需要及時提醒大家這個數據的更正信息,只需要通知這個數據影響到的動物家庭就可以了,這讓園長十分苦惱,整個動物園的數據傳遞這么復雜,怎么判斷哪個家庭會受到這個數據的影響呢,元數據管理工具的影響分析功能會分析出這個數據的影響范并能用可視化的方式展現出來,園長只需要通知受影響的動物家庭就可以了。
c、數據地圖展現
隨著動物園規模的日益擴大,入住的動物種類日益增多,有一天園長想了解動物園的整體情況,有多少動物家庭,哪個家庭和哪個家庭比較要好,哪個家庭和哪個家庭又從來沒有聯系,此時元數據管理工具的數據地圖可以幫助園長獲取到他想要的信息,數據地圖展現功能可以通過可視化的方式,讓園長對整個動物園的情況了如指掌,幫助它更好地觀察整個動物園的情況。
03 元數據的重要性
在大數據時代的背景下,數據即資產,元數據實現了信息的描述和分類的格式化,從而為機器處理創造了可能,它能幫助企業更好地對數據資產進行管理,理清數據之間的關系。元數據管理是企業提升數據質量的基礎,也是企業數據治理中的關鍵環節。元數據管理不當,信息很容易被丟失,進而不能對業務進行有效支撐,企業內部業務人員要識別相關信息就會變得十分困難,最終用戶也將失去對數據的信任。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。