大數(shù)據(jù)項目往往涉及多系統(tǒng)間的對接與配合,不同來源數(shù)據(jù)的質(zhì)量將直接影響到系統(tǒng)的統(tǒng)計分析結論是否正確。但由于缺乏全面的數(shù)據(jù)管理機制、各系統(tǒng)的數(shù)據(jù)產(chǎn)生方式及生產(chǎn)年代不同、缺乏統(tǒng)一的數(shù)據(jù)標準等原因,往往無法主動輸出高質(zhì)量的數(shù)據(jù),這為數(shù)據(jù)治理工作帶來了許多難題。
對此,美創(chuàng)科技從建立數(shù)據(jù)質(zhì)量管理體系、優(yōu)化工作流、產(chǎn)品部署落地以及建立數(shù)據(jù)質(zhì)量閉環(huán)管理機制等方面入手,形成了一套靈活、可靠的數(shù)據(jù)質(zhì)控解決方案。
本文將從數(shù)據(jù)質(zhì)量問題的來源入手,詳細介紹美創(chuàng)數(shù)據(jù)質(zhì)控解決方案
數(shù)據(jù)質(zhì)量問題的來源
為了解中國企業(yè)數(shù)字化轉(zhuǎn)型現(xiàn)狀、趨勢和挑戰(zhàn),德勤曾做了一次145家企業(yè)(其中國企占77%)參與的在線問卷調(diào)查。調(diào)查結果顯示:有六成企業(yè)認為,在數(shù)字化轉(zhuǎn)型過程當中,主要面臨的挑戰(zhàn)集中在,原有多個信息化系統(tǒng)的整合、數(shù)據(jù)質(zhì)量和可用性、缺乏統(tǒng)一的數(shù)字化轉(zhuǎn)型愿景和目標這三個方面。
顯然,數(shù)據(jù)質(zhì)量對于多數(shù)政企機構來說是個棘手問題,因為質(zhì)量差的數(shù)據(jù)可能包含錯誤的、誤導性的、不真實的或不完整的信息,利用這些數(shù)據(jù)做分析可能會導致經(jīng)營決策的失敗、產(chǎn)品功能的失效、工藝技術的錯誤、營銷方式的差異等后果,直接影響數(shù)字化轉(zhuǎn)型進程。
找準根源才能解決問題,那么數(shù)據(jù)質(zhì)量問題的來源是什么呢?
首先,數(shù)據(jù)質(zhì)量問題的來源可能產(chǎn)生于數(shù)據(jù)源頭到數(shù)據(jù)存儲介質(zhì)的各個環(huán)節(jié)。
在信息化建設初期,各類業(yè)務系統(tǒng)恣意生長,一些大型機構甚至有上百套的業(yè)務系統(tǒng)。這些業(yè)務系統(tǒng)在不同時期由不同的團隊開發(fā),技術水平參差不齊,缺乏統(tǒng)一的數(shù)據(jù)標準,數(shù)據(jù)特征各不相同。而當機構有了新的業(yè)務需求、重大的技術變更、或者需要在不同業(yè)務間交叉使用數(shù)據(jù)時,數(shù)據(jù)的加工和存儲過程可能會對原始數(shù)據(jù)做修改,從而可能引發(fā)數(shù)據(jù)的質(zhì)量問題。
其次,隨著業(yè)務發(fā)展,數(shù)據(jù)也在增量積累。數(shù)據(jù)類型、數(shù)據(jù)來源的不斷豐富以及數(shù)據(jù)量的快速增長,使機構在數(shù)據(jù)管理和數(shù)據(jù)流程中面臨越來越多的數(shù)據(jù)質(zhì)量問題。
比如為了更好的利用數(shù)據(jù)進行分析和決策,需要按照統(tǒng)一的標準和架構把不同系統(tǒng)中的各類數(shù)據(jù)集成起來,但不同系統(tǒng)中,業(yè)務領域的關鍵指標不一致,數(shù)據(jù)無法共享導致數(shù)據(jù)孤島,大量數(shù)據(jù)無法關聯(lián),產(chǎn)生明顯的數(shù)據(jù)冗余等問題。
或者有許多業(yè)務系統(tǒng)存在濫用縮寫詞、慣用語、數(shù)據(jù)輸入錯誤、重復記錄、丟失值、拼寫變化、使用不同的計量單位等情況,產(chǎn)生了大量的“臟數(shù)據(jù)”,這些“臟數(shù)據(jù)”對實際業(yè)務毫無意義,長期輸入導致了系統(tǒng)的統(tǒng)計分析不準確,難以支撐管理者做出正確的決策。
再次,由于許多機構缺乏數(shù)據(jù)質(zhì)量的意識,沒有明確的數(shù)據(jù)質(zhì)量目標,缺乏全面、快速的管理機制及人員認責機制等原因,也會引發(fā)大量的數(shù)據(jù)質(zhì)量問題。特別是在系統(tǒng)建設或數(shù)據(jù)產(chǎn)生的源頭忽視數(shù)據(jù)質(zhì)量問題,將導致基礎數(shù)據(jù)薄弱,后期數(shù)據(jù)清洗成本大、治理效果差。
總的來說,技術、流程、管理等多方面的因素都有可能會影響到數(shù)據(jù)質(zhì)量,常見原因可以歸納為以下3類:

面對上述問題和痛點,通過靈活、可靠的數(shù)據(jù)質(zhì)量管理可以為機構提供潔凈、結構清晰的數(shù)據(jù),是開發(fā)業(yè)務系統(tǒng)、提供數(shù)據(jù)服務、發(fā)揮數(shù)據(jù)價值的必要前提,也是數(shù)據(jù)資產(chǎn)管理的前提。
數(shù)據(jù)質(zhì)量管理涉及數(shù)據(jù)標準的制定、規(guī)范的落地、生命周期的管理等多個環(huán)節(jié),傳統(tǒng)的方法需要投入大量的人員、時間、軟硬件成本,成本相對較高。從收益上來說,數(shù)據(jù)質(zhì)量管理項目不像數(shù)據(jù)分析等項目,短期內(nèi)的效益和結果并不是十分明顯,這也導致了以往的數(shù)據(jù)質(zhì)量管理常常被邊緣化。
如今,越來越多的政府與企業(yè)在利用數(shù)字技術提高內(nèi)部管理效率、降低成本、增加洞察力和競爭力,而數(shù)字化轉(zhuǎn)型的關鍵之一是內(nèi)外部數(shù)據(jù)的融合創(chuàng)新,當多個信息化系統(tǒng)的整合、數(shù)據(jù)的集成融合需求愈加迫切,需要管理的數(shù)據(jù)量越來越龐大時,數(shù)據(jù)質(zhì)量管理就變得十分迫切且重要。
美創(chuàng)數(shù)據(jù)質(zhì)量管理體系
數(shù)據(jù)質(zhì)量管理是一個持續(xù)改進的過程,具體包括定義業(yè)務需求及相關業(yè)務規(guī)則、確定數(shù)據(jù)質(zhì)量指標、數(shù)據(jù)質(zhì)量核驗、質(zhì)量問題告警、質(zhì)量問題分析,以及數(shù)據(jù)標準化、清洗和整合、問題跟蹤等工作。
為了系統(tǒng)性、持續(xù)有效的幫助客戶進行數(shù)據(jù)質(zhì)量提升,美創(chuàng)科技設計了整套的數(shù)據(jù)質(zhì)量管理體系,主要包括數(shù)據(jù)質(zhì)量定量評估體系、數(shù)據(jù)質(zhì)控流程及工具、數(shù)據(jù)質(zhì)量閉環(huán)管理機制三大部分。
01
數(shù)據(jù)質(zhì)量定量評估體系
任何改善都需要建立在評估的基礎上“對癥下藥”。數(shù)據(jù)質(zhì)量反映的是數(shù)據(jù)的“適用性”,即數(shù)據(jù)滿足使用需要的合適程度,對于合適程度通常需通過多種維度進行衡量,目前,較為通用的維度是:完整性、唯一性、一致性、有效性、規(guī)范性和及時性。

評估指標
完整性:指數(shù)據(jù)信息是否完整,是否存在缺失情況。包括模型設計的不完整(例如唯一性約束不完整、參照不完整)、數(shù)據(jù)條目的不完整(例如數(shù)據(jù)記錄丟失或不可用)、數(shù)據(jù)屬性的不完整(例如數(shù)據(jù)屬性空值)。缺乏完整性是數(shù)據(jù)質(zhì)量問題最為基礎和常見的一類問題。
規(guī)范性:指記錄是否符合規(guī)范,是否按照規(guī)定的格式存儲(例如標準編碼規(guī)則)。數(shù)據(jù)規(guī)范性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復雜的一塊,主要是檢驗數(shù)據(jù)和數(shù)據(jù)定義是否一致。
唯一性:用于識別和度量重復數(shù)據(jù)、冗余數(shù)據(jù)。重復數(shù)據(jù)是導致業(yè)務無法協(xié)同、流程無法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)問題。
一致性:指多源數(shù)據(jù)的數(shù)據(jù)模型不一致和數(shù)據(jù)實體不一致。相同的數(shù)據(jù)有多個副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突的問題。數(shù)據(jù)集內(nèi)與數(shù)據(jù)集之間的數(shù)據(jù)不一致問題。
及時性:指能否在需要的時候獲到數(shù)據(jù),數(shù)據(jù)的及時性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關系,是影響業(yè)務處理和管理效率的關鍵指標。
有效性:指數(shù)據(jù)是否遵循預定的語法規(guī)則、是否符合其定義,比如數(shù)據(jù)的類型、格式、取值范圍等。
選定維度后,如何量化指標是實現(xiàn)數(shù)據(jù)質(zhì)量評估的關鍵步驟。美創(chuàng)從數(shù)據(jù)屬性業(yè)務規(guī)則(如字段)、數(shù)據(jù)實體業(yè)務規(guī)則(如庫、表)、企業(yè)特定業(yè)務規(guī)則(如行業(yè)規(guī)范)三個層面,幫助客戶快速創(chuàng)建或提供“開箱即用”的數(shù)據(jù)質(zhì)控規(guī)則,將數(shù)據(jù)評估維度與業(yè)務流程對應,建立數(shù)據(jù)質(zhì)量評價指標,同時根據(jù)具體業(yè)務場景調(diào)整評價體系中各維度的權重,最終以量化形式實現(xiàn)數(shù)據(jù)質(zhì)量評估。
最后需要強調(diào)的是,為了保持指標的有效性,指標定義的過程不能在數(shù)據(jù)質(zhì)控的最后階段才進行,而是在數(shù)據(jù)質(zhì)量戰(zhàn)略/設計和規(guī)劃階段就要開始,以便能在組織中實現(xiàn)。
02
數(shù)據(jù)質(zhì)控流程及工具
數(shù)據(jù)質(zhì)控流程包括從界定數(shù)據(jù)質(zhì)控的對象和范圍出發(fā),到確定數(shù)據(jù)質(zhì)量評價指標,內(nèi)置產(chǎn)品生成數(shù)據(jù)質(zhì)量評價模型,再到選定數(shù)據(jù)集和部署實施,生成數(shù)據(jù)質(zhì)量報告、提出改善建議的全過程。
美創(chuàng)通過高效的數(shù)據(jù)質(zhì)量管理工具——數(shù)據(jù)質(zhì)控平臺,將數(shù)據(jù)質(zhì)量管理全工作流串聯(lián),提供標準定義、規(guī)則配置、模型管理、異常數(shù)據(jù)統(tǒng)計、質(zhì)量分析、質(zhì)量報告、運行監(jiān)控、系統(tǒng)管理等功能,幫助客戶實現(xiàn)更快、更有效的數(shù)據(jù)質(zhì)量管理。

`數(shù)據(jù)質(zhì)控流程`
Step1:界定對象和范圍
一般來說,數(shù)據(jù)質(zhì)控主要針對兩類數(shù)據(jù):一類是操作型數(shù)據(jù),例如主數(shù)據(jù)、參照數(shù)據(jù)和交易數(shù)據(jù);另一類是分析型數(shù)據(jù),例如主題數(shù)據(jù)和指標數(shù)據(jù)。
我們可以通過兩種方式界定數(shù)據(jù)質(zhì)控的對象和范圍:一是根據(jù)業(yè)務部門的需求來界定;二是可以基于元數(shù)據(jù)、血緣關系等進行量化分析,以框定數(shù)據(jù)質(zhì)控的實施范圍。
Step2:數(shù)據(jù)評估及指標量化
在設計數(shù)據(jù)質(zhì)量評價指標前,對數(shù)據(jù)的評估很關鍵。我們采用兩種方法進行數(shù)據(jù)評估——自底而上或自頂而下:
對已有數(shù)據(jù)質(zhì)量問題進行自下而上的評估,包括對數(shù)據(jù)集的檢查和評價。方法基于自動流程的處理結果,強調(diào)潛在問題,包括出現(xiàn)率分析、重復性分析、跨數(shù)據(jù)集的依賴關系、“孤兒”數(shù)據(jù)幾率和冗余分析;
而自頂而下的數(shù)據(jù)質(zhì)量評估需要理解業(yè)務流程如何使用數(shù)據(jù),以及哪些數(shù)據(jù)元素對于業(yè)務應用的成功至關重要。通過評審報告、記錄和診斷的數(shù)據(jù)錯誤類型,評估與數(shù)據(jù)問題相關的業(yè)務影響。
完成評估后,結合實施需要選定指標,由美創(chuàng)數(shù)據(jù)與行業(yè)專家組協(xié)助各相關部門對不同的評價對象進行評價指標設計,確定每個指標的閾值和權重,量化數(shù)據(jù)質(zhì)量的測量維度。
Step3:數(shù)據(jù)質(zhì)量規(guī)則配置
在部署和使用產(chǎn)品進行數(shù)據(jù)質(zhì)量評估之前,需要先將指標內(nèi)置到產(chǎn)品中,構建數(shù)據(jù)質(zhì)量規(guī)則庫,形成數(shù)據(jù)質(zhì)量評價模型。
美創(chuàng)數(shù)據(jù)質(zhì)控平臺支持采用零編碼方式完成規(guī)則定義,通過可視化界面,普通用戶即可完成規(guī)則的增-刪-改-查,定義結果清晰易理解,需求變動和人員變動影響甚微。

`美創(chuàng)數(shù)據(jù)質(zhì)控平臺-規(guī)則管理`
平臺支持從數(shù)據(jù)字段的值、字段類型、字段長度三個維度配置質(zhì)控規(guī)則,支持質(zhì)控的級別和類型自定義。內(nèi)置指標調(diào)度功能還可以配置指標具體的執(zhí)行周期,支持單次執(zhí)行和周期執(zhí)行,同時也提供調(diào)度結果的查詢功能。
Step4:數(shù)據(jù)質(zhì)量稽核

`數(shù)據(jù)質(zhì)控平臺-數(shù)據(jù)質(zhì)量稽核邏輯`
平臺接入各業(yè)務系統(tǒng)數(shù)據(jù)庫完成作業(yè)配置后,自動進行數(shù)據(jù)抽取并執(zhí)行數(shù)據(jù)質(zhì)量評估任務。
采集引擎結合元數(shù)據(jù)管理負責對評估數(shù)據(jù)集進行數(shù)據(jù)抽取,數(shù)據(jù)按業(yè)務需求進入規(guī)則引擎后對數(shù)據(jù)進行質(zhì)量稽核,通過規(guī)則引擎將不合格的數(shù)據(jù)篩選出來,統(tǒng)計引擎負責計算每批處理的數(shù)據(jù)的合格率,及數(shù)據(jù)質(zhì)量評分等。監(jiān)控臺可實時查看數(shù)據(jù)整體抽取量以及合格數(shù)據(jù),展示項目的整體數(shù)據(jù)質(zhì)量情況和質(zhì)量分析趨勢圖。
`數(shù)據(jù)質(zhì)控平臺-任務信息`
Step5:異常數(shù)據(jù)統(tǒng)計
美創(chuàng)數(shù)據(jù)質(zhì)控平臺擁有包括質(zhì)量異常統(tǒng)計和數(shù)量異常統(tǒng)計兩大模塊。
質(zhì)量異常模塊展示各業(yè)務表單的數(shù)據(jù)總量和異常數(shù)據(jù)情況。數(shù)量異常模塊展示每天數(shù)據(jù)同步情況,包括數(shù)據(jù)總量、新增數(shù)據(jù)量、更新數(shù)據(jù)量、刪除數(shù)據(jù)量。同時平臺內(nèi)置問題告警和通知機制,進一步保證數(shù)據(jù)同步的及時性和準確性。
`美創(chuàng)數(shù)據(jù)質(zhì)控平臺-質(zhì)量問題清單(異常數(shù)據(jù)指沒有通過字段級別質(zhì)控規(guī)則的數(shù)據(jù))`
`美創(chuàng)數(shù)據(jù)質(zhì)控平臺-異常數(shù)據(jù)信息`
Step6:數(shù)據(jù)分析與數(shù)據(jù)質(zhì)量報告
美創(chuàng)數(shù)據(jù)質(zhì)控平臺提供了全面的數(shù)據(jù)分析機制,可提供多種問題分析能力,包括血緣分析,影響分析,全鏈分析,幫助用戶診斷問題的類型、快速定位問題產(chǎn)生的根源。
同時平臺內(nèi)置了豐富的統(tǒng)計報表圖表及多種質(zhì)檢結果主題,可以對單條數(shù)據(jù)的質(zhì)量進行打分評價,包括批次、指標、具體應用、具體報表的關鍵稽核信息等,以便用戶分析影響數(shù)據(jù)質(zhì)量的關鍵因素,進而采取有針對性的質(zhì)量改進措施。
通過運行數(shù)據(jù)質(zhì)量檢查作業(yè),可以定期或不定期的得到數(shù)據(jù)質(zhì)量評估報告,總結系統(tǒng)整體數(shù)據(jù)質(zhì)量、以及各層次、外圍系統(tǒng)供數(shù)等關鍵因素。
`美創(chuàng)數(shù)據(jù)質(zhì)控平臺-數(shù)據(jù)質(zhì)量評估報告-得分信息`
Step7:解決數(shù)據(jù)質(zhì)量問題
針對不同的數(shù)據(jù)質(zhì)量問題,美創(chuàng)提供了多種解決方案,比如系統(tǒng)改進建議、業(yè)務流程優(yōu)化建議(減少誤操作)、對歷史數(shù)據(jù)進行清洗和矯正等,致力于幫助客戶消除數(shù)據(jù)質(zhì)量問題或?qū)?shù)據(jù)質(zhì)量問題帶來的影響降低到最小。
數(shù)據(jù)質(zhì)量閉環(huán)管理機制
數(shù)據(jù)質(zhì)量閉環(huán)管理機制幫助客戶從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個方面建立相應的管理及認責機制,形成一種可持續(xù)運行的數(shù)據(jù)質(zhì)量管理機制。
① 問題定義與問題發(fā)現(xiàn)
將技術、業(yè)務、管理三者進行有機結合,從業(yè)務出發(fā)進行問題定義。基于美創(chuàng)數(shù)據(jù)質(zhì)控平臺,由產(chǎn)品自動、及時發(fā)現(xiàn)問題,通過郵件、短信等方式將問題及時通知到責任人。
② 問題整改
問題整改方面,建議對不同時期的數(shù)據(jù)分類、分優(yōu)先級進行處理,采用不同的處理方式做到事前預防、事中監(jiān)控、事后改善。
`數(shù)據(jù)質(zhì)量問題整改(簡版)`
對于歷史數(shù)據(jù)問題的處理,主要采用數(shù)據(jù)清洗的辦法來解決,清洗的過程要綜合使用各類數(shù)據(jù)源,提升歷史數(shù)據(jù)的質(zhì)量。對于當前數(shù)據(jù)問題的處理,需要通過上述一整套問題定義-效果跟蹤機制來解決。對于未來數(shù)據(jù)問題的處理,需要從信息化的角度出發(fā),重新規(guī)劃統(tǒng)一的數(shù)據(jù)架構,制定數(shù)據(jù)標準和數(shù)據(jù)模型,規(guī)范數(shù)據(jù)定義,在數(shù)據(jù)流轉(zhuǎn)過程中建立監(jiān)控數(shù)據(jù)轉(zhuǎn)換質(zhì)量的流程和體系,在哪發(fā)現(xiàn)問題就在哪解決問題,不把問題數(shù)據(jù)帶到后端。
③ 問題跟蹤與效果評估
基于美創(chuàng)數(shù)據(jù)質(zhì)控平臺,跟蹤問題整改進度,結合質(zhì)量問題解決共享機制,建立知識庫,考核評價,執(zhí)行獎懲,做為輔助手段。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的一個重要組成部分,美創(chuàng)擁有覆蓋數(shù)據(jù)治理全過程的產(chǎn)品和解決方案,我們的目標一方面是幫助客戶主動發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,降低對數(shù)據(jù)分析應用的影響,增加業(yè)務使用數(shù)據(jù)的可信度,同時減少資源投入;另一方面是通過高效、靈活的數(shù)據(jù)治理和數(shù)據(jù)管理手段,從采集到交付各階段持續(xù)控制和改進數(shù)據(jù)質(zhì)量,減少問題發(fā)生,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時性、一致性,最終幫助客戶實現(xiàn)在組織內(nèi)生產(chǎn)、供應和使用高質(zhì)量的數(shù)據(jù)。