計算機資料管理論文
在網路環境下,計算機資料與日俱增,給企業帶來資料量的急劇上升的同時,也帶來了資料如何管理的問題。下面是小編給大家推薦的,希望大家喜歡!
篇一
《資料倉庫資料來源管理研究與實踐》
摘 要:論述資料倉庫系統資料來源管理的意義、物件、內容和方法,基於此,開發建設資料來源管理系統,並應用到對ERP系統業務資料的接入管理,取得預期的成效。
關鍵詞:資料倉庫 資料來源 資料來源管理
中圖分類號:TP392 文獻標識碼:A 文章編號:1007-39732013012-202-03
1 引言
資料倉庫Data Warehouse是所有DSSDecision Support System處理的基礎,是一個面向主題Subject Oriented的、整合的Integrated、相對穩定的Non-Volatile、反映歷史變化Time Variant的資料集合,用於支援管理決策。一般來說,資料倉庫應具有以下幾個方面的作用:1儲存企業級的基礎資料和共享資料;2為各業務應用系統提供共享資料;3為業務部門提供綜合資料查詢分析功能;4為企業管理層提供分析決策資訊。
資料倉庫系統的資料一般是通過資料來源從業務源系統中抽取,由此資料來源是資料獲取的首要環節和關鍵點,當面對眾多業務源系統,面對海量資料的抽取時,就迫切需要一套完整高效的方法和工具對資料來源進行管理,為資料倉庫系統資料的準確性、完整性和及時性提供支援。
2 資料來源管理概述
2.1 資料來源定義
資料來源是指業務源系統以下簡稱源系統中向資料倉庫提供業務資料的技術物件,資料倉庫系統通過資料來源來抽取源系統中的業務資料。在源系統中,資料來源可以是各種技術物件,如資料庫表、檢視、XML檔案、文字檔案或程式等。
相對應的,在資料倉庫系統中一般也有相應的技術物件對應於源系統中的資料來源,用於儲存業務源系統的資料。在源系統和資料倉庫系統之間存在著各種資料傳輸技術和工具,用來進行資料抽取和傳輸,比如各種專業化的資料抽取工具ETL、WebService技術、資料庫連線技術DB Connect等等。
2.2 資料來源管理意義
資料來源管理是資料倉庫資料管理的重要組成部分,更是資料接入管理的主要內容。資料來源管理的目標是:1確保資料倉庫系統能準確、完整和及時地接收到業務資料,防止因資料來源變更對資料倉庫資料造成的各種不良影響。2讓業務人員、資訊管理人員和技術人員等各級各類人員清楚地瞭解和知曉資料倉庫系統已接入了哪些業務資料,為業務人員與技術人員建立起溝通的橋樑。3減少因不瞭解資料倉庫系統資料而造成的資料重複接入、重複建設或利用不充分等現象,促進資料倉庫系統資料模型的完善提升和資料共享能力提高。
3 資料來源管理的物件、內容和方法
3.1 資料來源管理的物件
3.1.1 資料來源
資料來源涉及到資料的業務類別、資料結構、抽取方式等資訊,可分類歸納為業務屬性、技術屬性、資料項屬性和執行屬性四類,以反映資料來源的各方面內容。
業務屬性用於說明資料來源所涉及的業務資料情況,比如是哪些種類的業務資料,什麼業務邏輯條件、組織條件和時間條件下的業務資料,這是資料來源管理的核心價值所在。資料來源業務屬性主要通過資料來源名稱和資料來源描述來表達,此外還包含資料的業務類別比如財務類、營銷類等、資料業務型別比如主資料、交易資料等等資訊。
資料項屬性是指資料來源中可提供的業務資料項也稱欄位資訊,主要有資料項的技術名稱、中文名稱、說明、資料型別、資料長度、小數位數、關鍵字標識等。
技術屬性是指資料來源的物理實現,說明資料來源的技術物件和型別,主要包括:資料來源物件的技術名稱;技術型別,如表、檢視等;當前版本;使用狀態,如在用、未用、廢棄;增量支援,說明資料來源是否支援以增量方式提供資料。
執行屬性指資料倉庫系統基於資料來源抽取業務資料的相關具體資訊。執行屬性往往是根據業務、技術和管理的需要而確定的,並且往往是設定在資料抽取工具上。執行屬性通常包括:資料的抽取頻率和觸發時間;資料的抽取方式,分為全量或增量,全量是指抽取資料來源中的全部資料,增量是指抽取資料來源中自上次抽取後變化的業務資料;推送方式,分為推、送兩種方式,推是指源系統主動發起資料的傳輸,拉是指資料倉庫系統主動發起資料的傳輸;資料傳輸技術,是指資料傳輸的技術方式,包括WebService、RFC、資料庫直連DBLINK、ETL工具等。
3.1.2 資料來源構造物件
一個數據源本身往往是由程式、表或檢視等多個技術物件構建而成,這些技術物件是資料來源的構造物件。顯然構造物件的變化會對資料來源產生影響。事實上這些構造物件本身也可能存在依賴關係,並且是多對多的依賴關係。同樣,對這些技術物件需要關注其技術名稱、技術型別和主要功能作用。
3.2 資料來源管理的內容
資料來源管理的主要工作應包括配置管理,變更管理和執行管理等。此外基於資料來源管理的特點,從實際工作角度出發還應區分清楚資料來源管理的分工職責等。
3.2.1 配置管理
資料來源配置管理的主要任務是建立起資料來源配置清單,記錄資料來源的各項屬性資訊,分析和記錄資料來源及其構造物件之間的相互依賴關係。資料來源配置清單的建立是資料來源管理的基礎工作。資料來源配置清單可以服務於各級各類人員,業務管理人員可以瞭解資料中心從業務系統抽取了哪些資料,專案實施人員可以充分了解和共享現有資料,避免重複建設,資訊運維人員可以瞭解資料接入情況,以及資料來源詳細配置。
3.2.2 變更管理
資料來源變更管理是資料來源管理的重點,能否及時發現數據源變更,並能夠有效處理變更。這直接關係到資料抽取的準確性、完整性和及時性。資料來源變更的情況有三類:1技術物件構造的變化,這是指資料來源或其構造物件在邏輯結構上的變化,這類變化往往會直接導致資料抽取任務失敗,運維人員比較容易發現數據抽取錯誤,進而進行排查分析解決,實際工作中這類錯誤最為常見;2單純的業務邏輯變化,比如一個業務程式碼及其邏輯含義的變化,這類變化一般不會導致資料抽取任務的失敗,錯誤很隱祕,因而也很難發現,往往是終端使用者通過應用功能發現數據存在離譜現象,才能逐步分析解決,而且整個排查分析過程也會很艱難,實際工作中這種情況也存在;3資訊系統的物理變化,比如伺服器有調整,IP地址或域名有變化等,這類錯誤一般是立刻容易發現的,也比較容易解決,在實際工作中較少發生。
變更管理的主要任務就是解決以下幾個問題:1及時發現數據源的變更,這是資料來源管理的難點。及時發現是指在應用變更之前儘早發現它們對資料來源的影響,這需要以知曉資料來源及其構造物件的變更之處為前提。2分析資料來源變更的影響。在發現數據源有變更之後,應儘快分析資料來源變更的影響,判斷資料來源變更對資料倉庫系統的影響範圍、程度和具體技術物件。3提出資料來源變更影響的解決方案。在資料來源變更之前,應儘快提出相應的解決方案來消除或減輕對資料倉庫系統造成不良影響,解決方案的實施應與資料來源變更相協調一致。4及時調整維護資料來源配置清單。最後應及時調整維護資料來源配置清單,使配置清單始終能反映系統實際狀況。總之,一個高水平的管理是應該儘量做到資料來源變更前及時發現,迅速完成變更影響分析,有效提出解決方案,並有序加以實施。
3.2.3 執行管理
執行管理主要任務是監控資料來源執行情況。瞭解資料來源執行引數,包括執行頻率、觸發時間、抽取方式、資料傳輸技術等。關注資料來源執行結果,確保資料倉庫及時準確地抽取到源系統業務資料。分析資料來源執行效率,瞭解資料抽取過程中耗用的時間和消耗系統資源情況。通過監測資料來源執行情況,合理調整資料來源配置與抽取策略,提高資料接入質量,改善系統執行效率。
3.2.4 分工協作
由於資料來源存在於業務源系統中,並且對資料倉庫系統有著緊密的聯絡。因此,業務源系統和資料倉庫系統兩端都必須開展資料來源管理,明確分工,各盡其責,密切溝通,協調一致,通力合作,只有這樣才能管理好資料來源,才能有效提高資料抽取的準確性和可靠性。
業務源系統技術人員應研究資料來源及其構造物件的結構、狀態及相互依賴關係,建立和維護資料來源配置清單;在源系統變更實施前,應充分了解技術物件的變更情況,分析它們對資料來源可能造成的影響,並及時通知資料倉庫系統技術人員。資料倉庫系統技術人員應及時分析資料來源變化對資料倉庫系統造成的影響,並與業務源系統技術人員協調一致,明確相應的解決方案,有序進行資料來源的變更。
3.3 資料來源管理的方法
要做好資料來源管理還需採取必要的資訊化工具,通過工具的應用,實現手工管理無法實現的任務,提升資料來源管控效率。
1採用資訊化工具是實現資料來源管理要求的必然體現。業務系統的資料來源及其關聯物件數量龐大,複雜的系統往往具有數千個技術物件,技術物件之間存在著大量的邏輯關係,依靠手工管理是很難做到準確和高效,難以實現資料來源變更影響分析等要求。2企業往往有多個業務源系統,有各自不同資料來源,通過資訊化的手段可以把不同業務源系統的資料來源統一地整合起來,進而可以較為完整地反映企業資料的整體狀況。3通過資訊化工具,可以實現資料來源資訊共享,滿足業務、資訊和技術等各級各類人員對資訊管理的不同要求。
4 資料來源管理實踐
基於上述資料來源管理的理念,以某公司SAP BW資料倉庫為例,將SAP ERP系統資料來源作為切入點,設計開發了一套資料來源管理系統,系統架構見圖1。資料來源管理系統由應用功能、資料庫和介面三部分組成。應用功能主要實現資料來源查詢展現、維護同步和變更預警等功能;資料庫主要儲存了資料來源及其相關資訊;介面部分主要實現對ERP系統資料來源技術物件的獲取。
4.1 系統主要功能
4.1.1 資料來源查詢
資料來源查詢實現資料來源資訊共享。使用者可以設定條件以樹狀導航方式檢視資料來源清單,對業務人員來說,著重關注資料來源的業務含義,如資料來源名稱、業務類別、資料來源描述、來源系統等;對資訊管理和技術人員來說,在瞭解掌握業務含義的基礎上,可進一步瞭解資料來源的技術細節,如資料來源的來源系統、技術名稱、技術型別、抽取方式、抽取技術、抽取頻率等,有利於資料來源的管理、開發和運維工作。
4.1.2 資料來源同步
資料來源同步是一項關鍵功能,實現ERP系統資料來源配置資訊自動同步到資料來源管理系統。它可自動獲取ERP系統的資料來源物件技術資訊,輔以人工分析和說明資料來源技術物件的業務屬性,更新資料來源管理系統中的資料來源資訊,保證資料來源管理系統與ERP系統技術物件的一致性。該項功能可以顯著地減少資料來源資訊維護工作量,同時也為資料來源變更預警功能奠定基礎。
4.1.3 資料來源變更預警
資料來源變更預警實現ERP系統資料來源及其構造物件變更自動提醒。該功能將列出ERP系統中資料來源結構或資料原表等技術物件的最新變化,通過人工甄別,分析這些變化對BW資料來源造成的影響,以便能對相關資料來源及資料倉庫相關模型進行及時調整,減少對資料倉庫資料抽取的不良影響。
4.2 關鍵技術
實現資料來源管理系統要解決以下幾個主要技術難點:1需要研究ERP業務系統的資料來源技術物件儲存方式,這需要跟蹤系統的內部結構,不斷進行驗證測試,才能掌握資料來源儲存方式。2需要研究資料來源的構造物件,釐清資料來源與構造物件的對應關係,這項工作已經涉及到源系統內部的資料邏輯結構的研究。3研究和建立資料來源變更自動預警機制,能夠及時發現源系統資料來源或其構造物件的更變,並在資料來源系統自動提示,該項工作是系統建設的關鍵,也是技術難點。
4.3 實踐成效
資料來源管理系統投入執行後,顯著提升了ERP系統資料來源管理能力。1各級各類人員很容易就能掌握ERP系統中哪些資料接入了資料倉庫,以及所有相關的業務、技術、執行情況等資訊,為滿足資料共享需求,以及技術和業務人員之間的溝通提供了條件。2對資料來源整體情況的掌握,直接避免了因難以瞭解資料接入現狀而導致資料來源重複開發的問題,促進了資料共享水平提升。3資料來源變更事前預警功能達到變更提醒100%準確,避免了因各種變更導致資料不能正常更新到資料倉庫的問題,從根本上彌補了ERP系統資料來源變更管理的空白。
5 總結與展望
本文對資料來源管理的物件和內容進行了分析和定義,開創性地提出了建立資料來源配置清單及資料來源變更事前預警功能,並將相關理念用於實踐,取得了顯著成效。後續可拓展實踐領域,將其運用到各種異構的源系統資料來源管理中,且可延伸管理範圍,進一步分析構建資料模型和資料輸出相關管理功能,實現資料流全過程管理。
參考文獻:
[1] William H. Inmon.Building the Data Warehouse[M].4th ed.New York:Wiley,2005.
點選下頁還有更多>>>