論資料可用性的評估方法
隨著大資料時代的來臨,資料集合中劣質資料也隨之大量產生,導致資訊資料整體質量下降,資料的有效使用受到了極大限制。為了更加有效發揮各行各業大資料的作用,開展資料可用性研究具有較大的戰略意義。
1 資料可用性定義
研究者們普遍認為,資料的可用性可以從資料的一致性、準確性、完整性、時效性及實體同一性五個方面進行考察,其具體定義如下:
①資料的一致性:指資料資訊系統中各相關資料資訊之間相容、不產生矛盾。
②資料的準確性:指資料資訊系統中每個資料表示現實物體的精準程度。人們對資料進行操作的各個環節都可能影響資料準確性。
③資料的完整性:指資料集合包含的資料完全滿足對資料進行各項操作的要求。
④資料的時效性:是指在不同需求場景下資料的及時性和有效性。對應用系統而言,往往對資料時效性要求較高,過時的資料即使分析出來了也不會對實際應用產生有價值的影響。
⑤實體的同一性:指同一實體在各種資料來源中的描述統一。
一個數據集合,滿足以上五個性質的程度稱為該資料集合的可用性。
2 評估方法分析
對於資料可用性評估,國內外研究人員也進行了許多工作。以下從資料的一致性、精確性、完整性、時效性、實體同一性五個方面進行介紹和分析。
2.1 基於一致性的方法
文獻[1]針對異地備份系統中資料持續變化的情況,設計並實現了一種基於累積摘要值的一致性檢測方法。該方法解決了傳統一致性檢測需要中斷備份任務的問題,保證了備份任務的連續性,並且能夠迅速檢測本地伺服器和遠端備份中心資料的一致性,提高了一致性檢測的效率。
文獻[2]從已有的一致性維護方法出發,針對海量資料多副本之間一致性維護,從一致性維護過程中所涉及的更新發布、更新傳播方式、更新傳播內容、更新衝突解決等幾個方面進行了分析,提出了相應的解決辦法。
文獻[3]針對P2P分佈儲存系統中大型資料物件面臨的資料一致性問題,提出了資料一致性維護方法PLCP。該方法從提高更新傳播速度和減少日誌空間開銷的角度進行了資料優化。同時針對資料更新的問題和關鍵屬性更新的問題,提出資料一致性維護方法DACP和KACP。
文獻[5]從無線感測網路資料安全的角度,結合一些廉價的保護技術,提出了利用跨層一致性評估資訊整體質量的方法。
基於資料一致性的方法,主要體現在集中儲存方面,對於分散式和非關係資料方面研究還較少,適用於海量資料的一致性評估方法有待進一步探索。
2.2 基於精確性的方法
資料精確性方面的研究結果比較少見,文獻[6]從精確度低的角度,提出了對應的精確性評估演算法。該演算法考慮了一種基於可能世界語義的描述方法。目前的研究結果顯示,資料精確性的評估方法還有待研究者們深入探究。
2.3 基於完整性的方法
針對海量關係資料中普遍存在的資料不完整現象,劉永楠等研究了關係資料完整性度量問題。針對資料的完整性計算問題,提出了資料完整性計算模型,以及精確演算法和基於均勻抽樣的近似演算法。理論分析證明了近似演算法可以達到任意的精度要求,可以高效地對資料完整性進行計算,通過在DBLP資料上的實驗驗證了演算法的有效性和高效性。
在具體應用領域,張少敏等利用IEC61970對智慧電網進行資訊整合,然後根據完整性定義,對智慧電網資料進行自動機建模,給出了一種無需對資料進行直接操作的資料完整性定量評估模型。
Barcelo P等將傳統的完整性理論擴充套件到XML資料上,討論了不完整XML資料的表示問題。
另外,針對雲端儲存服務中資料的完整性問題,一些研究者提出了PDP 和POR。這兩種方案都採用了概率性證明思路,即儲存服務提供商向資料擁有者證明其完整的持有資料擁有者儲存的資料。
基於資料完整性評估方面的結論還較少,特別是具有普遍適用價值的方法,還有待進一步研究。
2.4 基於時效性的方法
文獻[7]針對歷史評價資料時效性會影響評價計算準確性的問題,引入了評價資料的時間屬性,構造了評價資料衰減因子,減小了時效性對於評價計算準確性的影響。
文獻[8]研究了包含冗餘記錄的集合在給定時效約束下的時效性判定問題,並首次提出了時效性判定問題的求解演算法.
在建築能耗領域,文獻[9]通過對幾類典型公共建築能耗資料的統計分析對比,提出了採用近1年的能耗資料作為統計樣本的建議。
基於時效性方面的研究非常匱乏,已有的少量研究結論都主要針對一些特殊應用,還需深入系統的研究。
2.5 基於實體同一性的方法
實體同一性是資料可用性研究較多的一個方面,實體同一性研究主要涉及兩類方法:第一類是從語義規則的角度進行同一性研究,這類方法主要通過經驗知識來描述實體的同一性問題;第二類是從相似性的角度進行同一性研究,該類方法主要採用相似度函式來對實體同一性進行判定。
針對實體同一性方面的相關技術,包括實體識別的效率問題、識別的增量計算、半結構化資料上的實體識別等,文獻[4] 展開了相對完整的討論。
對於實體統一性的評估方法大多針對關係資料,針對複雜結構資料、半結構化資料、非機構化資料方面的研究還很少。
3 結束語
在大資料時代,資料量急劇增長,資料的可用性問題將嚴重影響基於資料的知識和決策。確保大資料的可用性是進行大資料分析、處理的關鍵基礎,將直接關係到大資料價值的體現。本文針對資料質量問題,從資料可用性的角度,介紹並分析了目前國內外基於單個屬性的資料質量評估方法,將有助於促進大資料可用性的研究。