數(shù)據(jù)是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ),是推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的新型生產(chǎn)要素。作為數(shù)字經(jīng)濟(jì)的重要組成部分,數(shù)據(jù)在推動(dòng)社會(huì)生產(chǎn)力發(fā)展中的作用日趨顯著,已深度融入生產(chǎn)、分配、流通、消費(fèi)和社會(huì)服務(wù)管理等各個(gè)環(huán)節(jié)。中共中央、國(guó)務(wù)院印發(fā)的《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》提出了“數(shù)據(jù)資源規(guī)模和質(zhì)量加快提升,數(shù)據(jù)要素價(jià)值有效釋放”的目標(biāo),強(qiáng)調(diào)要夯實(shí)數(shù)字中國(guó)建設(shè)基礎(chǔ),全面賦能經(jīng)濟(jì)社會(huì)發(fā)展。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)管理和數(shù)據(jù)分析的基礎(chǔ),決定了各行業(yè)的運(yùn)營(yíng)效率、服務(wù)品質(zhì)以及決策能力等。高質(zhì)量數(shù)據(jù)有助于優(yōu)化業(yè)務(wù)流程、提升服務(wù)品質(zhì)、提高決策精準(zhǔn)度,對(duì)于推動(dòng)信息化和智能化進(jìn)程,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新發(fā)展具有深遠(yuǎn)意義。然而,在工業(yè)數(shù)據(jù)采集過(guò)程中,數(shù)據(jù)質(zhì)量往往受多種因素影響:由于傳感器故障或讀數(shù)誤差、操作人員失誤、環(huán)境變化等原因,致使數(shù)據(jù)存在離群值和缺失值;由于環(huán)境干擾或設(shè)備老化等原因,造成數(shù)據(jù)包含噪聲、干擾等信息;由于設(shè)備不同步、采集頻率差異、數(shù)據(jù)延遲或傳輸錯(cuò)誤等原因,導(dǎo)致數(shù)據(jù)存在時(shí)間不一致性等。低質(zhì)量數(shù)據(jù)的產(chǎn)生不僅直接影響數(shù)據(jù)的可用性,同時(shí)會(huì)導(dǎo)致員工操作失誤、決策偏差,企業(yè)運(yùn)營(yíng)效率降低和大量資源浪費(fèi)等。
2022年12月印發(fā)的《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,2024年9月印發(fā)的《中共中央辦公廳國(guó)務(wù)院辦公廳關(guān)于加快公共數(shù)據(jù)資源開發(fā)利用的意見》,提出加強(qiáng)數(shù)據(jù)管理和利用的具體措施,包括建立健全數(shù)據(jù)質(zhì)量管理體系、推動(dòng)數(shù)據(jù)標(biāo)準(zhǔn)化、加強(qiáng)數(shù)據(jù)安全保護(hù)等。工信部發(fā)布的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》也明確了大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展方向,強(qiáng)調(diào)優(yōu)化數(shù)據(jù)資源配置,激發(fā)數(shù)據(jù)要素潛能,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展。國(guó)家系列文件的發(fā)布,為數(shù)據(jù)質(zhì)量管理明確了發(fā)展方向與發(fā)展路徑。
選擇可靠有效的數(shù)據(jù)處理方法
系統(tǒng)化的數(shù)據(jù)質(zhì)量提升流程是維護(hù)和提高數(shù)據(jù)質(zhì)量的堅(jiān)固防線。獲取準(zhǔn)確性高、一致性強(qiáng)的高質(zhì)量數(shù)據(jù),首先要有一套行之有效的數(shù)據(jù)處理方法,主要包括:異常數(shù)據(jù)檢測(cè)、數(shù)據(jù)去噪以及數(shù)據(jù)同步對(duì)齊等。
異常數(shù)據(jù)檢測(cè)是確保數(shù)據(jù)準(zhǔn)確性的首要環(huán)節(jié)。及時(shí)、準(zhǔn)確識(shí)別異常數(shù)據(jù)是數(shù)據(jù)分析中的關(guān)鍵一環(huán)。通過(guò)對(duì)異常數(shù)據(jù)的檢測(cè)可以增強(qiáng)數(shù)據(jù)集的完整性與可靠性,為后續(xù)數(shù)據(jù)分析和模型建立提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),是維護(hù)整個(gè)決策鏈準(zhǔn)確性的重要措施。異常數(shù)據(jù)通常分為偏差數(shù)據(jù)、離群值和缺失值等。其中,離群值的產(chǎn)生是由于測(cè)量誤差或設(shè)備故障引起。比如,以特定的距離函數(shù)計(jì)算數(shù)據(jù)對(duì)象之間的距離來(lái)確定離群點(diǎn),一般認(rèn)為離其他數(shù)據(jù)更遠(yuǎn)的數(shù)據(jù)點(diǎn)可能是離群點(diǎn)。該方法可以簡(jiǎn)單直觀地檢測(cè)出異常數(shù)據(jù),但需謹(jǐn)慎選擇合適的距離度量標(biāo)準(zhǔn)。再比如,通過(guò)數(shù)據(jù)驅(qū)動(dòng)方式學(xué)習(xí)數(shù)據(jù)中的模式或結(jié)構(gòu)來(lái)區(qū)分正常數(shù)據(jù)或異常數(shù)據(jù),該方法能夠適應(yīng)復(fù)雜的數(shù)據(jù)分布。異常數(shù)據(jù)還包括在監(jiān)測(cè)過(guò)程中出現(xiàn)的數(shù)據(jù)缺失,通常通過(guò)直接空值法、統(tǒng)計(jì)分析法和時(shí)間序列法等檢測(cè)來(lái)辨識(shí)異常數(shù)據(jù)。直接空值法通過(guò)簡(jiǎn)單操作就能夠發(fā)現(xiàn)明顯的數(shù)據(jù)缺失。統(tǒng)計(jì)分析法是通過(guò)分析數(shù)據(jù)的分布特征實(shí)現(xiàn)數(shù)據(jù)的缺失值檢測(cè),該方法有標(biāo)準(zhǔn)的流程,易于操作和復(fù)制。時(shí)間序列法是通過(guò)數(shù)據(jù)在時(shí)間維度上的連續(xù)性和趨勢(shì)性的分析來(lái)檢測(cè)數(shù)據(jù)的缺失值。
數(shù)據(jù)去噪處理是提升數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)去噪處理是確保數(shù)據(jù)質(zhì)量的核心步驟,能夠有效提升數(shù)據(jù)集的純凈度和可信度,為后續(xù)數(shù)據(jù)分析和模型建立提供穩(wěn)定的數(shù)據(jù)平臺(tái),是保障決策鏈精確性的重要基石。數(shù)據(jù)去噪的方法分為基于濾波器的數(shù)據(jù)去噪方法、基于頻域分析的數(shù)據(jù)去噪方法、基于機(jī)器學(xué)習(xí)的數(shù)據(jù)去噪方法等。比如,通過(guò)建立特定的濾波器來(lái)濾除數(shù)據(jù)中的高頻或低頻噪聲,保留有用的信號(hào),確保數(shù)據(jù)的平滑性和準(zhǔn)確性。還有通過(guò)將數(shù)據(jù)轉(zhuǎn)換到頻率域,利用信號(hào)在頻率特征的差異來(lái)消除噪聲。此外,通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)數(shù)據(jù)的內(nèi)在模式和特征,能夠處理更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和噪聲類型。
數(shù)據(jù)同步對(duì)齊是提升數(shù)據(jù)質(zhì)量的關(guān)鍵步驟。數(shù)據(jù)同步對(duì)齊對(duì)保障數(shù)據(jù)的質(zhì)量具有決定性作用,提升數(shù)據(jù)集的一致性,為后續(xù)數(shù)據(jù)分析和模型建立搭建穩(wěn)定的數(shù)據(jù)框架。動(dòng)態(tài)時(shí)間規(guī)整法通過(guò)計(jì)算兩個(gè)時(shí)間序列之間最佳規(guī)整路徑實(shí)現(xiàn)數(shù)據(jù)的非線性對(duì)齊,適用于不同速率的信號(hào)對(duì)齊以及不同長(zhǎng)度的時(shí)間序列對(duì)齊。時(shí)序重采樣法通過(guò)改變采樣頻率、填補(bǔ)缺失時(shí)間點(diǎn)或合并時(shí)間間隔等方式將原始時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為新的時(shí)間序列以實(shí)現(xiàn)數(shù)據(jù)同步,適用于解決由于采樣不一致導(dǎo)致的數(shù)據(jù)對(duì)齊問(wèn)題。
實(shí)施嚴(yán)格的數(shù)據(jù)驗(yàn)證與實(shí)時(shí)監(jiān)控
為了確保數(shù)據(jù)的有效性和準(zhǔn)確性,嚴(yán)格的數(shù)據(jù)驗(yàn)證是必不可少的環(huán)節(jié)。數(shù)據(jù)驗(yàn)證是保障數(shù)據(jù)源可靠性的重要措施,是數(shù)據(jù)質(zhì)量提升的堅(jiān)實(shí)支撐,主要包括格式驗(yàn)證、范圍驗(yàn)證和邏輯驗(yàn)證等方法。格式驗(yàn)證旨在檢查數(shù)據(jù)是否符合預(yù)定的格式要求,如日期格式、數(shù)值范圍等,確保數(shù)據(jù)的標(biāo)準(zhǔn)化。范圍驗(yàn)證是確保數(shù)據(jù)在預(yù)定義的合理區(qū)間內(nèi),防止數(shù)據(jù)因操作失誤或采集誤差等偏離正常范圍。邏輯驗(yàn)證則基于業(yè)務(wù)邏輯關(guān)系檢查數(shù)據(jù)之間的合理性,如數(shù)據(jù)的一致性和關(guān)聯(lián)性。高效的數(shù)據(jù)驗(yàn)證機(jī)制能夠識(shí)別并糾正數(shù)據(jù)集中的錯(cuò)誤、異常和遺漏,提高數(shù)據(jù)集的整體品質(zhì),確保數(shù)據(jù)的有效性和準(zhǔn)確性,為后續(xù)分析和決策提供可靠的數(shù)據(jù)保障。
實(shí)時(shí)數(shù)據(jù)決策的重要性在現(xiàn)代社會(huì)各個(gè)行業(yè)中日益凸顯,這些決策都需要高效、可靠的實(shí)時(shí)數(shù)據(jù)監(jiān)控。數(shù)據(jù)監(jiān)控是維護(hù)數(shù)據(jù)實(shí)時(shí)性和連貫性的重要手段,是數(shù)據(jù)質(zhì)量提升的必要保障,主要包括實(shí)時(shí)數(shù)據(jù)監(jiān)控、閾值監(jiān)控和趨勢(shì)分析等方法。實(shí)時(shí)數(shù)據(jù)監(jiān)控通過(guò)建立實(shí)時(shí)報(bào)警機(jī)制,迅速識(shí)別數(shù)據(jù)異常情況,確保潛在問(wèn)題被及時(shí)發(fā)現(xiàn)并得到有效處理。閾值監(jiān)控通過(guò)預(yù)設(shè)的合理范圍對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)跟蹤,一旦超出范圍即發(fā)出警報(bào)。趨勢(shì)分析通過(guò)挖掘歷史數(shù)據(jù),識(shí)別數(shù)據(jù)變化的長(zhǎng)期趨勢(shì),為未來(lái)趨勢(shì)預(yù)測(cè)提供依據(jù)。有效的數(shù)據(jù)監(jiān)控機(jī)制能夠促進(jìn)數(shù)據(jù)的連續(xù)性和一致性,確保在快速變化的環(huán)境中實(shí)現(xiàn)精準(zhǔn)的數(shù)據(jù)管理和快速響應(yīng),為各行各業(yè)的穩(wěn)定運(yùn)行和效率提升提供強(qiáng)有力的支撐。
綜上所述,構(gòu)建完善的數(shù)據(jù)質(zhì)量提升流程是確保數(shù)據(jù)準(zhǔn)確性、可靠性和應(yīng)用價(jià)值的關(guān)鍵所在。異常數(shù)據(jù)檢測(cè)為提升數(shù)據(jù)質(zhì)量奠定了基礎(chǔ),數(shù)據(jù)去噪和數(shù)據(jù)對(duì)齊則是提升數(shù)據(jù)質(zhì)量的有效手段。三者有機(jī)結(jié)合,能夠直觀地增強(qiáng)數(shù)據(jù)的完整性、純凈度和規(guī)范性,確保數(shù)據(jù)集的高標(biāo)準(zhǔn)和可靠性。數(shù)據(jù)驗(yàn)證與數(shù)據(jù)監(jiān)控雖然不能直接提升數(shù)據(jù)質(zhì)量,但是能夠確立衡量數(shù)據(jù)質(zhì)量的關(guān)鍵準(zhǔn)則,保障數(shù)據(jù)源的可靠性與連貫性,為數(shù)據(jù)質(zhì)量提升提供支撐。上述環(huán)節(jié)相輔相成,共同構(gòu)成了數(shù)據(jù)質(zhì)量閉環(huán)管理,確保數(shù)據(jù)從采集到應(yīng)用的全生命周期遵循高質(zhì)量標(biāo)準(zhǔn)。
構(gòu)建科學(xué)規(guī)范的數(shù)據(jù)質(zhì)量管理系統(tǒng)
數(shù)據(jù)質(zhì)量的提升過(guò)程是一項(xiàng)復(fù)雜的系統(tǒng)工程,需要精準(zhǔn)匹配不同行業(yè)的實(shí)際需求,全面考慮特定環(huán)境下的設(shè)備類型、運(yùn)行狀態(tài)、業(yè)務(wù)流程等獨(dú)特因素,采取針對(duì)性的方法與措施增強(qiáng)數(shù)據(jù)的準(zhǔn)確性和可用性,提升整體的運(yùn)營(yíng)效率,優(yōu)化資源分配,促進(jìn)各行業(yè)的數(shù)字化轉(zhuǎn)型。與此同時(shí),根據(jù)變化的數(shù)據(jù)環(huán)境和業(yè)務(wù)需求,持續(xù)優(yōu)化和迭代數(shù)據(jù)質(zhì)量提升流程,確保數(shù)據(jù)價(jià)值最大化。
在數(shù)字化浪潮推動(dòng)下,數(shù)據(jù)質(zhì)量管理快速邁向智能化階段,數(shù)據(jù)質(zhì)量提升正面臨嚴(yán)峻挑戰(zhàn):一方面,數(shù)據(jù)量呈爆炸性增長(zhǎng);另一方面,實(shí)時(shí)數(shù)據(jù)流的處理、數(shù)據(jù)精確度與一致性的維護(hù)等需求標(biāo)準(zhǔn)日益提高。因此,未來(lái)數(shù)據(jù)質(zhì)量提升應(yīng)深度聚焦數(shù)據(jù)處理智能技術(shù)開發(fā),實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)的深度挖掘、精準(zhǔn)分析和快速響應(yīng);全力構(gòu)建自適應(yīng)數(shù)據(jù)驗(yàn)證系統(tǒng),確保數(shù)據(jù)在動(dòng)態(tài)變化的環(huán)境中自動(dòng)調(diào)整,始終符合高質(zhì)量標(biāo)準(zhǔn);不斷優(yōu)化傳感器技術(shù),提升數(shù)據(jù)的采集效率和準(zhǔn)確性;廣泛推廣邊緣計(jì)算與分布式存儲(chǔ)技術(shù),增強(qiáng)數(shù)據(jù)處理的能力和靈活性,降低數(shù)據(jù)處理的延遲;精心制定和推廣國(guó)際數(shù)據(jù)管理標(biāo)準(zhǔn),促進(jìn)數(shù)據(jù)質(zhì)量的全球化統(tǒng)一;確立數(shù)據(jù)質(zhì)量在促進(jìn)各行業(yè)智能化和數(shù)字化轉(zhuǎn)型中的核心作用,推動(dòng)數(shù)據(jù)質(zhì)量邁向更高層次。