公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)下的檔案管理數(shù)據(jù)化轉(zhuǎn)型

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下的檔案管理數(shù)據(jù)化轉(zhuǎn)型范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

大數(shù)據(jù)下的檔案管理數(shù)據(jù)化轉(zhuǎn)型

互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)正在引領(lǐng)各領(lǐng)域和各行業(yè)的變革與轉(zhuǎn)型。被譽(yù)為“大數(shù)據(jù)之父”的美國(guó)數(shù)據(jù)科學(xué)家維克托•邁爾•舍恩伯格將大數(shù)據(jù)概括為“一場(chǎng)生活、工作與思維的大變革”。2014年3月,大數(shù)據(jù)被首次寫入政府工作報(bào)告;2015年8月,國(guó)務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》;2015年10月,黨的十八屆五中全會(huì)正式提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開放共享”,這表明中國(guó)已將大數(shù)據(jù)視作戰(zhàn)略資源并上升為國(guó)家戰(zhàn)略。在大數(shù)據(jù)浪潮洶涌而至的時(shí)代,檔案部門應(yīng)順勢(shì)而為,推進(jìn)大數(shù)據(jù)時(shí)代檔案管理事業(yè)轉(zhuǎn)型升級(jí)。2019年4月,國(guó)家檔案局與財(cái)政部、國(guó)家稅務(wù)總局聯(lián)合開展電子發(fā)票電子化報(bào)銷、入賬、歸檔管理試點(diǎn)工作并確定了7家試點(diǎn)企業(yè),此次試點(diǎn)的成功意味著未來大量原生數(shù)據(jù)態(tài)的檔案資源將成為檔案部門的主要管理對(duì)象?!叭f(wàn)物皆數(shù)”的思維潛移默化地使得過去以傳統(tǒng)載體形式存在的事物在未來將會(huì)以數(shù)據(jù)的形式存在,這也預(yù)示著未來檔案與數(shù)據(jù)之間的邊界會(huì)日益模糊。狹義來看,檔案管理數(shù)據(jù)化大致包括傳統(tǒng)紙質(zhì)檔案和電子檔案的數(shù)據(jù)化處理和原生數(shù)據(jù)態(tài)檔案管理。廣義來看,檔案管理數(shù)據(jù)化是檔案管理數(shù)字化的深化與升級(jí),是未來檔案信息化建設(shè)的發(fā)展方向。檔案管理工作正在經(jīng)歷從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變,是對(duì)紙質(zhì)檔案數(shù)字化工作的推進(jìn),也是對(duì)檔案利用的深層次開發(fā),更是推動(dòng)檔案服務(wù)升級(jí)的新契機(jī)。本文認(rèn)為,大數(shù)據(jù)背景下檔案管理數(shù)據(jù)化的轉(zhuǎn)型主要體現(xiàn)在以下方面:

面向未來,大數(shù)據(jù)引領(lǐng)檔案管理數(shù)據(jù)化思維轉(zhuǎn)變

在檔案管理從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)變的過程中,面臨管理對(duì)象變化帶來的諸多問題與挑戰(zhàn),思維創(chuàng)新是引領(lǐng)檔案管理數(shù)據(jù)化轉(zhuǎn)型的關(guān)鍵要素。檔案管理數(shù)據(jù)化思維轉(zhuǎn)變首先要理清檔案和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時(shí)代對(duì)于檔案的定義將進(jìn)一步鞏固大檔案觀,檔案的內(nèi)涵和外延都將有所擴(kuò)展。從大數(shù)據(jù)的視角看,檔案是蘊(yùn)含豐富數(shù)據(jù)資源的寶庫(kù),可以將檔案轉(zhuǎn)變成便于計(jì)算機(jī)處理的數(shù)據(jù),也可以將檔案變成用戶利用的數(shù)據(jù);數(shù)據(jù)也是檔案,數(shù)據(jù)承載著信息社會(huì)人類記錄的印記。面對(duì)紛繁復(fù)雜的數(shù)據(jù),檔案部門應(yīng)加強(qiáng)數(shù)據(jù)歸檔意識(shí),及時(shí)轉(zhuǎn)變傳統(tǒng)檔案思維,樹立以數(shù)據(jù)為導(dǎo)向的檔案思維,把握檔案管理數(shù)據(jù)化發(fā)展方向,并能夠積極應(yīng)對(duì)檔案管理數(shù)據(jù)化帶來的一系列挑戰(zhàn)。舍恩伯格認(rèn)為,大數(shù)據(jù)對(duì)人的思維變革主要體現(xiàn)在3個(gè)方面:開啟全數(shù)據(jù)模式、包容混雜性、注重相關(guān)關(guān)系。事實(shí)上,這些思維可以映射到檔案管理數(shù)據(jù)化的思維轉(zhuǎn)變。首先,樹立全數(shù)據(jù)思維有助于利用海量檔案數(shù)據(jù),這個(gè)利用是指從開發(fā)到使用檔案資源。當(dāng)前,檔案數(shù)字化全文開發(fā)利用工作剛剛步入正軌。2020年6月,上海市檔案館數(shù)字檔案公共查閱平臺(tái)可實(shí)現(xiàn)在線查閱館藏開放檔案的案卷級(jí)目錄93萬(wàn)余條并可以提出部分檔案原件的預(yù)約調(diào)檔申請(qǐng),同時(shí)也可瀏覽2.3萬(wàn)余件檔案及部分史料編研成果的數(shù)字化全文。然而,查詢數(shù)字化全文只到檔案文件級(jí)層面,尚未深入到檔案的內(nèi)容層面,因此,還未脫離將文件作為整體的管理思維。大數(shù)據(jù)技術(shù)不斷革新,海量檔案數(shù)據(jù)將形成龐大的檔案數(shù)據(jù)庫(kù),檔案信息資源的開發(fā)利用將更加多元。其次,包容混雜性并不表明檔案數(shù)據(jù)的質(zhì)量和真實(shí)性會(huì)有所下降,而是意味著對(duì)于不同格式的檔案數(shù)據(jù)的兼容度的提高,紛繁復(fù)雜的檔案數(shù)據(jù)雖然對(duì)檔案管理工作形成了挑戰(zhàn),但不同格式的檔案數(shù)據(jù)卻能超越傳統(tǒng)檔案管理的思維局限,開啟縱觀檔案全貌的新視角。最后,注重相關(guān)關(guān)系可視為檔案管理數(shù)據(jù)822021•1化的最終目標(biāo),檔案數(shù)據(jù)化后可隨著粒度減小而變得分散,注重檔案數(shù)據(jù)間的相關(guān)關(guān)系是將零散的檔案數(shù)據(jù)通過關(guān)聯(lián)而進(jìn)行聚合聯(lián)結(jié),不再僅僅以案卷和全宗為開發(fā)單位,而是在更細(xì)小的粒度層面挖掘出更廣泛的檔案利用價(jià)值。電子發(fā)票是踐行數(shù)據(jù)化思維的典型案例。電子發(fā)票應(yīng)用的是類似于關(guān)系數(shù)據(jù)庫(kù)的文件結(jié)構(gòu),這類文件只需要定義其關(guān)鍵元數(shù)據(jù),定義好打印的版式,所有的發(fā)票元數(shù)據(jù)信息都以數(shù)據(jù)庫(kù)形式存儲(chǔ)和管理,用戶購(gòu)買商品的發(fā)票數(shù)據(jù)自動(dòng)寫入數(shù)據(jù)庫(kù)中,成為關(guān)系數(shù)據(jù)庫(kù)表文件中的一條數(shù)據(jù)記錄,當(dāng)用戶需要下載并打印發(fā)票時(shí),數(shù)據(jù)庫(kù)表中的這條數(shù)據(jù)記錄可以轉(zhuǎn)換為PDF或者JPG發(fā)票文檔。以京東集團(tuán)為例,消費(fèi)者購(gòu)物后填寫單位名稱、手機(jī)號(hào)碼、郵件地址等電子發(fā)票相關(guān)信息,收貨確認(rèn)后申請(qǐng)開具電子發(fā)票,經(jīng)過一系列上傳審核程序,電子發(fā)票服務(wù)平臺(tái)按電子發(fā)票機(jī)制和要求生成帶開票方簽章的電子發(fā)票及其版式文件,消費(fèi)者可以自行下載。數(shù)據(jù)時(shí)代,很多電子文件的生成、存儲(chǔ)、保管、利用等生命周期內(nèi)的管理環(huán)節(jié)不適合再遵從數(shù)字時(shí)代的思維模式,而須在數(shù)據(jù)思維框架下重新構(gòu)建。數(shù)據(jù)的廣泛應(yīng)用不僅改變了人們的記錄方式,更革新著人們看待世界的思維和視角。傳統(tǒng)檔案思維也需面向未來進(jìn)行變革,即在重新審視檔案與數(shù)據(jù)關(guān)系的基礎(chǔ)上,樹立以數(shù)據(jù)為導(dǎo)向的檔案思維,站在數(shù)據(jù)管理視角思考檔案管理問題。思維先行是檔案部門應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的首要準(zhǔn)備。

面向發(fā)展,需求倒逼和現(xiàn)實(shí)瓶頸驅(qū)動(dòng)檔案資源數(shù)據(jù)化

推動(dòng)檔案管理數(shù)字化向數(shù)據(jù)化轉(zhuǎn)變的原因不僅僅是現(xiàn)代科技的迭代更新,更主要的原因是來自信息化時(shí)代檔案信息資源利用的現(xiàn)實(shí)瓶頸,即現(xiàn)有的數(shù)字化檔案資源已無法滿足檔案用戶的多元現(xiàn)實(shí)需求。我國(guó)檔案數(shù)字化工作方興未艾,雖擺脫了紙質(zhì)檔案遠(yuǎn)程在線利用的困境,但還未實(shí)現(xiàn)計(jì)算機(jī)可讀、可理解的數(shù)據(jù)粒度(指數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的細(xì)化和綜合程度。根據(jù)數(shù)據(jù)粒度細(xì)化標(biāo)準(zhǔn),細(xì)化程度越高,粒度越??;細(xì)化程度越低,粒度越大)層級(jí)的管理與開發(fā),尤其研究型用戶全面多元的利用需求仍無法滿足。任越等學(xué)者在對(duì)黑龍江省地市級(jí)綜合檔案館進(jìn)行深入調(diào)研的基礎(chǔ)上,總結(jié)出檔案信息資源開發(fā)利用過程中存在的數(shù)據(jù)化處理深度不夠、檔案機(jī)構(gòu)數(shù)據(jù)意識(shí)不強(qiáng)、檔案數(shù)據(jù)關(guān)聯(lián)度不高等現(xiàn)實(shí)問題。青島市檔案館副館長(zhǎng)楊來青同樣立足于檔案工作實(shí)踐,提出針對(duì)檔案內(nèi)容的細(xì)粒度管理與開發(fā),即檔案“再信息化”戰(zhàn)略的重要內(nèi)容之一。利用需求和現(xiàn)有數(shù)字化檔案開發(fā)成果的不匹配促使檔案開發(fā)向數(shù)據(jù)層級(jí)轉(zhuǎn)向,這使得檔案管理數(shù)據(jù)化成了大數(shù)據(jù)時(shí)代檔案事業(yè)發(fā)展的新方向。檔案數(shù)據(jù)化的主要任務(wù)是檔案內(nèi)容的數(shù)據(jù)化,將檔案內(nèi)容智能地碎片化分解成計(jì)算機(jī)可讀可處理的數(shù)據(jù)形式,通過碎片化的數(shù)據(jù)與數(shù)據(jù)集合實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)系建構(gòu)與重組,最后對(duì)檔案數(shù)據(jù)進(jìn)行語(yǔ)義加工處理并進(jìn)行可視化展示。檔案內(nèi)容數(shù)據(jù)化具體表現(xiàn)為:檔案管理層級(jí)的遞進(jìn)、檔案開發(fā)粒度的細(xì)化、檔案內(nèi)容語(yǔ)義關(guān)聯(lián)的加強(qiáng)。首先,檔案管理從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變帶來最顯著的變化是檔案管理層級(jí)的遞進(jìn)和檔案管理對(duì)象的轉(zhuǎn)變,即從傳統(tǒng)的管理文件到管理數(shù)據(jù),數(shù)據(jù)化處理后的檔案與原生數(shù)據(jù)態(tài)的電子檔案對(duì)傳統(tǒng)以“案卷”為管理單位的檔案管理系統(tǒng)形成了挑戰(zhàn)。其次,相比于傳統(tǒng)紙質(zhì)檔案與電子檔案的開發(fā),數(shù)據(jù)化后檔案資源的開發(fā)單位將從文件細(xì)化到內(nèi)容,將內(nèi)容語(yǔ)義化為數(shù)據(jù),檔案開發(fā)的顆粒度不斷細(xì)化,分散在海量文件中的檔案數(shù)據(jù)通過本體、語(yǔ)義分析等技術(shù),更大限度地實(shí)現(xiàn)檔案價(jià)值的深度開發(fā)。最后,檔案內(nèi)容數(shù)據(jù)化的最終目的是利用檔案數(shù)據(jù)實(shí)現(xiàn)海量檔案間跨文件、跨卷宗的相關(guān)內(nèi)容關(guān)聯(lián),利于用戶檢索并最終提供更優(yōu)更全的檔案服務(wù)。碎片化后的檔案數(shù)據(jù)需借助語(yǔ)義處理等技術(shù)對(duì)零散的檔案數(shù)據(jù)基于語(yǔ)義進(jìn)行分類、合并,旨在突顯出檔案數(shù)據(jù)間的語(yǔ)義相關(guān)關(guān)系,進(jìn)而在優(yōu)化檔案檢索結(jié)果的同時(shí)可以發(fā)掘隱含在檔案間的深層聯(lián)系。檔案內(nèi)容數(shù)據(jù)化可視為檔案管理數(shù)據(jù)化轉(zhuǎn)變的核心內(nèi)容,不僅是檔案部門在大數(shù)據(jù)時(shí)代立足實(shí)踐所作出的適應(yīng)性戰(zhàn)略轉(zhuǎn)變,更是信息時(shí)代檔案用戶利用需求的倒逼和檔案部門突破工作瓶頸實(shí)現(xiàn)自我升級(jí)的完美契合點(diǎn)。目前,真正實(shí)現(xiàn)檔案內(nèi)容數(shù)據(jù)化的典型例子是各個(gè)國(guó)家或地區(qū)的數(shù)字人文項(xiàng)目,在數(shù)據(jù)化的基礎(chǔ)上,對(duì)檔案內(nèi)容文本進(jìn)行分類、聚合、關(guān)聯(lián)等處理,利用GIS、VR、AR等技術(shù)展示檔案內(nèi)容。例如,1993年美國(guó)弗吉尼亞大學(xué)數(shù)字歷史研究中心啟動(dòng)的以美國(guó)南北戰(zhàn)爭(zhēng)時(shí)期平民生活檔案為主題的“影谷項(xiàng)目”,將眾多平民在南北戰(zhàn)爭(zhēng)期間的信件、日記、報(bào)表、公告、報(bào)紙、演講稿等原始記錄進(jìn)行數(shù)據(jù)化并加以展示,“影谷項(xiàng)目”的網(wǎng)頁(yè)所展示內(nèi)容都是檔案資源內(nèi)容數(shù)據(jù)化的成果。

面向用戶,數(shù)據(jù)賦能升級(jí)檔案服務(wù)多樣化

檔案管理數(shù)據(jù)化最終受益于檔案用戶,數(shù)據(jù)態(tài)的檔案資源、數(shù)據(jù)處理技術(shù)以及可視化技術(shù)等多方因素的碰撞都將使未來的檔案服務(wù)體驗(yàn)迥然區(qū)別于傳統(tǒng)的檔案利用服務(wù),數(shù)據(jù)是升級(jí)檔案服務(wù)的關(guān)鍵因素。第一,數(shù)據(jù)賦能檔案服務(wù)知識(shí)化。數(shù)據(jù)態(tài)的檔案資源為檔案服務(wù)知識(shí)化提供了源源不斷的原料和堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),檔案管理數(shù)據(jù)化則是推動(dòng)這一發(fā)展的強(qiáng)大動(dòng)力。近幾年,我國(guó)相關(guān)領(lǐng)域?qū)W者開始嘗試從理論層面探索歷史文獻(xiàn)等檔案資料的數(shù)據(jù)化工作。比如王開隊(duì)在借鑒CDBD和CHGIS技術(shù)思路的基礎(chǔ)上,將徽州族譜中人物和地理信息數(shù)據(jù)化。檔案服務(wù)知識(shí)化的實(shí)現(xiàn)需借助語(yǔ)義、本體、知識(shí)圖譜等技術(shù)對(duì)檔案內(nèi)容進(jìn)行語(yǔ)義拆分、清洗、合并、可視化處理,最終呈現(xiàn)出豐富全面的檔案知識(shí)成果。隨著技術(shù)的不斷發(fā)展,檔案資源數(shù)據(jù)化程度也將不斷提升,檔案服務(wù)在滿足檔案用戶日常查閱需求的同時(shí),必將在數(shù)據(jù)的驅(qū)動(dòng)下不斷邁向知識(shí)化。第二,數(shù)據(jù)驅(qū)動(dòng)檔案部門跨領(lǐng)域合作。在這個(gè)“數(shù)據(jù)為王”的時(shí)代,數(shù)據(jù)是組織間相互競(jìng)爭(zhēng)的重要資源,但數(shù)據(jù)同樣也是實(shí)現(xiàn)不同組織機(jī)構(gòu)間戰(zhàn)略合作的基礎(chǔ)。2017年,《文化部“十三五”時(shí)期文化科技創(chuàng)新規(guī)劃》提出:“依托數(shù)字文化資源元數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè),匯集數(shù)據(jù)并進(jìn)行組織與關(guān)聯(lián)。研究用戶數(shù)據(jù)采集標(biāo)準(zhǔn),促進(jìn)全國(guó)圖書館、博物館、文化館、美術(shù)館采集與共享用戶數(shù)據(jù)。與社會(huì)力量共同開發(fā)利用文化資源數(shù)據(jù),選擇優(yōu)質(zhì)社會(huì)數(shù)據(jù)與文化資源數(shù)據(jù)融合”。檔案部門保管著大量歷史文化資源,然而,此規(guī)劃并沒有明確提到檔案部門應(yīng)如何參與其中,我國(guó)目前尚未有國(guó)家層面的檔案部門跨領(lǐng)域合作的戰(zhàn)略規(guī)劃,這說明我國(guó)檔案部門的跨領(lǐng)域合作還有很大的發(fā)展空間。在2020年新修訂的《中華人民共和國(guó)檔案法》中明確提出:“國(guó)家推進(jìn)檔案信息資源共享服務(wù)平臺(tái)建設(shè),推動(dòng)檔案數(shù)字資源跨區(qū)域、跨部門共享利用”。利用檔案數(shù)據(jù)促進(jìn)檔案部門跨機(jī)構(gòu)、跨領(lǐng)域合作并通過不同領(lǐng)域海量數(shù)據(jù)的關(guān)聯(lián)聚合,積極借鑒國(guó)外圖檔博等領(lǐng)域合作聯(lián)盟的相關(guān)經(jīng)驗(yàn),持續(xù)推進(jìn)與圖書館、博物館、美術(shù)館、文化館等文化遺產(chǎn)機(jī)構(gòu)間的合作并不斷擴(kuò)充檔案數(shù)據(jù)資源庫(kù),是檔案部門實(shí)現(xiàn)檔案資源信息化建設(shè)發(fā)展的必經(jīng)之路。可以預(yù)見的是,圖檔博等機(jī)構(gòu)間的數(shù)據(jù)共享以及數(shù)字人文項(xiàng)目等領(lǐng)域合作在新技術(shù)的支撐下將會(huì)給檔案用戶帶來更加立體化的利用體驗(yàn)。第三,檔案用戶數(shù)據(jù)收集及利用優(yōu)化檔案服務(wù)。除了前文提到的檔案內(nèi)容數(shù)據(jù)化之外,以往不被留意的檔案用戶數(shù)據(jù)的收集與利用也是檔案管理數(shù)據(jù)化表現(xiàn)之一。在保護(hù)隱私和保障安全的前提下,借助用戶利用所產(chǎn)生的大數(shù)據(jù)可提供更個(gè)性化、更精準(zhǔn)的檔案服務(wù)。檔案學(xué)界有學(xué)者提出,利用用戶個(gè)體所形成的“小數(shù)據(jù)”,實(shí)現(xiàn)檔案信息資源的精準(zhǔn)化服務(wù)。換句話說,就是利用用戶個(gè)體形成的用戶習(xí)慣、資源需求等數(shù)據(jù)勾勒“用戶畫像”,實(shí)現(xiàn)檔案用戶的靶向服務(wù),這與開發(fā)用戶利用所累積形成的大數(shù)據(jù)并不矛盾。檔案用戶個(gè)體所形成的“小數(shù)據(jù)”是形成檔案用戶大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ),海量的檔案用戶數(shù)據(jù)有益于把握大多數(shù)用戶利用檔案的總體情況、檔案資源的利用率以及檔案用戶的滿意度及反饋等。對(duì)檔案用戶數(shù)據(jù)的利用,可采用“小數(shù)據(jù)”與大數(shù)據(jù)相結(jié)合的方式,在對(duì)檔案用戶利用情況有總體把握的前提下,進(jìn)一步突出個(gè)性化服務(wù)??偟膩碚f,檔案管理從數(shù)字化到數(shù)據(jù)化的跨越是大數(shù)據(jù)時(shí)代檔案部門信息化發(fā)展的題中之義,檔案管理數(shù)據(jù)化也是在大數(shù)據(jù)時(shí)代檔案部門面向未來、面向自身發(fā)展以及面向用戶的重要發(fā)展戰(zhàn)略轉(zhuǎn)型。檔案管理數(shù)據(jù)化的未來不僅要實(shí)現(xiàn)檔案數(shù)字化到內(nèi)容數(shù)據(jù)化的知識(shí)組織轉(zhuǎn)型,更應(yīng)實(shí)現(xiàn)數(shù)字資源從內(nèi)容數(shù)據(jù)化到數(shù)據(jù)智能化的價(jià)值開發(fā)和智慧洞見。隨著大數(shù)據(jù)的不斷發(fā)展,智能數(shù)據(jù)將會(huì)是未來影響檔案管理數(shù)據(jù)化的又一變革因素,隨著檔案管理數(shù)據(jù)化工作逐步推進(jìn),智能數(shù)據(jù)將會(huì)在海量檔案數(shù)據(jù)的基礎(chǔ)上完成原始數(shù)據(jù)積累,未來的檔案信息化建設(shè)將在數(shù)據(jù)化時(shí)代邁上新臺(tái)階。

作者:于英香 滕玉潔 單位:上海大學(xué)圖書情報(bào)檔案系