公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)架構(gòu)下的文獻(xiàn)資源管理應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)架構(gòu)下的文獻(xiàn)資源管理應(yīng)用范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

大數(shù)據(jù)架構(gòu)下的文獻(xiàn)資源管理應(yīng)用

摘要:本文介紹了在圖書館情報(bào)領(lǐng)域數(shù)據(jù)管理中存在的信息孤島、數(shù)據(jù)類型缺乏統(tǒng)一架構(gòu)等問(wèn)題,通過(guò)對(duì)實(shí)際應(yīng)用中數(shù)據(jù)類型的分析,利用大數(shù)據(jù)存儲(chǔ)的系統(tǒng)架構(gòu),使用關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型數(shù)據(jù)庫(kù)結(jié)合,同時(shí)輔以內(nèi)存數(shù)據(jù)庫(kù)和分布式文件系統(tǒng),對(duì)內(nèi)部用戶提供統(tǒng)一元數(shù)據(jù)管理,對(duì)外部提供統(tǒng)一數(shù)據(jù)訪問(wèn)平臺(tái)和統(tǒng)一數(shù)據(jù)搜索引擎,從而實(shí)現(xiàn)對(duì)多種結(jié)構(gòu)數(shù)據(jù)資源的管理和應(yīng)用.

關(guān)鍵詞:圖書館;大數(shù)據(jù);數(shù)據(jù)存儲(chǔ);異構(gòu)數(shù)據(jù);非關(guān)系型數(shù)據(jù)庫(kù)

作為以圖書館為基礎(chǔ)的情報(bào)研究機(jī)構(gòu),隨著近年數(shù)據(jù)資源量的不斷增加,各類文獻(xiàn)、圖書、期刊、基礎(chǔ)數(shù)據(jù)等都需要進(jìn)行穩(wěn)定的存儲(chǔ)與高效率的分析。同時(shí),基于這些數(shù)據(jù)的知識(shí)庫(kù)、咨詢服務(wù)智庫(kù)等系統(tǒng)的建設(shè)也都迫在眉睫。為了能充分管理眾多數(shù)據(jù),為各類系統(tǒng)提供數(shù)據(jù)基礎(chǔ),有必要建設(shè)一個(gè)結(jié)構(gòu)統(tǒng)一、技術(shù)先進(jìn)、可重復(fù)利用的數(shù)據(jù)資源平臺(tái),統(tǒng)一管理各類數(shù)字化資源。

1存在問(wèn)題

面對(duì)大量的數(shù)據(jù)資源,在信息化過(guò)程中通常會(huì)碰到以下問(wèn)題:1.1信息孤島現(xiàn)象這種現(xiàn)象是指需求建設(shè)的應(yīng)用系統(tǒng)存在相互之間在功能上不關(guān)聯(lián)互助、信息無(wú)法共享互換以及信息與業(yè)務(wù)流程和應(yīng)用相互脫節(jié)等問(wèn)題,缺乏統(tǒng)一元數(shù)據(jù)管理。1.2多種類型數(shù)據(jù)缺乏統(tǒng)一數(shù)據(jù)架構(gòu)每個(gè)業(yè)務(wù)環(huán)節(jié)都會(huì)有大量非結(jié)構(gòu)化、結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如何對(duì)這類數(shù)據(jù)進(jìn)行統(tǒng)一分析管理。在這些多種結(jié)構(gòu)的數(shù)據(jù)中存在大量?jī)?nèi)在關(guān)聯(lián),只有統(tǒng)一數(shù)據(jù)存儲(chǔ),才能進(jìn)一步挖掘出數(shù)據(jù)中存在的深層價(jià)值。1.3軟硬件環(huán)境重復(fù)購(gòu)買現(xiàn)象在信息化建設(shè)過(guò)程中,新建應(yīng)用系統(tǒng)都會(huì)根據(jù)自身需求重新搭建軟件、硬件環(huán)境,大部分系統(tǒng)運(yùn)行所需軟硬件并沒(méi)有達(dá)到資源的滿負(fù)荷利用。1.4缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)由于多年系統(tǒng)建設(shè)過(guò)程中由不同團(tuán)隊(duì)開發(fā),造成相同數(shù)據(jù)內(nèi)容格式不統(tǒng)一,存在大量冗余數(shù)據(jù),彼此數(shù)據(jù)更新不暢通。1.5缺乏統(tǒng)一數(shù)據(jù)安全管理方案在日常工作過(guò)程中需要進(jìn)行大量數(shù)據(jù)交互與實(shí)時(shí)操作,缺乏統(tǒng)一的信息化安全手段對(duì)數(shù)據(jù)分配權(quán)限進(jìn)行管理,并實(shí)現(xiàn)定期的資源備份。

2建設(shè)目標(biāo)

基于以上狀況,考慮基于大數(shù)據(jù)架構(gòu)的文獻(xiàn)資源管理方案應(yīng)可達(dá)到以下目標(biāo):(1)實(shí)現(xiàn)基于統(tǒng)一元數(shù)據(jù)定義的信息集中管理和信息共享,為數(shù)字出版、數(shù)據(jù)加工、咨詢服務(wù)、日常管理等各項(xiàng)工作提供統(tǒng)一數(shù)據(jù)資源平臺(tái)。(2)實(shí)現(xiàn)統(tǒng)一大數(shù)據(jù)環(huán)境,滿足各個(gè)應(yīng)用對(duì)于文檔數(shù)據(jù)、關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)和內(nèi)存型數(shù)據(jù)的統(tǒng)一存儲(chǔ)需求。(3)構(gòu)建基于SOA架構(gòu)的應(yīng)用系統(tǒng),保證在應(yīng)用對(duì)于數(shù)據(jù)訪問(wèn)權(quán)限的統(tǒng)一管理。(4)建設(shè)統(tǒng)一搜索環(huán)境,滿足于各種數(shù)據(jù)資源能夠統(tǒng)一搜索查詢?cè)L問(wèn)。(5)建設(shè)必須具備高度的先進(jìn)性、可靠性、可用性、安全性并具備良好的擴(kuò)展性和靈活性。

3建設(shè)方案

3.1資源建設(shè)方案

圖書館中常見資源主要包括文獻(xiàn)、圖書、期刊、數(shù)值型數(shù)據(jù)、動(dòng)態(tài)信息等。依據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,可主要分為基礎(chǔ)數(shù)據(jù)、結(jié)構(gòu)化數(shù)值型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、動(dòng)態(tài)信息、其他文字類信息等幾類。其特點(diǎn)如下:(1)基礎(chǔ)數(shù)據(jù):主要如書目、期刊文獻(xiàn)等數(shù)據(jù);(2)動(dòng)態(tài)信息:主要包括各類網(wǎng)站、媒體的信息,時(shí)效性比較強(qiáng);(3)非結(jié)構(gòu)化數(shù)據(jù):主要包括格式不夠統(tǒng)一的數(shù)值型數(shù)據(jù);(4)結(jié)構(gòu)化數(shù)值型數(shù)據(jù):可以定期獲取的格式相對(duì)規(guī)范的數(shù)據(jù),如海關(guān)進(jìn)出口數(shù)據(jù)、圖書期刊銷售數(shù)據(jù);(5)其他文字類信息:更新頻度較慢的文字類數(shù)據(jù),如各類法律庫(kù)、研究報(bào)告等;針對(duì)不同類型的數(shù)據(jù)資源,應(yīng)對(duì)其采用特定的方式進(jìn)行處理、保存及利用。3.1.1基礎(chǔ)數(shù)據(jù)包括如數(shù)據(jù)、期刊文獻(xiàn)等基礎(chǔ)數(shù)據(jù)都應(yīng)經(jīng)過(guò)數(shù)字化加工、元數(shù)據(jù)定義、自動(dòng)標(biāo)引、關(guān)鍵數(shù)據(jù)提取等多個(gè)步驟,分別保存至相應(yīng)數(shù)據(jù)庫(kù)。3.1.2動(dòng)態(tài)信息動(dòng)態(tài)信息的來(lái)源主要是各個(gè)網(wǎng)站,包括網(wǎng)站文章及各類輿情信息??梢杂杉夹g(shù)手段完成從信息采集、分類整理到分發(fā)的所有過(guò)程。整個(gè)流程由三個(gè)規(guī)則來(lái)體現(xiàn):分別是采集規(guī)則、分類規(guī)則、分發(fā)規(guī)則。采集規(guī)則:采集規(guī)則由編輯確定,包括來(lái)源網(wǎng)站、欄目等。利用爬蟲技術(shù),可對(duì)所有網(wǎng)站的資源進(jìn)行自動(dòng)增量采集,并裝入“待分類庫(kù)”。分類規(guī)則:分類規(guī)則利用到詞表、詞庫(kù)以及自動(dòng)標(biāo)引技術(shù)。由專家及編輯對(duì)所有資源進(jìn)行多維度分類,并提供相應(yīng)的語(yǔ)料,經(jīng)過(guò)學(xué)習(xí),對(duì)之前進(jìn)入“待分類庫(kù)”中的所有數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)引。之后,所有的數(shù)據(jù)將被從多個(gè)維度被分類。保存后即可方便準(zhǔn)確的提取。分發(fā)規(guī)則:在完成上述兩項(xiàng)工作之后,所有的動(dòng)態(tài)信息已經(jīng)被分門別類的整理好。通過(guò)分類、關(guān)鍵詞即可快速提取相關(guān)的信息。對(duì)于已經(jīng)經(jīng)過(guò)規(guī)范化處理的動(dòng)態(tài)信息,也可以直接利用形成產(chǎn)品,同樣依據(jù)自有的多維分類,即可把相關(guān)的動(dòng)態(tài)信息直接推送給用戶。3.1.3結(jié)構(gòu)化數(shù)值型數(shù)據(jù)結(jié)構(gòu)化數(shù)值型數(shù)據(jù)包括海關(guān)進(jìn)出口數(shù)據(jù)、統(tǒng)計(jì)局?jǐn)?shù)據(jù)、產(chǎn)品庫(kù)等眾多格式相對(duì)規(guī)范資源。由于數(shù)據(jù)量的不斷增大,需要考慮使用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)對(duì)所有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行規(guī)范保存,利用建模的方式保存數(shù)據(jù)。這類數(shù)據(jù)的主要用途分為兩部分對(duì)內(nèi)提供數(shù)據(jù)的查詢,對(duì)外提供報(bào)告的自動(dòng)生成。(1)數(shù)據(jù)查詢。規(guī)范化存儲(chǔ)之后的數(shù)據(jù)可以方便的通過(guò)多個(gè)維度進(jìn)行查詢、鉆取,內(nèi)容的研究人員可以直接通過(guò)輸入查詢條件進(jìn)行數(shù)據(jù)的查詢,同時(shí)生成各類圖表。(2)自動(dòng)報(bào)告。對(duì)外可以以產(chǎn)品的形式提供多種數(shù)據(jù)報(bào)告,利用預(yù)先準(zhǔn)備的模板,在用戶選擇所需報(bào)告之后,利用已有數(shù)據(jù),套用不同模板形成一份自動(dòng)的報(bào)告。3.1.4非結(jié)構(gòu)化數(shù)據(jù)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),將主要通過(guò)兩種方式來(lái)處理。(1)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化。部分非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)是結(jié)構(gòu)化數(shù)據(jù),因?yàn)槟承┰虿旁斐闪藬?shù)據(jù)的不完整,對(duì)于這類數(shù)據(jù),需要整理結(jié)構(gòu)的最大集并將相應(yīng)的數(shù)據(jù)填入對(duì)應(yīng)字段。在完成此步驟之后,可采用類似對(duì)于結(jié)構(gòu)化處理的方式對(duì)這些資源進(jìn)行處理。(2)非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)引分類。除上述的數(shù)據(jù)之外,還有一部分非結(jié)構(gòu)化數(shù)據(jù)過(guò)于零散,只能采用標(biāo)引的方法實(shí)現(xiàn)這些數(shù)據(jù)的歸檔利用。方法和動(dòng)態(tài)信息的處理方式類似。3.1.5文字類信息文字類信息的特點(diǎn)是實(shí)效性不強(qiáng),每次后都會(huì)長(zhǎng)期使用。比如法律法規(guī)、咨詢報(bào)告等。這類資源應(yīng)主要采用自動(dòng)標(biāo)引的技術(shù)進(jìn)行處理。首先也需有多個(gè)維度的分類、詞庫(kù)、詞表以及語(yǔ)料,經(jīng)過(guò)學(xué)習(xí)后將每篇文章進(jìn)行標(biāo)引分類,之后再將文章內(nèi)的段落進(jìn)行二次標(biāo)引。這樣,所有的資源都可以通過(guò)關(guān)鍵詞、多個(gè)維度的分類進(jìn)行提取,即可獲取具體段落資源、也可以獲取完整的文章報(bào)告。這類規(guī)整后的信息可提供給內(nèi)部科研人員作為資料進(jìn)行調(diào)用,同時(shí)可以為結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)生成報(bào)告提供文字資源。

3.2技術(shù)建設(shè)架構(gòu)

針對(duì)資源建設(shè)的方案,考慮采用關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型數(shù)據(jù)庫(kù)結(jié)合的方式建立存儲(chǔ)架構(gòu)。3.2.1數(shù)據(jù)存儲(chǔ)技術(shù)一個(gè)完整的數(shù)據(jù)環(huán)境,需要面對(duì)來(lái)自于各個(gè)方面的數(shù)據(jù)存儲(chǔ)需求挑戰(zhàn),主要存在的數(shù)據(jù)存儲(chǔ)需求為:(1)文檔型數(shù)據(jù)存儲(chǔ)需求(2)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)需求(3)實(shí)時(shí)型數(shù)據(jù)存儲(chǔ)需求(4)非關(guān)系型數(shù)據(jù)關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)勢(shì)在于保持?jǐn)?shù)據(jù)的一致性,由于以數(shù)據(jù)標(biāo)準(zhǔn)化為前提,數(shù)據(jù)更新的系統(tǒng)開銷很小,同時(shí)可以方便的進(jìn)行Join等復(fù)雜查詢。MySQL是目前最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。尤其在WEB應(yīng)用方面,它與PHP語(yǔ)言的結(jié)合是目前最為成熟、穩(wěn)定、安全的技術(shù)之一。針對(duì)現(xiàn)有數(shù)據(jù),絕大多數(shù)的結(jié)構(gòu)化數(shù)據(jù)都可以保存在該類數(shù)據(jù)庫(kù)中,從而實(shí)現(xiàn)復(fù)雜條件下的檢索操作。同時(shí),關(guān)系型數(shù)據(jù)庫(kù)擔(dān)任保存整個(gè)系統(tǒng)元數(shù)據(jù)架構(gòu)與基本數(shù)據(jù)的任務(wù),是其他結(jié)構(gòu)數(shù)據(jù)庫(kù)存儲(chǔ)及導(dǎo)入導(dǎo)出的基礎(chǔ)。NoSQL泛指非關(guān)系型的數(shù)據(jù)庫(kù)。它的優(yōu)勢(shì)在于性能,由于NoSQL是基于鍵值對(duì)的,可以想象成表中的主鍵和值的對(duì)應(yīng)關(guān)系,而且不需要經(jīng)過(guò)SQL層的解析,所以性能非常高。另外可擴(kuò)展性同樣也是因?yàn)榛阪I值對(duì),數(shù)據(jù)之間沒(méi)有耦合性,所以非常容易水平擴(kuò)展。它可以最大程度的解決關(guān)系型數(shù)據(jù)庫(kù)所不擅長(zhǎng)的大量數(shù)據(jù)的寫入處理和為有數(shù)據(jù)更新的表做索引或表結(jié)構(gòu)變更等問(wèn)題。用NoSQL可以方便的保存系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)實(shí)際需求隨時(shí)調(diào)整其結(jié)構(gòu)。分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。由于系統(tǒng)中數(shù)據(jù)資源過(guò)于龐大,為提高其使用訪問(wèn)效率,利用HDFS的一次寫入、多次讀寫的特性。數(shù)據(jù)集一旦由數(shù)據(jù)源生成,就會(huì)被復(fù)制分發(fā)到不同的存儲(chǔ)節(jié)點(diǎn)中,從而響應(yīng)各種各樣的數(shù)據(jù)分析任務(wù)請(qǐng)求。以Redis為代表的內(nèi)存數(shù)據(jù)庫(kù),是基于全部數(shù)據(jù)都存在內(nèi)存中的技術(shù)體系,拋棄了磁盤數(shù)據(jù)管理的方式,它在采用半持久化模式運(yùn)行時(shí)所有數(shù)據(jù)都是保存在內(nèi)存中,然后不定期的通過(guò)異步方式保存到磁盤上。通過(guò)這種方式,內(nèi)存數(shù)據(jù)庫(kù)在保證讀寫速度遠(yuǎn)超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)的基礎(chǔ)上,又可對(duì)其數(shù)據(jù)進(jìn)行分布式存儲(chǔ)且具有可恢復(fù)性。針對(duì)以上需求內(nèi)容,結(jié)合各種軟件的特性:(1)MySQL滿足關(guān)系型數(shù)據(jù)庫(kù)需求;(2)NoSQL滿足對(duì)數(shù)據(jù)結(jié)構(gòu)要求靈活需求;(3)HDFS滿足文檔類型數(shù)據(jù)存儲(chǔ)需求;(4)Redis內(nèi)存型數(shù)據(jù)庫(kù),滿足高速存取需求;提供統(tǒng)一數(shù)據(jù)存儲(chǔ)環(huán)境,為后續(xù)數(shù)據(jù)統(tǒng)一元數(shù)據(jù)管理、數(shù)據(jù)統(tǒng)一權(quán)限管理、數(shù)據(jù)統(tǒng)一搜索等建設(shè)提供了充分必要條件。3.2.2數(shù)據(jù)訪問(wèn)平臺(tái)統(tǒng)一數(shù)據(jù)存儲(chǔ)提供大容量數(shù)據(jù)存儲(chǔ)環(huán)境,滿足數(shù)據(jù)存儲(chǔ)的大量、高速、多樣的需求。在這個(gè)基礎(chǔ)上,還需要有統(tǒng)一元數(shù)據(jù)對(duì)存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行定義,統(tǒng)一數(shù)據(jù)訪問(wèn)安全控制對(duì)數(shù)據(jù)訪問(wèn)者進(jìn)行權(quán)限控制,用數(shù)據(jù)統(tǒng)一搜索打通各種類型數(shù)據(jù),為后續(xù)數(shù)據(jù)挖掘分析提供數(shù)據(jù)高速訪問(wèn)接口。3.2.3統(tǒng)一元數(shù)據(jù)管理元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),主要是描述數(shù)據(jù)屬性(property)的信息,用來(lái)支持如指示存儲(chǔ)位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須在描述并收藏?cái)?shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。將所有資源的元數(shù)據(jù)統(tǒng)一管理,是進(jìn)一步應(yīng)用的前提。3.2.4數(shù)據(jù)統(tǒng)一搜索在具備數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)訪問(wèn)平臺(tái)基礎(chǔ)上,構(gòu)建滿足于融合關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、文件數(shù)據(jù)庫(kù)以及內(nèi)存數(shù)據(jù)庫(kù)的統(tǒng)一搜索引擎,并在構(gòu)建搜索索引過(guò)程中融入專業(yè)詞庫(kù)詞表。以Web服務(wù)方式提供搜索引擎服務(wù),對(duì)用戶所輸入的文字進(jìn)行分詞,并結(jié)合搜索引擎索引,進(jìn)行詞關(guān)系匹配,并按用戶所需排序格式提供數(shù)據(jù)排序給用戶。搜索服務(wù)提供web服務(wù)方式給應(yīng)用系統(tǒng)使用,應(yīng)用系統(tǒng)需根據(jù)自身權(quán)限范圍進(jìn)行數(shù)據(jù)搜索范圍設(shè)置。通過(guò)上述平臺(tái)的組合,可以為圖書館中文獻(xiàn)、圖書、期刊、數(shù)值型數(shù)據(jù)、動(dòng)態(tài)信息等為主的各類型數(shù)據(jù)提供完整的管理解決方案,并通過(guò)具有詞表技術(shù)的搜索引擎提供對(duì)外接口。

4結(jié)束語(yǔ)

雖然關(guān)系型數(shù)據(jù)庫(kù)有著技術(shù)成熟、易維護(hù)、支持SQL方式的復(fù)雜查詢、豐富的完整性約束等諸多優(yōu)勢(shì),且在圖書館情報(bào)領(lǐng)域被廣泛應(yīng)用。但隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型的不斷增多以及應(yīng)用模式的不斷變化,嘗試傳統(tǒng)數(shù)據(jù)架構(gòu)+大數(shù)據(jù)架構(gòu)的存儲(chǔ)、管理和應(yīng)用將是圖情領(lǐng)域未來(lái)的技術(shù)架構(gòu)發(fā)展方向。

參考文獻(xiàn)

[1]朱潔,羅華霖.大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)[M].電子工業(yè)出版社,2012.

[2][美]湯姆,懷特(TomWhite)著.王海,華東,劉喻,呂粵海譯.Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)[M].清華大學(xué)出版社,2011.

[3]栗蔚,魏凱.大數(shù)據(jù)的技術(shù)、應(yīng)用和價(jià)值變革[J].電信網(wǎng)技術(shù),2013(07).

[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(01).

[5]申德榮,于戈,王習(xí)特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的nosql系統(tǒng)研究綜述[J].軟件學(xué)報(bào),2013(08).

作者:解飛 單位:機(jī)械工業(yè)信息研究院