公務員期刊網(wǎng) 論文中心 正文

核心期刊多源信息深度聚合模式應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了核心期刊多源信息深度聚合模式應用范文,希望能給你帶來靈感和參考,敬請閱讀。

核心期刊多源信息深度聚合模式應用

摘要:針對核心期刊相關信息的分散異構,探索其在管理與服務中的創(chuàng)新應用。從3個層次聚合期刊相關信息,即數(shù)據(jù)層收集和整理各來源的核心期刊相關數(shù)據(jù),信息層采用元數(shù)據(jù)和本體詞匯對期刊相關數(shù)據(jù)及其特征進行語義規(guī)范描述,知識層基于本體和關聯(lián)數(shù)據(jù)技術,從語義上揭示期刊信息各概念之間的關系,實現(xiàn)了中外文核心期刊信息的多維展示、關聯(lián)發(fā)現(xiàn)和多維統(tǒng)計分析,并進一步分析其在采訪決策和個性化服務中的應用前景。

關鍵詞:核心期刊;多源信息;深度聚合;知識組織

1引言

期刊是高校圖書館館藏文獻資源建設和服務的重點。在期刊采訪、管理和服務等過程中,其相關信息(如收錄情況、影響力、分區(qū)、開放性、館藏和利用情況等)多而雜,且來源廣泛,具有無序性、獨立性、多源性和分散性,給讀者的發(fā)現(xiàn)和利用帶來困難,也不便于對利用情況進行分析。為方便讀者利用,進而指導高校圖書館館藏期刊資源的建設,有必要對期刊的相關信息進行整合。邱均平等[1]認為隨著讀者需求的提升,對數(shù)字資源進行深度聚合是數(shù)字資源建設發(fā)展到一定階段的必然要求。童旺宇[2]研究了圖書相關信息的聚合,并指出其可為用戶提供決策支持服務。對多源期刊信息進行聚合能夠使期刊相關信息更為集中、有序,從而更好地為讀者提供期刊信息服務,對其特征和利用行為的分析可為進一步優(yōu)化館藏期刊資源的配置提供決策支持。

2相關概念

2.1核心期刊及其信息的多源性

核心期刊是指學術水平較高的期刊,或某一學科中高水平、高影響力的期刊。英國文獻學家布拉德福在1931年首先揭示了文獻集中與分散規(guī)律,發(fā)現(xiàn)某時期某學科1/3的論文刊登在3.2%的期刊上[3];1971年,SCI創(chuàng)始人加菲爾德統(tǒng)計了參考文獻在期刊上的分布情況,發(fā)現(xiàn)24%的引文出現(xiàn)在1.25%的期刊上[4]。這些研究均表明期刊存在“核心效應”,進而衍生出“核心期刊”的概念,同時在國內(nèi)外產(chǎn)生了多種核心期刊遴選體系。國內(nèi)核心期刊遴選體系有中文核心期刊要目總覽(北京大學)、中國科學引文數(shù)據(jù)庫核心庫(中國科學院)、中文社會科學引文索引(南京大學)、中國科技期刊引證報告(中國科學技術信息研究所)。國際核心期刊遴選體系主要有SCIE(收錄理科工科類)、SSCI(收錄經(jīng)濟管理人文類)、A&HCI(收錄藝術與人文科學類)、EI(收錄工科及少量管理類)等。期刊多源信息是指期刊的相關信息來源于不同的信息平臺,其相關信息包括期刊刊名元數(shù)據(jù)、收錄信息、分區(qū)信息、影響因子、開放性等(如圖1所示),針對具體的高校機構還包括館藏和機構成果等,這些信息分散于不同的信息環(huán)境中。

2.2信息聚合

聚合原意為將分散的個體聚集在一起。在互聯(lián)網(wǎng)領域,信息聚合是指挑選、分析互聯(lián)網(wǎng)上的海量信息并根據(jù)內(nèi)容進行歸類,進而為用戶提供優(yōu)質有用的更具針對性的信息[5]。本研究中的核心期刊信息聚合是指針對高校的教學和科研需求,聚合各來源多維度的期刊相關數(shù)據(jù),展示期刊的整體概貌,方便讀者發(fā)現(xiàn)和甄別自己感興趣的期刊,同時為圖書館期刊采訪提供決策支持。

3核心期刊多源信息聚合模式

核心期刊相關信息類型多樣、來源廣泛且關聯(lián)性強。對核心期刊相關信息的聚合不僅要收集期刊各個維度的數(shù)據(jù),而且要對數(shù)據(jù)特征進行語義描述,反映其知識關聯(lián),以對期刊相關信息進行有效揭示。因此,根據(jù)數(shù)據(jù)來源和信息組織形式,期刊相關信息可從數(shù)據(jù)層、信息層和知識層3個層次進行聚合,在此基礎上提供創(chuàng)新應用服務。聚合模式如圖2所示:數(shù)據(jù)層聚合是對多來源的期刊相關數(shù)據(jù)進行收集和整理。數(shù)據(jù)收集是依據(jù)核心期刊收錄標準收集期刊的描述性元數(shù)據(jù),以及與期刊相關的影響因子、分區(qū)、收錄情況、開放特征、館藏特征、機構成果、評價等數(shù)據(jù);數(shù)據(jù)整理是對所收集的期刊數(shù)據(jù)進行去重、歸并、規(guī)范化和數(shù)據(jù)增強等數(shù)據(jù)清洗工作,如期刊分類整理、重復數(shù)據(jù)合并、字段格式規(guī)范、缺失數(shù)據(jù)補充等,以保證期刊相關數(shù)據(jù)的完整性和準確性。信息層聚合是對期刊相關數(shù)據(jù)及其特征進行語義規(guī)范描述,以實現(xiàn)機器可理解。圖書館領域常用的語義元數(shù)據(jù)描述規(guī)范有DC、MARC、BIBO、FRBR和PRISM等本體詞匯。知識層聚合是對事物的本質及事物間的關系進行揭示和控制。對期刊信息進行知識層聚合是對期刊所涉及的相關概念及其關系進行有效關聯(lián),并進行語義描述。知識層聚合涉及的相關技術有語義網(wǎng)、本體、關聯(lián)數(shù)據(jù)和敘詞(SKOS)等[6-7],可從多角度揭示期刊信息的知識內(nèi)容和相互關系?;谝陨?個層次的期刊相關信息聚合所提供的創(chuàng)新應用服務有多視角期刊信息的分面導航、關聯(lián)發(fā)現(xiàn)、多維統(tǒng)計分析、定制與推薦,以及為期刊采訪提供決策支持等。

4核心期刊多源信息聚合關鍵技術分析

核心期刊多源信息聚合涉及的關鍵技術主要包括多源信息的ETL(Extract-Trans-form-Load,抽取-轉換-加載)、期刊信息知識組織的本體概念模型,以及期刊相關概念屬性元數(shù)據(jù)語義描述。

4.1期刊多源信息的ETL

期刊多源信息的ETL是指從各數(shù)據(jù)源抽取所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按預定的數(shù)據(jù)格式加載到系統(tǒng)中。需要抽取的期刊信息數(shù)據(jù)類型、來源和收集數(shù)據(jù)要求如下表所示:表中各種類型的期刊相關信息可從相應的來源網(wǎng)站下載或要求數(shù)據(jù)庫廠商提供,由于不同來源的數(shù)據(jù)格式不一致,需要對數(shù)據(jù)進行清洗。期刊相關信息的清洗工作主要包括數(shù)據(jù)歸并、數(shù)據(jù)規(guī)范化和數(shù)據(jù)增強。①期刊數(shù)據(jù)歸并,即對各來源的期刊相關數(shù)據(jù)與期刊總庫做唯一性匹配。由于各種來源期刊的ISSN號和刊名可能與總庫中的信息不一致(如刊名和ISSN號變更、書寫方式差異等)而無法匹配,需要通過程序對各來源相關信息進行唯一性檢測或人工整理,使其與總庫的期刊相匹配。這是一項基礎性工作。②期刊數(shù)據(jù)規(guī)范化,即對各個字段的格式進行規(guī)范統(tǒng)一,如ISSN號統(tǒng)一為XXXX-XXXX格式,年份統(tǒng)一為4位等。③期刊數(shù)據(jù)增強,即當有些信息不全時,需從不同的來源進行元數(shù)據(jù)補充,甚至人工錄入。

4.2期刊信息知識組織的本體概念模型

期刊信息知識組織的目標是對期刊相關信息進行整序,使知識存儲有序化、易獲取。本研究對期刊相關信息的知識組織是基于概念層次而非知識內(nèi)容層次,采取語義網(wǎng)和本體(Ontology)技術相結合的方式建模。期刊相關信息知識組織的核心是建立本體概念模型,模型主要涉及期刊相關概念、概念的屬性及概念之間的相互關系。根據(jù)上表中期刊相關信息所包含的內(nèi)容,其可定義的概念類有期刊母體、期刊文章、科研機構、科研人物,以及期刊母體的屬性概念子類:影響因子、期刊分區(qū)、收錄來源、開放期刊、館藏特征和利用情況。期刊相關信息本體概念模型如圖3所示,概念和子概念以節(jié)點表示,各概念之間的關系以邊表示,概念之間定義了關系,如科研人物是科研機構的成員(memberOf),卷期是期刊母體的部分(isPartOf),收錄來源是期刊母體的子屬性(subPropertyOf)等,同時這些關系也是互逆的,各概念彼此之間構成網(wǎng)狀關聯(lián)結構,一個概念可以關聯(lián)到其他各個概念。

4.3期刊相關概念屬性元數(shù)據(jù)語義描述

期刊相關信息本體概念模型建立了期刊各概念之間的相互關聯(lián),其概念、關系和屬性要使機器可理解,需借鑒本體詞匯(如bibo、fa-bio、foaf、dcterms、rdfs、owl等)進行語義規(guī)范。對于擴展的詞匯,本研究自定義擴展詞匯的命名空間為journal。概念和關系的語義規(guī)范描述詞匯已定義(如圖3所示),下面對各概念的屬性元數(shù)據(jù)進行語義規(guī)范描述。期刊母體類可用bibo:Journal本體詞匯描述,其數(shù)據(jù)屬性為刊名(dc:title)、歷史刊名(dcterms:alternative)、ISSN(bibo:issn)、語種(dc:language)、出版頻次(dcterms:accrualPe-riodicity)、創(chuàng)刊年(prism:creationDate)、簡介(dc:description)、主題分類(dc:subject);對象屬性有官網(wǎng)地址(prism:url)。機構成果為機構科研人物所發(fā)表的期刊文章,概念類有科研人物(foaf:Person)、科研機構(foaf:Organization)、卷期(bibo:Issue)和期刊文章(fabio:JournalArticle),其數(shù)據(jù)屬性主要有題名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、頁碼(prism:page)、關鍵詞(prism:key-word)、摘要(dcterms:abstract),對象屬性有DOI(bibo:doi)。卷期類與期刊母體為屬于與被屬于的關系(isPartOf/hasPart),期刊文章類與卷期類也是屬于與被屬于的關系,期刊文章由科研人物創(chuàng)建(creator),科研人物為科研機構的成員(memberOf)。期刊母體相關屬性類的概念采用自定義詞匯集(journal),其具有的子屬性關系(rdfs:sub-PropertyOf)的類有收錄來源(journal:Source)、影響力(journal:Impact)、分區(qū)(journal:Zone)、開放特征(journal:Open)、館藏特征(journal:Collec-tion)和期刊利用(journal:Utilization)。子屬性類的數(shù)據(jù)屬性有年份(prism:year)、月份(prism:month)、主題分類(dc:subject)、收錄類型(jour-nal:CollectionType)、分區(qū)類型(journal:Zone-Type)、Top期刊(journal:Top)、被引次數(shù)(jour-nal:TotalCites)、影響因子(journal:ImpactFac-tor)、特征因子(journal:Eigenfactor)、請求量(journal:NumberOfRequests)、來源數(shù)據(jù)庫(jour-nal:DataBase)、網(wǎng)址(prism:url)、OA期刊類型(journal:OpenType)。以上從語義上定義了期刊相關信息的概念類、屬性及其關系,通過各概念之間的語義關聯(lián)使期刊相關信息的各概念構成了一種網(wǎng)狀關聯(lián)結構,從而便于進行知識推理,從任意維度出發(fā)發(fā)現(xiàn)更多有價值的信息,便于期刊信息的深度發(fā)掘。

5核心期刊多源信息聚合的應用

基于上述核心期刊相關信息聚合模式,本研究收集整理了核心期刊的7類相關信息:最新收錄、影響因子、分區(qū)、開放特征,以及某單位圖書館的期刊館藏、機構成果和期刊利用數(shù)據(jù),實現(xiàn)核心期刊信息導航展示與多維分類統(tǒng)計、期刊多維信息展示與關聯(lián)發(fā)現(xiàn),并對其在期刊采訪決策和個性化服務中的應用前景進行分析。

5.1核心期刊信息導航展示與多維分類統(tǒng)計

用戶可以從收錄來源、分區(qū)類型和年份等多個維度統(tǒng)計和展示各個學科類別或分區(qū)的核心期刊數(shù)量、OA刊數(shù)量、館藏刊數(shù)量、友好刊數(shù)量(本機構成員發(fā)文的期刊),然后再導航到各類期刊的列表。一方面,可方便用戶找到自己感興趣的各種特征的期刊;另一方面可方便采訪人員了解各學科的核心期刊分布情況。

5.2核心期刊多維信息展示與關聯(lián)發(fā)現(xiàn)

期刊相關信息各概念之間的語義關聯(lián)使具體期刊的相關信息發(fā)現(xiàn)更為便捷。一方面可以從多個維度聚合期刊相關信息,將期刊各維度的信息展示出來,如對于某一具體期刊可聚合期刊元數(shù)據(jù),各種類型各年份的收錄、分區(qū)、影響因子信息、期刊的機構發(fā)文、電子及紙本館藏信息、期刊利用情況等;另一方面,期刊各概念關聯(lián)層次的多級性使用戶可以發(fā)現(xiàn)更多有價值的信息,同時可關聯(lián)到同學科、同分區(qū)或相同收錄來源的相關期刊等。

5.3期刊采訪決策

期刊相關信息聚合后便可從多個角度對期刊進行統(tǒng)計和分析,為圖書館期刊采訪提供決策支持。高校圖書館在做期刊采訪決策時,需要對期刊的影響力、利用情況、學科分區(qū)、館藏特征、友好性和開放性等進行分析[8]。從聚合的核心期刊相關信息中可統(tǒng)計出本館已訂購各學科哪些核心電子刊、紙本刊;已訂購的每種核心期刊在本校的利用情況、使用成本;各數(shù)據(jù)庫中的期刊利用率情況;各學科中哪些核心期刊未訂購;各學科未訂購的核心期刊的影響力、開放性、友好性、來源數(shù)據(jù)庫情況。這些都是期刊采訪需要了解的信息,其統(tǒng)計和分析結果可為期刊采訪提供決策支持。

5.4期刊信息定制、推薦與服務融合

在數(shù)字圖書館個性化服務中,期刊相關信息的定制是指用戶自定義期刊相關主題、刊名、作者、收錄來源和分區(qū)等組合的檢索條件,系統(tǒng)自動把檢索到的期刊或文章最新結果集提供給用戶,使用戶更加及時便捷地獲取自己感興趣的期刊相關信息。期刊信息的推薦是指根據(jù)用戶的發(fā)文、借閱或檢索行為等,把與讀者行為相關的期刊信息、期刊目次或期刊文章推薦給用戶。期刊相關信息服務融合是指將期刊數(shù)據(jù)服務融入其他平臺,便于用戶發(fā)現(xiàn)和利用。如融入圖書館學科信息服務系統(tǒng),提供學科期刊信息服務;融入微信、圖書館個性化服務平臺,便于讀者了解期刊相關信息和投稿,也可開放的關聯(lián)數(shù)據(jù),方便第三方利用期刊信息。

結語

期刊相關信息的聚合使分散異構的期刊信息有序化。數(shù)據(jù)層從各來源采集期刊相關信息,對其進行數(shù)據(jù)清洗后載入系統(tǒng),其中大部分工作可通過程序自動完成。信息層和知識層對期刊相關信息概念化、語義化和關聯(lián)化。期刊相關信息深度聚合使讀者發(fā)現(xiàn)和利用期刊更為便捷,在對期刊進行多維統(tǒng)計分析的基礎上,可為高校圖書館期刊采訪提供決策支持。

參考文獻:

[1]邱均平,方國平.高校圖書館語義化館藏資源深度聚合模式及其應用研究[J].圖書館學研究,2014(21):64-71.

[2]童旺宇.OPAC系統(tǒng)中面向用戶決策的圖書信息多源融合[J].圖書館工作與研究,2017(6):93-100.

[3]陳勤.布拉德福定律在期刊計量管理中的若干應用[J].圖書情報工作,1997(12):12-14,23.

[4]賴茂生,屈鵬,趙康.論期刊評價的起源和核心要素[J].重慶大學學報(社會科學版),2009(3):67-72.

[5]網(wǎng)絡聚合[EB/OL].[2019-07-01].

[6]張建紅.基于語義關聯(lián)的海量數(shù)字資源知識聚合與服務研究[J].圖書館工作與研究,2016(8):44-47.

[7]鮮國建,趙瑞雪,孟憲學,等.基于知識組織體系的多維語義關聯(lián)數(shù)據(jù)構建研究[J].數(shù)字圖書館論壇,2014(3):11-18.

[8]周理盛,尚永紅,李永鋒,等.中南林業(yè)科技大學高水平科研論文引文分析———基于SCI/SSCI/A&HCI[J].中南林業(yè)科技大學學報(社會科學版),2014(4):182-185.

作者:周理盛 熊擁軍 單位:中南林業(yè)科技大學圖書館

相關熱門標簽