公務(wù)員期刊網(wǎng) 精選范文 聚類分析論文范文

聚類分析論文精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的聚類分析論文主題范文,僅供參考,歡迎閱讀并收藏。

聚類分析論文

第1篇:聚類分析論文范文

1.芭蕾是一種形式感很強(qiáng)的舞臺(tái)表演藝術(shù)

芭蕾是一種形式感很強(qiáng)的舞臺(tái)表演藝術(shù)。即使不特別熟悉這一藝術(shù)樣式的觀眾,也知道它是“足尖上的舞蹈”,知道它那挺拔、修長(zhǎng)的“Arabesque”,知道它那“天鵝般”靜穆與典雅的舞風(fēng)。事實(shí)上,“形式感”很強(qiáng)的芭蕾,積淀的是包括基督精神、哥特式審美和紳士風(fēng)度等在內(nèi)的西方文化精神。根據(jù)文化傳播學(xué)的原理,某一文化形態(tài)在播遷異域后,反倒比其原生地的母體更固守形態(tài)的原發(fā)性和純粹性。盡管芭蕾的形式在中國(guó)大眾的接受境遇中已與原有的文化精神相剝離,但要在這種抽象的幾何形態(tài)中注人中國(guó)文化精神也并非易事。更何況“大紅燈籠”所面對(duì)的是《妻妾成群》這樣的文化舊俗和社會(huì)陋習(xí)。張藝謀高掛芭蕾“大紅燈籠”的初衷,可能是燈籠的象征、京劇的意味以及傳統(tǒng)中國(guó)的文化色彩,但他不能不首先對(duì)原著的敘述焦點(diǎn)及焦點(diǎn)人物作顛覆性的處理,否則他將被芭蕾的“形式感”所顛覆。非??粗亍靶问健痹谒囆g(shù)表現(xiàn)中的重要作用的張藝謀,不可能置芭蕾藝術(shù)的“形式感”不顧而為所欲為。

2.按照舞劇敘述的特性升華原著的主題

據(jù)稱芭蕾舞劇《大紅燈籠高高掛》改編自張藝謀的同名電影,但張藝謀的電影則是改編自蘇童不同名的小說《妻妾成群》。我并不認(rèn)為張藝謀電影的選材是迎合西方世界期待的中國(guó)“民族性”,從小說《妻妾成群》更名為電影《大紅燈籠高高掛》來看,毋寧說是張藝謀更看重選材中“鏡頭語言”的藝術(shù)張力及其文化內(nèi)涵。將《妻妾成群》的直描隱匿在“大紅燈籠”的暗喻之后,是電影敘述中“鏡頭語言”的特性所決定的;電影無需改變?cè)臄⑹鼋裹c(diǎn)和焦點(diǎn)人物,因?yàn)樵凇按蠹t燈籠”高掛的鏡頭下,仍然是老爺?shù)拿呋ㄋ蘖推捩臓?zhēng)風(fēng)吃醋。但顯然,芭蕾“形式感”所決定的“舞劇敘述”拒絕老爺成為“男首席”。這一方面是由于芭蕾“男首席”體態(tài)語言的美學(xué)規(guī)范拒絕“老爺”的委瑣和陰毒,另一方面也是由于老爺“成群的妻妾”使“女首席”難以抉擇。于是,芭蕾舞劇“大紅燈籠”將“男首席”聚集于那位與三太太“”的戲班武生,三太太也就順理成章地成了“女首席”;又于是,男、女首席的“”事件沿著自身的敘述邏輯展開,它不是“妻妾成群”中的“世態(tài)百象”,而是其原有的“純情”之戀的“一以貫之”。于是,芭蕾舞劇《大紅燈籠高高掛》敘述的主線,體現(xiàn)為三太太的與其戀人——戲班武生的四段雙人舞:序幕中三太太被迫出嫁時(shí)憶及舊時(shí)戀人的“純情”雙人舞;三幕中戲班武生唱堂會(huì)時(shí)相逢三太太的“傾情”雙人舞;三幕中三太太不顧家法、以身相許舊時(shí)戀人的“”雙人舞;尾聲中戲班武生與三太太被老爺杖刑奪去年輕生命的“殉情”雙人舞……在我看來,舞劇的敘述特性首先體現(xiàn)為按男、女首席舞者的命運(yùn)來設(shè)定情節(jié),盡管“大紅燈籠”還不可能完全擺脫原著情節(jié)的構(gòu)成框架,但原著的情節(jié)框架已拉開成背景,原著的主題也由于焦點(diǎn)人物的轉(zhuǎn)換而得以升華。值得注意的是,在這種敘述特性的觀照下,二太太從告密以邀寵到點(diǎn)燈而遭難的線索難免給人以枝蔓橫生之感。

第2篇:聚類分析論文范文

〔關(guān)鍵詞〕移動(dòng)圖書館;熱點(diǎn);共詞分析;因子分析;聚類分析;多維尺度分析

DOI:10.3969/j.issn.1008-0821.2014.07.008

〔中圖分類號(hào)〕G2501〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2014)07-0040-05

移動(dòng)圖書館(Mobile library)原指“汽車圖書館”,是一種以大型交通工具作為空間載體,內(nèi)置書架及各種圖書報(bào)刊,通過位置移動(dòng)的方式供不同地方讀者取閱的圖書館。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)、移動(dòng)通信技術(shù)以及智能終端的快速發(fā)展,移動(dòng)圖書館具有了新的內(nèi)涵,如今主要是指利用各種智能終端,不受時(shí)間和空間限制,以無線接入方式訪問圖書館資源的一種新型服務(wù)方式。移動(dòng)圖書館方便、高效、快捷的服務(wù)方式迎合了現(xiàn)代人們的信息需求特點(diǎn),因此,移動(dòng)圖書館的研究受到了國(guó)內(nèi)外學(xué)術(shù)界的普遍重視,現(xiàn)已成為國(guó)內(nèi)外圖書情報(bào)領(lǐng)域的一個(gè)研究熱點(diǎn)。我國(guó)于2000年正式啟動(dòng)移動(dòng)圖書館建設(shè),經(jīng)過十多年的發(fā)展,我國(guó)在移動(dòng)圖書館理論與實(shí)踐研究領(lǐng)域已取得了豐碩的成果。

筆者以CNKI數(shù)據(jù)庫(kù)中的相關(guān)期刊論文為研究基礎(chǔ),采用共詞分析方法,借助中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系開發(fā)的書目共現(xiàn)分析Bicomb軟件確定高頻關(guān)鍵詞和高頻關(guān)鍵詞共詞矩陣,用SPSS190軟件進(jìn)行因子分析、聚類分析以及多維尺度分析,從而在此基礎(chǔ)上揭示我國(guó)移動(dòng)圖書館研究領(lǐng)域的熱點(diǎn)和現(xiàn)狀。

1關(guān)于共詞分析方法

共詞分析方法是一種基于內(nèi)容分析的方法,是法國(guó)文獻(xiàn)計(jì)量學(xué)家于20世紀(jì)70年代中后期基于引文耦合與共被引概念提出的。其基本原理主要是通過分析某一學(xué)科領(lǐng)域文獻(xiàn)集中的詞匯對(duì)或名詞短語共同出現(xiàn)的情況,來判斷該學(xué)科領(lǐng)域文獻(xiàn)各主題之間的關(guān)系。筆者在研究過程中,主要是對(duì)移動(dòng)圖書館文獻(xiàn)集中的關(guān)鍵詞進(jìn)行共現(xiàn)統(tǒng)計(jì),以此確定不同主題的相關(guān)關(guān)系,并且在運(yùn)用共詞分析方法分析我國(guó)移動(dòng)圖書館研究熱點(diǎn)時(shí),主要遵循了以下幾個(gè)步驟:①確定移動(dòng)圖書館研究領(lǐng)域高頻關(guān)鍵詞;②利用Bicomb軟件構(gòu)建高頻關(guān)鍵詞共詞矩陣;③利用SPSS190軟件進(jìn)行斯皮爾曼系數(shù)處理后得到相關(guān)矩陣進(jìn)行因子分析;④用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法得到相異矩陣后利用SPSS190軟件進(jìn)行聚類分析;⑤利用SPSS190軟件對(duì)已得到的相關(guān)矩陣進(jìn)行多維尺度分析;⑥對(duì)所獲得的信息結(jié)果進(jìn)行分析。

2014年7月第34卷第7期現(xiàn)?代?情?報(bào)Journal of Modern InformationJuly,2014Vol34No72014年7月第34卷第7期我國(guó)移動(dòng)圖書館研究熱點(diǎn)分析July,2014Vol34No72數(shù)據(jù)來源與處理

在共詞分析過程中,考慮到我國(guó)移動(dòng)圖書館研究論文收錄的全面性,2014年2月12日,筆者以CNKI全文數(shù)據(jù)庫(kù)為數(shù)據(jù)來源進(jìn)行檢索,檢索策略為“主題=移動(dòng)圖書館”或者“主題=手機(jī)圖書館”,共檢索到729篇文獻(xiàn),經(jīng)過剔除不相關(guān)文獻(xiàn)之后得到680篇文獻(xiàn),然后下載這些論文的題錄,利用Bicomb軟件的統(tǒng)計(jì)功能進(jìn)行關(guān)鍵詞統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果顯示所有文獻(xiàn)共含有2 466個(gè)關(guān)鍵詞,從中選擇出57個(gè)詞頻大于等于5的關(guān)鍵詞作為共詞分析的基礎(chǔ)(見表1)。

3移動(dòng)圖書館的共詞分析

31因子分析

因子分析的主要思想是利用盡可能少的因子去描述眾多指標(biāo)或要素之間的聯(lián)系,即將相關(guān)性較高的幾個(gè)變量歸為一組,在每一組變量中找出隱藏的具有代表性的因子成為一個(gè)公共因子,以較少的公共因子反映原始資料的大部分信息,最后使得同組內(nèi)的變量之間具有較高的相關(guān)性,不同組的變量之間具有相對(duì)較低的相關(guān)性。

利用SPSS190分析中的斯皮爾曼系數(shù)將已生成的高頻關(guān)鍵詞共詞矩陣轉(zhuǎn)換成相關(guān)矩陣,并以此相關(guān)矩陣為基礎(chǔ),在SPSS190中選擇主成份方法、協(xié)方差矩陣和最大方差旋轉(zhuǎn)進(jìn)行因子分析,得到相關(guān)矩陣的解釋總方差(見表3)。

32聚類分析

聚類分析又稱群集分析,是根據(jù)“物以類聚”的思想對(duì)事物的特性進(jìn)行比較分類,將具有相近特性的事物歸為一類,將具有特性差別較大的事物歸入不同的類。

在聚類分析中,為消除共詞頻次差異的影響,需要將57*57的共詞相關(guān)矩陣轉(zhuǎn)化為相異矩陣,具體方法是用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法進(jìn)行轉(zhuǎn)化。然后利用SPSS190軟件聚類分析中常用的系統(tǒng)聚類法對(duì)共詞矩陣進(jìn)行聚類,聚類時(shí)聚類方法選用Wards算法,聚類度量標(biāo)準(zhǔn)選擇“計(jì)數(shù)”中的斐方(Phi square measure),轉(zhuǎn)換值標(biāo)準(zhǔn)化選擇Z得分。最后經(jīng)過分析得到聚類樹狀結(jié)構(gòu)圖,通過這個(gè)樹狀圖可以初步判斷各關(guān)鍵詞之間的親疏關(guān)系,結(jié)合前面的因子分析結(jié)果,我國(guó)移動(dòng)圖書館研究領(lǐng)域的聚類樹狀結(jié)構(gòu)圖可以確定為5個(gè)大類(見圖1),進(jìn)而可以為多維尺度分析的最終分組提供依據(jù)。

33多維尺度分析

多維尺度分析是研究對(duì)象之間相似性或差異性的一種多元統(tǒng)計(jì)分析方法,其基本原理是將研究對(duì)象從多維空間簡(jiǎn)化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對(duì)象間原始關(guān)系的數(shù)據(jù)分析方法[1]。

筆者以前面的相關(guān)矩陣為基礎(chǔ)利用SPSS190軟件進(jìn)行多維尺度分析,結(jié)合因子分析和聚類分析的結(jié)果,繪制了具有5個(gè)類團(tuán)的多維尺度分析圖(見圖2)。這5個(gè)類團(tuán)分別代表的主題是:1移動(dòng)圖書館服務(wù)模式;2移動(dòng)技術(shù)在圖書館的應(yīng)用;3移動(dòng)圖書館系統(tǒng)設(shè)計(jì)分析及實(shí)現(xiàn);4移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢(shì);5移動(dòng)圖書館應(yīng)用實(shí)例介紹。

5結(jié)語

本文以我國(guó)移動(dòng)圖書館研究領(lǐng)域的高頻關(guān)鍵詞為基礎(chǔ),通過共詞分析方法進(jìn)行了因子分析、聚類分析和多維尺度分析,結(jié)果發(fā)現(xiàn)我國(guó)的研究學(xué)者對(duì)移動(dòng)圖書館的研究主要集中在移動(dòng)圖書館服務(wù)模式、移動(dòng)技術(shù)在圖書館的應(yīng)用、移動(dòng)圖書館系統(tǒng)設(shè)計(jì)分析及實(shí)現(xiàn)、移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢(shì)、移動(dòng)圖書館應(yīng)用實(shí)例介紹五個(gè)方面。盡管我國(guó)學(xué)者在移動(dòng)圖書館研究領(lǐng)域取得了不錯(cuò)的研究成績(jī),但是從因子分析和聚類分析結(jié)果來看,我國(guó)移動(dòng)圖書館的新興主題研究不夠,難以形成一類,如“個(gè)性化服務(wù)”、“移動(dòng)閱讀”等主題,由于研究涉獵不多,所發(fā)表的論文數(shù)量偏少,結(jié)果在共詞分析中只能依附于其他相關(guān)主題。

值得注意的是本研究在研究過程中存在一定局限性,一是由于某些論文的關(guān)鍵詞著錄不規(guī)范,使得關(guān)鍵詞數(shù)據(jù)還不夠全面完善;二是移動(dòng)圖書館的高頻關(guān)鍵詞的閥值選定是個(gè)值得商榷的事,到底選擇多大閥值的關(guān)鍵詞才能全面反映移動(dòng)圖書館的整體狀況仍是一個(gè)值得不斷探索的事情,筆者將在未來的研究中不斷地進(jìn)行實(shí)踐完善。

參考文獻(xiàn)

[1]陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書館核心價(jià)值研究[J].大學(xué)圖書館學(xué)報(bào),2011,(6):34-40.

[2]宋鸞姣,李利.面向智能手機(jī)的移動(dòng)圖書館服務(wù)需求調(diào)查分析[J].圖書館,2012,(5):71-72.

[3]宋恩梅.移動(dòng)的書海:國(guó)內(nèi)移動(dòng)圖書館現(xiàn)狀及發(fā)展趨勢(shì)[J].中國(guó)圖書館學(xué)報(bào),2010,36(5):36-48.

[4]龍泉,謝春枝,申艷.國(guó)外高校移動(dòng)圖書館應(yīng)用現(xiàn)狀調(diào)查及啟示[J].圖書館論壇,2013,(5):60-64.

[5]潘志鵬.基于手機(jī)平臺(tái)的圖書館延伸服務(wù)――以武漢圖書館手機(jī)服務(wù)為例[J].情報(bào)理論與實(shí)踐,2011,(1):76-79.

[6]袁輝,楊新涯,王寧.移動(dòng)圖書館的實(shí)踐與展望──以重慶大學(xué)圖書館為例[J].圖書館建設(shè),2011,(11):66-70.

[7]董偉.國(guó)內(nèi)近十年數(shù)字圖書館領(lǐng)域研究熱點(diǎn)分析――基于共詞分析[J].圖書情報(bào)知識(shí),2009,(131):58-63.

第3篇:聚類分析論文范文

房地產(chǎn)投資環(huán)境屬于城市投資環(huán)境的子系統(tǒng),縱觀國(guó)內(nèi)外學(xué)者建立的各種投資環(huán)境評(píng)價(jià)方法,現(xiàn)階段用的比較多的方法有:灰色關(guān)聯(lián)分析法(鄧聚龍,1988),層次分析法(SAATYTL,1908),模糊評(píng)判法(CHUATW,1979),人工神經(jīng)網(wǎng)絡(luò)法(HECHT-NIELSENR,1987),物元分析法(蔡文,1994)以及投影尋蹤法(FriedmanJH,TukeyJW,1974)等.其中灰色關(guān)聯(lián)分析法、模糊評(píng)判法、物元分析法是主觀分析方法,在此類方法的應(yīng)用中主要由人為的根據(jù)經(jīng)驗(yàn)確定各個(gè)指標(biāo)的權(quán)重,因此其評(píng)價(jià)結(jié)果具有一定的人為隨意性;人工神經(jīng)網(wǎng)絡(luò)方法能夠消除評(píng)價(jià)過程中的人為隨意性,但是其學(xué)習(xí)訓(xùn)練需要相當(dāng)多的樣本,況且還容易陷入局部極小點(diǎn),因此不便于推廣應(yīng)用;投影尋蹤方法能夠?qū)⒏呔S數(shù)據(jù)轉(zhuǎn)變?yōu)榈途S數(shù)據(jù),通過低維空間數(shù)據(jù)來分析高維空間數(shù)據(jù),但是其中的密度半徑窗口參數(shù)需要根據(jù)經(jīng)驗(yàn)來確定,其評(píng)價(jià)結(jié)果仍然帶有一定的主觀性;當(dāng)然也有一些經(jīng)典的傳統(tǒng)降維方法能夠利用指標(biāo)數(shù)據(jù)信息對(duì)投資環(huán)境做出較客觀的評(píng)價(jià),比如主成分分析法和因子分析法,但是此類方法是從眾多指標(biāo)中提取少量指標(biāo)來反應(yīng)樣本信息,使得樣本的信息損失量較大,同時(shí)對(duì)樣本數(shù)據(jù)也有嚴(yán)格的要求.投影尋蹤動(dòng)態(tài)聚類模型依據(jù)動(dòng)態(tài)聚類思想來構(gòu)建投影指標(biāo),完全依靠樣本數(shù)據(jù)自身特性根據(jù)投影指標(biāo)來尋找投影向量,利用投影向量將高維樣本數(shù)據(jù)投影到低維數(shù)據(jù),然后通過研究處理低維數(shù)據(jù)達(dá)到研究高維數(shù)據(jù)目的,同時(shí)實(shí)現(xiàn)樣本數(shù)據(jù)的排序和自動(dòng)聚類分析.投影尋蹤動(dòng)態(tài)聚類模型已經(jīng)在洪水災(zāi)害管理、氣候分區(qū)和區(qū)域水安全評(píng)價(jià)等領(lǐng)域的多元數(shù)據(jù)分析中取得了一定的應(yīng)用.本文將投影尋蹤動(dòng)態(tài)聚類模型應(yīng)用到房地產(chǎn)投資環(huán)境評(píng)價(jià)中,以期為房地產(chǎn)投資環(huán)境評(píng)價(jià)提供更多的方法論。

2實(shí)例研究

為了驗(yàn)證投影尋蹤動(dòng)態(tài)聚類模型在房地產(chǎn)投資環(huán)境評(píng)價(jià)中的適用性,下文將進(jìn)行實(shí)例研究.考慮指標(biāo)數(shù)據(jù)的易獲得性,以遼寧省工業(yè)地產(chǎn)的投資環(huán)境分析為例.張軍濤和劉建國(guó)利用主成分分析法篩選了影響遼寧省主要城市投資環(huán)境評(píng)價(jià)的主要指標(biāo),之后利用聚類原理對(duì)數(shù)據(jù)進(jìn)行了聚類分析;楊建喜和宋永發(fā)利用基于遺傳算法的投影尋蹤方法將高維數(shù)據(jù)降維到低維數(shù)據(jù),然后利用雷達(dá)圖對(duì)投影特征值進(jìn)行聚類分析,研究了遼寧工業(yè)地產(chǎn)投資環(huán)境的排序.以上兩篇論文中使用兩類不同的方法得到了類似的排序和聚類結(jié)論.本文的研究以此為基礎(chǔ),通過投影尋蹤動(dòng)態(tài)聚類模型進(jìn)行遼寧省工業(yè)地產(chǎn)投資環(huán)境評(píng)價(jià),然后與文獻(xiàn)的結(jié)論進(jìn)行比較,以檢驗(yàn)投影尋蹤動(dòng)態(tài)聚類模型的適用性.工業(yè)地產(chǎn)是區(qū)別于住宅地產(chǎn),商業(yè)地產(chǎn)和綜合用地以外的工業(yè)性質(zhì)的房地產(chǎn).影響工業(yè)地產(chǎn)投資環(huán)境評(píng)價(jià)的因素眾多,參考文獻(xiàn)從社會(huì)文化環(huán)境、基礎(chǔ)設(shè)施環(huán)境、經(jīng)濟(jì)發(fā)展環(huán)境、工業(yè)發(fā)展環(huán)境4個(gè)方面選擇36個(gè)指標(biāo)對(duì)遼寧省14個(gè)地級(jí)市的工業(yè)地產(chǎn)投資環(huán)境進(jìn)行分析評(píng)價(jià)。首先,確定遼寧省工業(yè)地產(chǎn)投資環(huán)境的分類數(shù),這里參照文獻(xiàn)的分類,將整個(gè)樣本分為3類。同時(shí)得各個(gè)城市的投影特征值,投影特征值排序以及投影特征值聚類結(jié)果。最后,將本文的分析結(jié)果與文獻(xiàn)的分析結(jié)果進(jìn)行對(duì)比。所得排序和分類結(jié)果與用投影尋蹤分析方法和用主成分分析方法基本一致,驗(yàn)證了本模型在房地產(chǎn)投資環(huán)境評(píng)價(jià)中的適用價(jià)值.但與文獻(xiàn)中的基于遺傳算法的投影尋蹤算法相比:克服了需要根據(jù)經(jīng)驗(yàn)來確定投影指標(biāo)函數(shù)的密度窗口半徑參數(shù)和對(duì)投影特征值要借助雷達(dá)圖進(jìn)行聚類再處理的過程;與文獻(xiàn)的主成分分析方法相比:投影尋蹤動(dòng)態(tài)聚類模型能夠更多的利用原始指標(biāo)信息,使得出的結(jié)論可能更加客觀可靠.同時(shí)投影尋蹤動(dòng)態(tài)聚類模型在對(duì)數(shù)據(jù)的排序過程中自動(dòng)輸出聚類結(jié)果,不需要再借助其他方法進(jìn)行聚類分析.這具有文獻(xiàn)中所用方法無法比擬的優(yōu)勢(shì).在同一聚類數(shù)據(jù)中,個(gè)別數(shù)據(jù)的排序結(jié)果與文獻(xiàn)中結(jié)論稍微不一致,這主要是由于在用遺傳算法求解時(shí)每次生成的單位投影向量帶有一定的隨機(jī)性所致。

3結(jié)語

第4篇:聚類分析論文范文

關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN

中圖分類號(hào):TP29 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因?yàn)槌鲂械木用袷墙煌康闹饕獊碓碵1]。一個(gè)城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會(huì)對(duì)城市交通體系產(chǎn)生影響[2]。對(duì)居民出行特征進(jìn)行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個(gè)基礎(chǔ)性任務(wù),不僅可以用來對(duì)目前的交通出行情況進(jìn)行評(píng)估,也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè),對(duì)實(shí)施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。

出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時(shí),因?yàn)樗钠瘘c(diǎn)和終點(diǎn)由乘客決定,且24小時(shí)不間斷服務(wù),所以,出租車的運(yùn)營(yíng)規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運(yùn)管理中心傳送出租車的實(shí)時(shí)經(jīng)緯度、運(yùn)營(yíng)狀態(tài)、行駛方向、速度等信息,因此,管理中心會(huì)積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對(duì)這些進(jìn)行數(shù)據(jù)進(jìn)行聚類分析,可以在一定程度上挖掘乘客出行的時(shí)空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。

1 GPS軌跡數(shù)據(jù)挖掘設(shè)計(jì)

1.1 數(shù)據(jù)預(yù)處理

本文選取榆陽區(qū)(地理坐標(biāo)為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運(yùn)營(yíng)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當(dāng)前位置loc、GPS時(shí)間ct、營(yíng)運(yùn)狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個(gè)屬性組成,部分屬性值如表1所示。

表1中,營(yíng)運(yùn)狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運(yùn);GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。

1.2 利用DBSCAN算法進(jìn)行聚類挖掘

居民的作息和社會(huì)活動(dòng)有明顯的時(shí)間規(guī)律,比如上下班高峰期的載客點(diǎn)分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時(shí)間特征分類,再進(jìn)行密度聚類分析,如此便可充分挖掘在不同時(shí)間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時(shí)空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率?;诖?,論文引入了DBBSCAN算法,該算法需要3個(gè)輸入?yún)?shù):歷史軌跡數(shù)據(jù)對(duì)象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('緯度');

2 實(shí)驗(yàn)結(jié)果

聚類結(jié)果如圖1和圖2所示,出行熱點(diǎn)區(qū)域在圖中用圓圈標(biāo)出。

以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時(shí)間特征。工作日和非工作日出租車熱點(diǎn)區(qū)域不同,且工作日的不同時(shí)間居民出行的特征不同;在工作日,出租車的載客熱點(diǎn)數(shù)比非工作日多;而載客熱點(diǎn)分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機(jī)提供歷史載客熱點(diǎn)序列,從一定程度上解決巡游方式的出租車空載率高的問題。

3 結(jié)束語

本文利用DBSCAN算法對(duì)出租車的歷史GPS軌跡數(shù)據(jù)進(jìn)行挖掘,從挖掘結(jié)果可以分析出居民出行的時(shí)空特征,從而用來對(duì)目前的交通出行情況進(jìn)行評(píng)估,同時(shí)也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè);再者,可以根據(jù)挖掘結(jié)果給出租車司機(jī)提供歷史載客熱點(diǎn)序列,幫助出租車司機(jī)降低空駛率。本文僅針對(duì)工作日和周末特定時(shí)刻給出了聚類分析,沒有詳細(xì)地分析一天中不同時(shí)刻的居民出行特征,以后的工作中會(huì)繼續(xù)研究和改進(jìn)。

參考文獻(xiàn)(References):

[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進(jìn)展[J].西部交通科技,2016.10:87-92

[2] 馮琦森.基于出租車軌跡的居民出行熱點(diǎn)路徑和區(qū)域挖掘[D].重慶大學(xué),2016.

[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識(shí)別――廣州市浮動(dòng)車GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào),2016.3:471-483

[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015.6:104-108

[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64

[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)碩士學(xué)位論文,2015.

[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學(xué)碩士學(xué)位論文,2012.

第5篇:聚類分析論文范文

[關(guān)鍵詞]期刊共被引 對(duì)角線取值 聚類分析 核心-邊緣結(jié)構(gòu)分析

[分類號(hào)]G350

1 引 言

共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關(guān)注。根據(jù)分析對(duì)象的不同,共被引分析方法主要分為文獻(xiàn)共被引、作者共被引、期刊共被引和專利共被引等幾種。

期刊共被引是以期刊為基本單元而建立的共被引關(guān)系。期刊共被引分析方法于1991年McCain首先引入并運(yùn)用于期刊及學(xué)科領(lǐng)域的研究以來,理論與方法逐漸發(fā)展,運(yùn)用領(lǐng)域也不斷擴(kuò)大。隨著科學(xué)知識(shí)圖譜、可視化技術(shù)、社會(huì)網(wǎng)絡(luò)分析等逐漸成為科學(xué)計(jì)量學(xué)研究的熱門,期刊共被引分析越來越成為人們關(guān)注的熱點(diǎn)。

期刊共被引分析的步驟,學(xué)術(shù)界普遍采用1990年McCain對(duì)作者共被引技術(shù)總結(jié)的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉(zhuǎn)化為Pear.SOil相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果等幾個(gè)步驟。這幾個(gè)步驟中,生成共被引矩陣是基礎(chǔ)和關(guān)鍵的一步,后面的分析均基于該矩陣。

共被引矩陣是個(gè)對(duì)稱矩陣,非對(duì)角線上元素表示兩兩之間共被引的次數(shù)(也稱共被引強(qiáng)度),共被引強(qiáng)度越高,則說明關(guān)系越密切;然而,對(duì)共被引矩陣對(duì)角線取值的處理,學(xué)術(shù)界提出過多種觀點(diǎn),但至今沒有統(tǒng)一的定論。由于不同的對(duì)角線取值,會(huì)造成期刊共被引分析結(jié)果的差異,因此有必要對(duì)期刊共被引矩陣對(duì)角線取值問題進(jìn)行探究。

2 共被引矩陣對(duì)角線取值的幾種方法

2.1 總被引次數(shù)

對(duì)角線上的數(shù)值采用文獻(xiàn)總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù)),這是學(xué)者們對(duì)共被引分析對(duì)角線取值的最初思考。國(guó)內(nèi)學(xué)術(shù)界一些早期的研究L2-3]即采用這種觀點(diǎn)。這種做法,數(shù)據(jù)易取,容易操作。但其取值依據(jù)明顯與共被引理論不一致,造成分析的結(jié)果失真嚴(yán)重。因而,用總被引次數(shù)填充共被引矩陣對(duì)角線的做法,逐漸被其他做法代替。

2.2排序前三的共被引頻次之和的一半

White和Grififth最初是將對(duì)角線值定為:排序前三的共被引頻次之和的一半。因?yàn)?,一方面?duì)角線上取作者總被引次數(shù)遠(yuǎn)遠(yuǎn)高出其他作者間的共被引次數(shù),另一方面是作者同名造成的影響很大。

對(duì)角線取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問題,又可突出共被引分析中對(duì)角線上數(shù)值的相對(duì)重要性。這樣做能解決對(duì)角線取總被引次數(shù)的一些問題,但此做法的合理性缺乏有效的證明。并且,現(xiàn)代檢索技術(shù)的發(fā)展,同名的問題已基本得到解決。

2.3 缺失值

對(duì)角線上的取值直接采用默認(rèn)的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對(duì)角線確定方法。MeCain提出這種做法,也是為了解決對(duì)角線上采用總被引次數(shù)造成失真嚴(yán)重的問題,并通過作者共被引的實(shí)例證實(shí)缺失值的聚類、多維尺度、主成分分析的結(jié)果與White和Griffith采用排序前三的一半的做法,結(jié)果相差不大。

在聚類分析、多維尺度分析中,對(duì)角線值缺失的共被引矩陣需要將對(duì)角線默認(rèn)為0,再轉(zhuǎn)化成相關(guān)系數(shù)矩陣,這樣相似矩陣對(duì)角線就自動(dòng)變?yōu)?,這種取值方法解決了進(jìn)一步多元分析中程序的限制問題。從表面看來,在處理數(shù)據(jù)方面非常方便,但忽略了研究對(duì)象的背景與含義。共被引矩陣是考察各對(duì)象之間親疏關(guān)系的相似矩陣,撇開對(duì)象與自己的關(guān)系,孤立地分析對(duì)象與對(duì)象之間的親疏關(guān)系,存在一定的不合理性。

2.4 最大值和最大值+1

White在文獻(xiàn)[6]中,建議使用期刊被引頻次的最大值作為對(duì)角線取值。他從Person相關(guān)系數(shù)矩陣測(cè)度相似性的角度出發(fā),并通過實(shí)例,說明采用默認(rèn)值的做法會(huì)使分析結(jié)果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對(duì)角線的重要性,也方便操作。

我國(guó)學(xué)者邱均平從臨近矩陣的角度出發(fā),認(rèn)為:按照共被引的假設(shè)――具有相同的共被引強(qiáng)度意味著具有相同的相似程度,期刊與自身的關(guān)系應(yīng)為最親近(相似),建議用最大值+1來凸顯期刊與自身的親密關(guān)系,并以編輯出版類期刊群和圖書館學(xué)情報(bào)學(xué)期刊群做了實(shí)證分析。

采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數(shù)據(jù)易取,操作簡(jiǎn)單。但難于解釋的一個(gè)問題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據(jù)是什么?另外,“期刊與自身的關(guān)系最親近”這一假設(shè)同樣存在一定的局限性。在文獻(xiàn)(或?qū)@?共被引中,共引意味著文獻(xiàn)(或?qū)@?相互引證,文獻(xiàn)(或?qū)@?主題存在相似性,共被引強(qiáng)度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領(lǐng)域的改變、期刊辦刊方向的變化等都會(huì)造成“期刊與自身關(guān)系最親近”的假設(shè)不成立。

2.5期刊與自身的實(shí)際共被引次數(shù)

Ahlgren等認(rèn)為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數(shù)的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統(tǒng)計(jì)意義上,應(yīng)該使用自己與自己實(shí)際共被引次數(shù),這樣產(chǎn)生的矩陣才是嚴(yán)格意義上的共被引矩陣。此結(jié)論是Ahlgren在探討作者共被引分析時(shí)得出的,這種做法由于數(shù)據(jù)收集困難而很少被采用,更缺乏實(shí)證的驗(yàn)證。

通過以上分析,本文認(rèn)為,針對(duì)作者、期刊、專利等不同分析對(duì)象的特點(diǎn),對(duì)角線取值方式應(yīng)該有所不同。從社會(huì)網(wǎng)絡(luò)、共被引分析的原理和期刊動(dòng)態(tài)變化的特點(diǎn)三個(gè)角度看,期刊共被引矩陣對(duì)角線取值采用期刊與自身的實(shí)際共被引次數(shù)最為合理。

首先,從社會(huì)網(wǎng)絡(luò)的角度看,期刊共被引矩陣(網(wǎng)絡(luò))是典型的自反網(wǎng)絡(luò),即期刊與自身是有關(guān)系的;因此,在考察期刊群之間相互關(guān)系的過程中,不應(yīng)該拋開期刊與自身的關(guān)系,應(yīng)對(duì)其加以考慮。從這個(gè)意義上來說,對(duì)角線取缺失值的做法并不合理。

其次,期刊共被引關(guān)系把眾多的期刊按被引證關(guān)系聯(lián)系起來,從期刊所載論文被利用的角度揭示期刊之間的某種學(xué)科或?qū)I(yè)上的聯(lián)系。換言之,期刊共被引分析通過期刊所載文獻(xiàn)之間的共被引關(guān)系揭示期刊的主題、地位上的密切關(guān)系,而期刊共被引矩陣是期刊之間密切關(guān)系的外在表現(xiàn)。采用自己與自己實(shí)際共被引次數(shù)作為矩陣對(duì)角線的值,形成嚴(yán)格意義上的共被引矩陣,更符合共被引原理。

第三,不同于耦合關(guān)系,共被引關(guān)系所反映的是變化的或暫時(shí)的關(guān)系,而且期刊共被引是對(duì)某一跨度時(shí)間內(nèi)形成的共被引關(guān)系進(jìn)行分析,因而有必要考慮期刊動(dòng)態(tài)變化的特點(diǎn)。造成這種變化可能是期刊季

刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個(gè)意義上,“期刊自己與自己的關(guān)系最為密切”的假設(shè)并不一定成立,共被引矩陣對(duì)角線取最大值、最大值+1或其他遠(yuǎn)大于非對(duì)角線的做法的合理性值得商榷。而這幾種對(duì)角線取值方式中,最能反映期刊動(dòng)態(tài)變化的是實(shí)際共被引次數(shù)。

3 實(shí)證研究――以圖書情報(bào)學(xué)期刊群為例

3.1 數(shù)據(jù)的收集和處理方法

前面提到,對(duì)角線上的數(shù)值采用文獻(xiàn)總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù))的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對(duì)該種做法進(jìn)行研究。其余幾種對(duì)角線的處理方法,本文通過實(shí)例進(jìn)行聚類分析和核心一邊緣結(jié)構(gòu)分析,對(duì)各種對(duì)角線取值方式得到的結(jié)果進(jìn)行比較。

本文以文獻(xiàn)[9]為基礎(chǔ),采用該文選取的期刊群及數(shù)據(jù)收集的時(shí)間段,同樣以CNKI為信息源及相關(guān)的分析軟件(sPSS及UCINET),并于2009年8月13日對(duì)文獻(xiàn)[9]中期刊源(29種)的共被引數(shù)據(jù)進(jìn)行檢索整理,得到如表1所示的共被引矩陣①:

3.2 聚類分析和核心-邊緣模型分析

共被引矩陣的不同會(huì)影響分析的結(jié)果,而造成共被引矩陣不同的原因是對(duì)角線的處理方法。以下是對(duì)幾種對(duì)角線處理方法逐一進(jìn)行聚類分析和核心一邊緣模型分析。

3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對(duì)角線處理方法的聚類分析圖。從聚類分析結(jié)果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類成三大類:第一類包括《圖書情報(bào)工作》、《中國(guó)圖書館學(xué)報(bào)》等21種(圖1中a類)偏圖書館學(xué)領(lǐng)域的期刊和《情報(bào)理論與實(shí)踐》、《情報(bào)學(xué)報(bào)》等5種(上圖中b類)偏情報(bào)學(xué)領(lǐng)域的期刊;第二類為《農(nóng)業(yè)圖書情報(bào)學(xué)刊》和《情報(bào)探索》;第三類是《中華醫(yī)學(xué)圖書情報(bào)雜志》。這種對(duì)角線取值的方法,第一類包含了29種期刊中的26種,圖書館學(xué)領(lǐng)域期刊群和情報(bào)學(xué)領(lǐng)域期刊群聚成一個(gè)大類。

圖1右邊核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)能達(dá)到0.919。這里得到的期刊核心度數(shù)值與邱均平、李俊佩的文獻(xiàn)《圖書情報(bào)學(xué)期刊的同被引研究》存在不同,但期刊核心度排名基本一致。

3.2.2缺失值對(duì)角線默認(rèn)缺失值是共被引分析最普遍的做法。圖2是對(duì)角線取缺失值的期刊共被引聚類圖和核心邊緣結(jié)構(gòu)分析圖。聚類結(jié)果同樣不精確,除《圖書情報(bào)工作》、《情報(bào)理論與實(shí)踐》與《情報(bào)學(xué)報(bào)》各聚成一類外,其余聚成一個(gè)大類。而核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.889。

3.2.3 最大值和最大值+1最大值和最大值+1得到聚類分析和核心邊緣分析結(jié)果幾乎相同,如圖3和

聚類分析將29種期刊大致分成四類:第一類包括22種期刊,這些期刊主要以圖書館學(xué)領(lǐng)域的文章為主;第二類是以情報(bào)學(xué)領(lǐng)域的文章為主的期刊,它們都是情報(bào)學(xué)期刊,并且技術(shù)方面的文章占的比例也相對(duì)較高;第三類《情報(bào)探索》單獨(dú)成一類;第四類是《中華醫(yī)學(xué)圖書情報(bào)雜志》單獨(dú)成一類。

核心邊緣結(jié)構(gòu)分析顯示該取值方法與理想模型的相關(guān)系數(shù)為0.951。

3.2.4期刊與自身的實(shí)際共被引次數(shù)將期刊與自身的實(shí)際共被引次數(shù)作為共被引矩陣對(duì)角線數(shù)值得到的聚類見圖5,分為四類:

?第一類是研究圖書館學(xué)主題為主的23種期刊,包括《圖書情報(bào)工作》、《中國(guó)圖書館學(xué)報(bào)》等。這23種期刊又分成四個(gè)子類:a類全部都是圖書館學(xué)的核心期刊;b類包括各地圖書館學(xué)期刊,大多不是核心期刊;c類是以情報(bào)學(xué)為主題較多的期刊;d類是偏應(yīng)用較多的期刊。

?第二類是主題以情報(bào)學(xué)為主的4種期刊:《情報(bào)理論與實(shí)踐》、《情報(bào)學(xué)報(bào)》、《情報(bào)科學(xué)》和《現(xiàn)代圖書情報(bào)技術(shù)》。

?第三類、第四類分別是獨(dú)自成一類的《農(nóng)業(yè)圖書情報(bào)學(xué)刊》及《中華醫(yī)學(xué)圖書情報(bào)雜志》,這兩種期刊都是以特定專業(yè)領(lǐng)域?yàn)橹黝}的期刊。

將實(shí)際共被引次數(shù)作為共被引矩陣對(duì)角線數(shù)值,進(jìn)行核心邊緣結(jié)構(gòu)分析,顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.962,優(yōu)于其他取值方法得到的結(jié)果。

3.3對(duì)比分析

從聚類結(jié)果上看,上文中3.2.1、3.2.2聚類結(jié)果較為模糊,形成類別少,類內(nèi)距離很大;3.2.3能聚成四類,但其第一類的組內(nèi)距離很大;3.2.4最能滿足層次聚類法“類內(nèi)距離小,類間距離大”的條件,聚類結(jié)果更為良好。

和3.2.3比較,3.2.4除了聚類分類更詳細(xì)更準(zhǔn)確外,還有一個(gè)差別,即:《情報(bào)資料工作》期刊的歸類不同:3.2.3將該刊物聚為情報(bào)學(xué)期刊子群,3.2.4則歸為圖書館學(xué)期刊子群。為驗(yàn)證其歸屬,筆者對(duì)《情報(bào)資料工作》2002-2007年發(fā)表學(xué)術(shù)論文的關(guān)鍵詞進(jìn)行考察??紤]到關(guān)鍵詞是表征論文內(nèi)容的核心詞匯,本文將從對(duì)關(guān)鍵詞的統(tǒng)計(jì)對(duì)上述問題給出解釋。統(tǒng)計(jì)結(jié)果顯示,2002-2007各年間,《情報(bào)資料工作》刊載學(xué)術(shù)論文的前十位高頻關(guān)鍵詞(限于篇幅,具體數(shù)據(jù)略去,有需要可向作者索取),更多表征的是圖書館學(xué)的內(nèi)容,特別需要一提的是除了2007年排名第二的高頻關(guān)鍵詞是“知識(shí)管理”,其余各年排名第一、第二的高頻關(guān)鍵詞表征的均是圖書館學(xué)的內(nèi)容。這也從另一個(gè)側(cè)面證明了《情報(bào)資料工作》歸類于圖書館學(xué)期刊更為合理。

從核心一邊緣結(jié)構(gòu)分析結(jié)果來看,對(duì)角線取值的不同會(huì)影響期刊核心度,但對(duì)核心度排名的影響不大。就分析結(jié)果和理想模型的擬合系數(shù)來看,3.2.4能達(dá)到0.962,是這幾種取值方法中最高的,這也從實(shí)證的角度證明對(duì)角線取值為“期刊與自身的實(shí)際共被引次數(shù)”更為合理。

4 結(jié)語

第6篇:聚類分析論文范文

[關(guān)鍵詞]機(jī)器學(xué)習(xí);半監(jiān)督學(xué)習(xí);半監(jiān)督聚類;文本聚類

中圖分類號(hào):TP31 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2016)29-0361-01

0 研究背景

數(shù)據(jù)庫(kù)技術(shù)為存儲(chǔ)海量數(shù)據(jù)信息提供了可能,但隨著通信網(wǎng)、互聯(lián)網(wǎng)的迅速發(fā)展和日益普及,信息量呈指數(shù)級(jí)別增長(zhǎng),由于信息產(chǎn)生的速度遠(yuǎn)遠(yuǎn)超過人們對(duì)信息的利用能力,使得人們?cè)诤A康男畔⒚媲盁o所適從,給使用者帶來巨大的時(shí)間、資金和精力的浪費(fèi)。因此,通過建立合適的學(xué)習(xí)系統(tǒng),將信息分門別類才便于挖掘信息的內(nèi)部規(guī)律,這些信息才可能為人類所利用。

在現(xiàn)實(shí)問題中通常存在大量無標(biāo)記樣本,但有標(biāo)記樣本則比較少,無標(biāo)記樣本的獲也取相對(duì)容易,而獲取有標(biāo)記的樣本則要困難得多。尤其是在一些在線應(yīng)用中這一問題更加明顯,從大量的在線文檔中獲取無類標(biāo)記的新文章十分簡(jiǎn)單,如果建立一個(gè)分類器來把這些新文檔分類到各個(gè)類中去,或者想要獲得這些文檔的類標(biāo)記可能需要耗費(fèi)大量的人力、物力和財(cái)力。顯然,如果只使用少量的有標(biāo)記樣本,那么利用它們所訓(xùn)練出來的學(xué)習(xí)系統(tǒng)往往很難具有泛化能力,在某些特定的條件下同時(shí)使用標(biāo)記樣本和無標(biāo)記樣本的學(xué)習(xí)結(jié)果要優(yōu)于僅僅使用少量已標(biāo)記樣本的學(xué)習(xí)結(jié)果。

1 研究現(xiàn)狀

聚類技術(shù)已經(jīng)在模式識(shí)別、圖像處理、信息檢索、商業(yè)數(shù)據(jù)分析等許多領(lǐng)域的應(yīng)用中取得長(zhǎng)足進(jìn)展。在模式識(shí)別中,聚類分析被應(yīng)用于語音識(shí)別、計(jì)算機(jī)視覺、字符識(shí)別、雷達(dá)信號(hào)識(shí)別、文本識(shí)別、氣象數(shù)據(jù)分了、食品檢驗(yàn)、水質(zhì)分析、自動(dòng)化過程控制和工具狀態(tài)監(jiān)測(cè)等方面。在圖像處理中,聚類分析方法被應(yīng)用于灰度圖像的分割、彩色圖像的分割、紋理圖像的分割、圖像邊緣的檢測(cè)、圖像增強(qiáng)、恢復(fù)與壓縮等方法;在商業(yè)領(lǐng)域,聚類分析常被應(yīng)用用于客戶群體分類、預(yù)測(cè)客戶的消費(fèi)模式和習(xí)慣等;文本聚類在信息檢索領(lǐng)域有著廣泛的應(yīng)用,通過聚類發(fā)現(xiàn)數(shù)據(jù)空間分布特征,從而建立主題索引,幫助用戶快速的找到所需信息。同時(shí),聚類分析也用于個(gè)性化信息推薦系統(tǒng)。

2.基于標(biāo)記樣本和相似度矩陣調(diào)整的k-means算法

基于標(biāo)記樣本和相似度調(diào)整的k-means算法(LSKM)是根據(jù)半監(jiān)督學(xué)習(xí)的聚類假設(shè)條件,結(jié)合了基于約束和距離測(cè)度兩種思想的半監(jiān)督聚類算法。為了讀者更好地理解這個(gè)算法,本章首先闡述了文本處理技術(shù)、無監(jiān)督學(xué)習(xí)的的理論基礎(chǔ)半監(jiān)督聚類算法和半監(jiān)督聚類算法研究的一些相關(guān)問題,包括:樣本間的距離學(xué)習(xí)、聚類算法的評(píng)價(jià)準(zhǔn)則、k-means聚類的擴(kuò)展算法等。

2.1 文本處理

文本是非結(jié)構(gòu)化的數(shù)據(jù),無法用數(shù)據(jù)挖掘的方法對(duì)文本直接進(jìn)行處理,需要先對(duì)文本進(jìn)行預(yù)處理,使文本最終表示成為一種結(jié)構(gòu)化的計(jì)算機(jī)能夠處理的形式。文本預(yù)處理是聚類分析中一個(gè)非常重要的環(huán)節(jié),預(yù)處理的質(zhì)量直接影響著聚類分析的性能。預(yù)處理包括:正文提取、去除停用詞(stopwordremoval),提出詞干(stemming),處理數(shù)字、連接詞、標(biāo)點(diǎn)以及字母大小寫等預(yù)處理工作。如果處理中文還需要對(duì)文本分詞。對(duì)于網(wǎng)頁,還需要移除HTML標(biāo)簽和鑒定網(wǎng)頁主要內(nèi)容等。雖然經(jīng)過預(yù)處理后的本文長(zhǎng)度會(huì)有所降低,但此時(shí)的文本仍然是非結(jié)構(gòu)化的數(shù)據(jù)。為了方便計(jì)算機(jī)處理,需要將這些文本轉(zhuǎn)化成某種結(jié)構(gòu)化的模式,這個(gè)轉(zhuǎn)化的過程就是文本的表示和特征選擇。這一節(jié)將對(duì)這兩種技術(shù)進(jìn)行簡(jiǎn)要的闡述。

2.2 聚類

將物理或抽象對(duì)象的集合分成相似的對(duì)象簇的過程稱為聚類(Clustering),簇(cluster)是樣本對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,而與其它簇中的對(duì)象相異。一個(gè)樣本對(duì)象簇可以整體看作一個(gè)組,因此可以看作一種數(shù)據(jù)壓縮形式。盡管分類是一種識(shí)別對(duì)象組或類的有效手段,但是它常常需要高昂的代價(jià)收集和標(biāo)記大量訓(xùn)練元組集或模式,以便分類算法使用它們對(duì)每個(gè)組建模。通常,人們更希望反方向處理:首先,基于樣本的相似性把樣本劃分成組,然后給這些數(shù)量相對(duì)較少的組指定標(biāo)記。這種基于聚類的過程的另一個(gè)優(yōu)點(diǎn)是可以適應(yīng)變化,并且能夠挑選出區(qū)分不同組的有用特征。

2.3 聚類算法評(píng)估

聚類結(jié)果體現(xiàn)了數(shù)據(jù)的分布特征,從未知數(shù)據(jù)中發(fā)現(xiàn)有意義的模式。評(píng)估過程是對(duì)所發(fā)現(xiàn)的的模式的有效性的驗(yàn)證,用來指導(dǎo)用戶調(diào)整模型和參數(shù)值。從直觀上看,就是把相似數(shù)據(jù)劃分到同一個(gè)簇中,而不相似的數(shù)據(jù)盡可能劃分到不同簇中。

(1)純度度

純度(purity)可以理解為被正確聚類的對(duì)象的比例。該值越大,說明聚類的結(jié)果與被數(shù)據(jù)的實(shí)際分布情況越符合。對(duì)于輸出結(jié)果的每個(gè)簇,統(tǒng)計(jì)其每個(gè)樣本類標(biāo)簽,用出現(xiàn)次數(shù)最多的類別作為該簇的類標(biāo)簽,純度值即為類別與所在簇類標(biāo)簽相同的樣本所占的比例。

(2)信息增益

信息增益(InformationGain)也是一種評(píng)價(jià)聚類結(jié)果與實(shí)際數(shù)據(jù)的匹配程度的一種方法。其匹配度為每個(gè)簇的信息增益的加權(quán)求和,其權(quán)值為簇中樣本占全部樣本的比例。這個(gè)值越小,表示聚類結(jié)果與實(shí)際數(shù)據(jù)的匹配程度越高。如果結(jié)果中簇的樣本的類標(biāo)簽相同,信息增益為0,反之,如果簇中樣本含有多個(gè)類標(biāo)簽,則信息增益就比較高。

(3)緊密度和分離度

緊密度(compactness)和分離度(separation)用來反映聚類的質(zhì)量。緊密度反映屬于同一類的成員之間相似的程度,緊密度越大,類內(nèi)相似性越大;分離度反映類間成員之間的相似性,分離度越大類間相似性越高。

2.4 半監(jiān)督學(xué)習(xí)的兩個(gè)假設(shè)

半監(jiān)督學(xué)習(xí)之所以能夠發(fā)揮作用要?dú)w功于兩個(gè)常用的基本假設(shè),即聚類假設(shè)(ClusterAssumption)和流形假設(shè)(ManifoldAssumption)。聚類假設(shè)是指在相同簇(cluster)中的樣本有較大的可能擁有相同的標(biāo)記。該假設(shè)等價(jià)于低密度分隔(LowDensitySeparation),即決策邊界應(yīng)盡可能通過數(shù)據(jù)較為稀疏的地方,從而避免把稠密的簇中的數(shù)據(jù)點(diǎn)分到?jīng)Q策邊界兩側(cè)。在這一假設(shè)下,大量無標(biāo)記樣本的作用就是幫助探明樣本空間中數(shù)據(jù)分布的稠密和稀疏區(qū)域,從而指導(dǎo)學(xué)習(xí)算法對(duì)利用有標(biāo)記樣本學(xué)習(xí)到的Q策邊界進(jìn)行調(diào)整。聚類假設(shè)簡(jiǎn)單、直觀,經(jīng)常以不同的方式直接應(yīng)用于各種半監(jiān)督學(xué)習(xí)算法的設(shè)計(jì)當(dāng)中。

3 總結(jié)

半監(jiān)督學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),它必將得到更加廣泛的應(yīng)用。本文提出的基于正例和相似度矩陣調(diào)整k-means算法,還有可以改進(jìn)之處。近年來,語義網(wǎng)技術(shù)得到了快速的發(fā)展,成為未來的重要研究方向之一。語義網(wǎng)技術(shù)使文本的特征提取和文本距離公式都發(fā)生了改變,從語義層次進(jìn)行文本理解和分類是作者今后研究工作的重點(diǎn)。對(duì)半監(jiān)督學(xué)習(xí)領(lǐng)域進(jìn)行的初步探索,雖然取得了一些成果,但是許多問題有待于進(jìn)一步深入研究和發(fā)現(xiàn)。

參考文獻(xiàn)

[1] BingLiu,Web數(shù)據(jù)挖掘[M].俞勇,薛貴榮,韓定一譯.北京:清華大學(xué)出版社,2009.111-140.

第7篇:聚類分析論文范文

關(guān)鍵詞:房?jī)r(jià)影響因素 聚類分析 可變模糊 指標(biāo)特征規(guī)格化矩陣

引言

房地產(chǎn)是國(guó)民經(jīng)濟(jì)的基礎(chǔ)性產(chǎn)業(yè),對(duì)廣大人民群眾的生活有很重要的影響。其價(jià)格是房地產(chǎn)發(fā)展走向的重要風(fēng)向標(biāo),對(duì)投資者和消費(fèi)者都有重要的現(xiàn)實(shí)的參考價(jià)值,因而成為房地產(chǎn)供需雙方的關(guān)注點(diǎn)。長(zhǎng)期的低利率為房地產(chǎn)的開發(fā)提供了有利的條件,同時(shí)市場(chǎng)上的剛性需求和投資需求的急劇增長(zhǎng),特別是投資需求,使得房地產(chǎn)市場(chǎng)出現(xiàn)求大于供,根據(jù)需求供給價(jià)格機(jī)制原理,這必將導(dǎo)致房?jī)r(jià)上漲。由此可見,影響房?jī)r(jià)的因素很多,利用聚類迭代模型對(duì)其影響因素進(jìn)行分析,找出影響較大的類別,為政府的宏觀調(diào)控提供建議。

目前常用的聚類方法有層級(jí)分析法及非層級(jí)分析法。1965年札德提出模糊集合概念,以后逐漸發(fā)展形成的模糊聚類方法。1974年J.C.Dunn提出了模糊C―均值聚類算法,1981年J.C.Bezdek對(duì)其進(jìn)行了改進(jìn)和發(fā)展,1990年代大連理工大學(xué)的陳守煜教授先后提出了以相對(duì)隸屬函數(shù)為基礎(chǔ)的模糊識(shí)別、決策與模糊聚類理論模型,并在水利領(lǐng)域得到了廣泛的應(yīng)用。本文擬采用陳守煜教授提出的可變模糊聚類迭代模型對(duì)影響房地產(chǎn)價(jià)格的因素進(jìn)行聚類分析,找出影響價(jià)格的敏感的因素。

一、分析模型的選用

目前對(duì)房?jī)r(jià)影響因素關(guān)系的研究主要是應(yīng)用關(guān)聯(lián)度來衡量因素之間的關(guān)系,這類方法具有不可改變的缺點(diǎn),即公式只能夠?qū)σ环N情況進(jìn)行分析,不能反映事物的本質(zhì)。而事物的發(fā)展是連續(xù)漸變的,它們之間的界限不是絕對(duì)清晰的,而是存在著模糊性的。本文采用的可變模糊模型的聚類方法具有既可處理可變性又能處理模糊性因素的特點(diǎn),既考慮了房?jī)r(jià)影響因素的可變性,有分析了各個(gè)因素之間的相關(guān)性,能夠更真實(shí)客觀的反映出結(jié)果,找到影響房?jī)r(jià)最重要的因素,具有實(shí)用性。

二、可變模糊聚類分析方法

2.1指標(biāo)特征值規(guī)格化矩陣的確定

設(shè)有待聚類的n個(gè)樣本組成的集合,可用mn階指標(biāo)特征值矩陣對(duì)樣本集進(jìn)行聚類。

(1)

式中:χij為聚類樣本j指標(biāo)i的特征值,i=1,2,,m;j=1,2,,n。

由于m個(gè)聚類指標(biāo)特征值的物理量綱可能不同,需要對(duì)其進(jìn)行規(guī)格化,即要將指標(biāo)特征值χij變換為對(duì)聚類樣本關(guān)于模糊概念的指標(biāo)相對(duì)隸屬度。在模糊聚類中通常有兩類指標(biāo):

(1)越大越優(yōu)效益型指標(biāo),也稱為正相關(guān)指標(biāo),即指標(biāo)值越大,聚類類別排序越前,其規(guī)格化公式為:

(2)

(2)越小越優(yōu)成本型指標(biāo),也稱為負(fù)相關(guān)指標(biāo),即指標(biāo)值越小,聚類類別排序越前,其規(guī)格化公式為:

(3)

在式(2)、(3)中、分別表示樣本集指標(biāo)i的最大、最小特征值。如果對(duì)指標(biāo)的相關(guān)性不是很清楚,可以使用式(4)進(jìn)行判別。

(4)

其中:y表示指標(biāo)標(biāo)準(zhǔn)特征值,其他字母符號(hào)同前。

經(jīng)過規(guī)格化,矩陣X變換為模糊概念的相對(duì)隸屬矩陣,即為指標(biāo)特征值規(guī)格化矩陣R。

2.2可變模糊聚類矩陣的確定

設(shè)n個(gè)樣本依據(jù)m個(gè)指標(biāo)特征值規(guī)格化數(shù)按c個(gè)類別進(jìn)行聚類,其模糊聚類矩陣為U。

式中:上式分別為(6)、(7)

為樣本j隸屬于類別h的相對(duì)隸屬度,h=1,2,,n,并且滿足條件,,。表示各個(gè)指標(biāo)所占的權(quán)重。α,P為可變參數(shù),體現(xiàn)了模糊聚類的可變性。通常取α=±1,P=±2,對(duì)出現(xiàn)的四類情況進(jìn)行分別討論。類別h的m個(gè)指標(biāo)特征值規(guī)格化數(shù)表示了h類的聚類特征,在模糊聚類中通常稱為聚類中心,則c個(gè)類別的聚類特征可用m×c階聚類中心矩陣S表示。

S=(), (8)

式中為類別h指標(biāo)i的聚類特征規(guī)格化數(shù),i=1,2,,m;h=1,2,,c。

2.3類別特征值的確定

由于模糊概念在分級(jí)條件下具有不適用行,陳守煜教授提出了類別特征值的概念和公式。設(shè)已知對(duì)模糊概念的級(jí)別變量相對(duì)隸屬度分布列h(h=1,2,,c)。級(jí)別變量h,以其相對(duì)隸屬度為權(quán)重,其總和:

(9)

稱為類別變量的特征值,簡(jiǎn)稱類別特征值。

根據(jù)可反饋得到相應(yīng)的級(jí)別,據(jù)此可對(duì)作出屬于何種類別的判斷。為了更細(xì)致的應(yīng)用類別特征值進(jìn)行判斷,給出了判斷準(zhǔn)則公式[7]:

當(dāng),歸屬于1級(jí);當(dāng),歸屬于h級(jí),偏(h-1)級(jí)(h=2,3,,c-1);當(dāng),歸屬于h級(jí),偏(h+1)級(jí)(h=2,3,,c-1);當(dāng),歸屬于c級(jí)。

在實(shí)際運(yùn)用的過程中,由式(7)可知,在一般的情況下,存在四類的可變的情形,因而會(huì)產(chǎn)生四組,在進(jìn)行類別判斷時(shí),取四組的平均值得到,最后依據(jù)上述判斷準(zhǔn)則進(jìn)行評(píng)判。

三、 房?jī)r(jià)影響因素聚類分析的實(shí)證分析

基于可變模糊聚類分析方法的基本要求,在依據(jù)實(shí)際案例對(duì)房?jī)r(jià)影響因素進(jìn)行聚類分析時(shí),為了減少計(jì)算量,本論文只是針對(duì)α=2、P=2 這一類情況進(jìn)行討論,其余三種情況可根據(jù)這一步驟進(jìn)行計(jì)算。因此本文從敏感性的角度以河南省安陽市的房?jī)r(jià)影響因素進(jìn)行聚類分析,其中所使用到得數(shù)據(jù)大都是來源于河南統(tǒng)計(jì)年鑒以及中國(guó)統(tǒng)計(jì)年鑒,部分?jǐn)?shù)據(jù)來源于安陽房管局網(wǎng)站公布的信息和網(wǎng)上搜集得到的資料分析處理所得。

3.1敏感性的聚類中心矩陣

房?jī)r(jià)影響因素對(duì)房?jī)r(jià)的影響的程度是各不相同的,采用敏感性進(jìn)行分類,分為五類即:很敏感、比較敏感、敏感、不太敏感、不敏感等,規(guī)定敏感性的聚類中心矩陣S。

S=(0.9, 0.7, 0.5, 0.3, 0.1)

3.2房?jī)r(jià)影響因素指標(biāo)的選取

表1安陽房?jī)r(jià)及影響因素

指標(biāo) 房地產(chǎn)價(jià)格(元/平方米) 城市化水平(%) 房地產(chǎn)開發(fā)投資額 (億元) GDP(億元) 城鎮(zhèn)居民人均可支配收入(元) 人口密度(人/平方千米)

參數(shù) Y X1 X2 X3 X4 X5

2004 1470.92 31 11.6 463.47 4502.00 716

2005 1622.17 32.5 13.99 557.46 8649.02 720

2006 1610.40 34.2 24.22 646.00 9624.04 724

2007 1514.87 35.8 35.45 807.82 10723.64 728

2008 1683.11 37.3 43.69 1036.05 11556.78 732

(數(shù)據(jù)來源:河南省統(tǒng)計(jì)年鑒)

房?jī)r(jià)是在市場(chǎng)中形成的,因此市場(chǎng)的基本規(guī)律―供需理論對(duì)房地產(chǎn)依然起著重要的作用。從供給角度來看,房地產(chǎn)開發(fā)投資額反映了市場(chǎng)房地產(chǎn)供給的狀況,因此將其作為供給的反映指標(biāo)。從需求角度來看,城鎮(zhèn)居民收入反映了房地產(chǎn)的有效需求,人口密度反映了房地產(chǎn)需求的總量要求,因此,選取這兩個(gè)指標(biāo)作為需求的反映指標(biāo)。

通過查閱2005―2009年河南省統(tǒng)計(jì)年鑒,將上述五個(gè)指標(biāo)的樣本值整理如表1。

3.3房?jī)r(jià)影響因素的指標(biāo)特征值規(guī)格化矩陣的確定

由表1可知,房?jī)r(jià)影響因素的指標(biāo)特征值矩陣X,同時(shí)由式(4)可求得:=0.57>0,=0.4>0,=0.5>0,=0.6>0,=0.5>0,因?yàn)?0,所以五類指標(biāo)均為正相關(guān)性指標(biāo),采用式(2)對(duì)其進(jìn)行規(guī)格化,得到指標(biāo)特征值規(guī)格化矩陣R為:

3.4不可變模糊聚類矩陣的確定

由于在文章的開始已經(jīng)將,P常數(shù)化,因此,原來具有可變性質(zhì)的式(7)已經(jīng)轉(zhuǎn)換為不可變的模型。根據(jù)式(7)以及α=2、P=2可求得不可變模糊聚類矩陣U為:

3.5類別特征值的求得

由于敏感性分為五類,所以在這里取c=5,由式(9)可知:

H=(2.8983,3.0891,3.2411,2.2796,2.9040)

3.6房?jī)r(jià)影響因素類別判定

由上節(jié)的判斷準(zhǔn)則并且結(jié)合該實(shí)際案例,我們可以確定房地產(chǎn)價(jià)格五個(gè)影響因素的類別如下:

沒有因素屬于第1類、第4類、第5類;屬于第2類―比較敏感的指標(biāo)有X4,即城鎮(zhèn)居民收入水平,其他四個(gè)指標(biāo)均屬于第3類―敏感的指標(biāo)。又2.5

四、結(jié)論

對(duì)影響河南省安陽市的房?jī)r(jià)的因素進(jìn)行模糊聚類分析可以看出,在這五個(gè)因素中城鎮(zhèn)居民收入對(duì)房?jī)r(jià)最為敏感。一般來說,不同地區(qū)的收入水平對(duì)應(yīng)著不同的房?jī)r(jià)。從感性認(rèn)識(shí)上看,北京、上海、天津等發(fā)達(dá)城市地區(qū)因收入水平相對(duì)較高,其的房?jī)r(jià)明顯高于其他不發(fā)達(dá)地區(qū)低收入城市的房?jī)r(jià),而東部地區(qū)的房?jī)r(jià)也明顯高于中西部地區(qū)的房?jī)r(jià),也說明了居民收入對(duì)房?jī)r(jià)影響的敏感度高與其他因素。這也是符合我們所得出的結(jié)論的。

參考文獻(xiàn):

[1] 計(jì)長(zhǎng)鵬. 發(fā)展住宅建設(shè)尚需進(jìn)一步努力[J]. 建筑管理現(xiàn)代化, 1999(2):18.

第8篇:聚類分析論文范文

關(guān)鍵詞:空間數(shù)據(jù)挖掘;聚類;設(shè)施選址

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 10-0000-02

The Application of Spatial Clustering Algorithms in the Facility Location Optimization

Zhang Jimei1,Shu Chuanling2

(1.Anhui University,Institute of Computer Science and Technology,Hefei230061,China;2.Institute of Management,Hefei University of Technology,Hefei230026,China)

Abstract:This paper summarizes the spatial data mining technology and spatial clustering algorithms.With facility location,by using graph theory and simulated annealing algorithm for traditional algorithms of exploratory improvement,which optimizes the clustering results.

Keywords:Spatial data mining;Cluster;Facility location

選址是指在建筑之前對(duì)地址進(jìn)行論證和決策的過程,首先是考慮設(shè)置的區(qū)域以及區(qū)域的環(huán)境和應(yīng)達(dá)到的要求;其次是考慮具體的地點(diǎn)和方位。設(shè)施選址是眾多選址問題的一個(gè)重要研究領(lǐng)域。1909年,Weber研究了在平面上確定一個(gè)倉(cāng)庫(kù)的位置使得倉(cāng)庫(kù)與多個(gè)顧客之間的總距離最小的問題(稱為韋伯問題),正式開始了選址理論的研究。1964年,Hakimi提出了網(wǎng)絡(luò)上的p-中值問題與p-中心問題,從此,選址理論的研究開始活躍起來,文獻(xiàn)數(shù)目也急劇增多。

一、關(guān)于空間數(shù)據(jù)挖掘

近幾年隨著空間數(shù)據(jù)庫(kù)系統(tǒng)和存儲(chǔ)技術(shù)的發(fā)展,以GIS為代表的空間數(shù)據(jù)庫(kù)系統(tǒng)在人類的生產(chǎn)生活中發(fā)揮了重要的作用。所謂空間數(shù)據(jù)挖掘是指從空間數(shù)據(jù)庫(kù)中抽取空間關(guān)系知識(shí)或其它沒有在空間數(shù)據(jù)庫(kù)明確存放的有意義的模式??臻g數(shù)據(jù)挖掘可以幫助理解空間數(shù)據(jù)、發(fā)現(xiàn)空間關(guān)系和空間與非空間數(shù)據(jù)間關(guān)系、構(gòu)造空間知識(shí)庫(kù)、重組空間數(shù)據(jù)庫(kù),以及優(yōu)化空間查詢等。

常用的空間數(shù)據(jù)挖掘方法有:基于概率論的方法,空間分析方法,統(tǒng)計(jì)分析方法,聚類分析方法,基于模糊集合論的方法,遺傳算法和空間關(guān)聯(lián)規(guī)則挖掘方法等。

二、空間聚類分析主要方法

聚類分析是指從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間存在的有價(jià)值聯(lián)系。空間聚類分析是將空間數(shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)象按照某些特征劃分為不同的有意義的組,同一組中的對(duì)象某些特征具有高度相似性,不同組中的數(shù)據(jù)對(duì)象具有明顯的差異。

有關(guān)的聚類方法主要有:劃分類方法、分層類方法、基于密度類方法、基于網(wǎng)格類方法和基于模型類方法。這里只介紹前兩種方法。

(一)層次算法

層次聚類算法是通過將數(shù)據(jù)組織為若干組并形成一個(gè)相應(yīng)的樹來進(jìn)行聚類的。其構(gòu)建方法有分裂和凝聚兩類。層次算法不需要參數(shù),但需要定義分解的停止條件。層次聚類方法又可分為自頂而下和自下而上層次聚類兩種。

(二)劃分算法

給定一個(gè)包含n個(gè)對(duì)象或數(shù)據(jù)集,用劃分算法將其劃分為m個(gè)子集,其中每個(gè)子集均代表一個(gè)聚類(mQn)。每個(gè)子集至少包含一個(gè)對(duì)象且每個(gè)對(duì)象必須只能屬于某一子集。代表性的算法有K-means算法,K-medoids算法,Clara算法,以及可用于隨機(jī)分布空間的DBCLASD算法和改進(jìn)的用于空間數(shù)據(jù)挖掘的Clarans算法。

1.K-means算法。K-means算法的工作過程是首先從n個(gè)數(shù)據(jù)對(duì)象中任意選m個(gè)對(duì)象作為初始聚類中心,對(duì)于剩下的對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心,不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。K-means算法對(duì)異常數(shù)據(jù)很敏感。

2.K-medoids算法。K-medoids算法的基本策略是通過首先任意為每個(gè)聚類找到一個(gè)代表對(duì)象而首先確定n個(gè)數(shù)據(jù)對(duì)象的m個(gè)聚類,其它對(duì)象則根據(jù)它們與這些聚類代表的距離分別歸屬到各相應(yīng)聚類中。如果替換一個(gè)聚類代表能改善所獲聚類質(zhì)量的話,就可以用一個(gè)新對(duì)象替換老聚類對(duì)象。在聚類效果上,K-medoids算法較好地解決了K-means算法易受噪音點(diǎn)影響的問題,但K-medoids算法的處理時(shí)間較K-means算法更大。

三、設(shè)施選址問題應(yīng)用舉例

(一)問題描述

現(xiàn)以某地的某新區(qū)為例,該新區(qū)中新建了n個(gè)居民點(diǎn),現(xiàn)要對(duì)新區(qū)中再建設(shè)m所學(xué)校進(jìn)行選址(注:m

(二)解決算法

基于以上設(shè)施選址問題描述,此類問題可以用聚類分析算法處理解決。具體算法(算法1)如下:

輸入:n個(gè)居民點(diǎn);建學(xué)校數(shù)目m;其中(mQn);循環(huán)次數(shù):s;

輸出:m個(gè)校址;

處理流程:

1.在A中任意選擇m個(gè)居民點(diǎn)(a1’,a2’,……,am’)作為聚類中心;依次計(jì)算A中的每一個(gè)ai與每一個(gè)聚類中心aj’之間的距離dij;其中dij用直接空間距離表示dij= ;對(duì)于每一個(gè)ai選擇出dij的最小值Min(dij),并將ai劃分到該聚類中心所在的劃分中;

3.在每個(gè)劃分中,計(jì)算所有屬于這個(gè)劃分的ai的坐標(biāo)均值;

在每個(gè)劃分中,計(jì)算所有屬于這個(gè)劃分的ai與該劃分的坐標(biāo)均值之間的距離;在每個(gè)劃分中,將坐標(biāo)均值作為該劃分的新的聚類中心aj’;

4.計(jì)算d= ;循環(huán)執(zhí)行(2)、(3),直至到達(dá)既定循環(huán)次數(shù)s;

(三)聚類分析方法在設(shè)施選址應(yīng)用中的改進(jìn)

1.模擬退火算法。模擬退火算法來源于固體退火原理,將固體加溫至充分高,再讓其徐徐冷卻,加溫時(shí),固體內(nèi)部粒子隨溫升變?yōu)闊o序狀,內(nèi)能增大,而徐徐冷卻時(shí)粒子漸趨有序,在每個(gè)溫度都達(dá)到平衡態(tài),最后在常溫時(shí)達(dá)到基態(tài),內(nèi)能減為最小,溫度為T時(shí)粒子達(dá)到平衡態(tài)的概率為exp(-E/kT),其中k為常數(shù),E為內(nèi)能改變量。針對(duì)設(shè)施選址問題,可將內(nèi)能E模擬為距離,將溫度T模擬為空間點(diǎn)。算法略。

2.聚類分析方法應(yīng)用于設(shè)施選址的改進(jìn)算法?;谝陨戏治龊退惴?通過對(duì)K-means算法和模擬退火算法的有效結(jié)合,聚類方法應(yīng)用于設(shè)施選址的改進(jìn)算法如下:

輸入:n個(gè)待聚類空間點(diǎn),聚類中心數(shù)目m,直接空間距離s;

輸出:m個(gè)聚類,m個(gè)聚類中心;

處理流程:

(1)調(diào)用算法1,用K-means方法求出m個(gè)聚類中心和m個(gè)聚類;

(2)依次在每個(gè)聚類中,取其子集,使得子集中的每個(gè)數(shù)據(jù)點(diǎn)距離該聚類中心的直接空間距離不大于s,從而產(chǎn)生m個(gè)子集;

(3)對(duì)以上產(chǎn)生的m個(gè)子集和m個(gè)聚類中心,調(diào)用模擬退火算法,產(chǎn)生m個(gè)新的聚類中心;返回m個(gè)聚類中心和m個(gè)聚類;終止。

四、結(jié)束語

本文通過空間數(shù)據(jù)挖掘聚類算法在設(shè)施選址方面的應(yīng)用展開研究,目的是為公共設(shè)施選址提供決策支持。在聚類分析算法應(yīng)用于設(shè)施選址的傳統(tǒng)解決辦法的基礎(chǔ)上,作了三方面改進(jìn),第一,解決了決策空間中有障礙物存在的情況下距離表示;第二,將道路交通狀況差異列入聚類依據(jù),使聚類結(jié)果得到優(yōu)化;第三,在使用K-means算法的基礎(chǔ)上,用取聚類子集方法和模擬退火算法對(duì)K-means的聚類結(jié)果進(jìn)行優(yōu)化,既保證了算法的執(zhí)行效率,又避免了噪音點(diǎn)的干擾和聚類中心落在障礙物上所造成的聚類結(jié)果無意義的情況。

參考文獻(xiàn):

[1]王海起,王勁鋒.空間數(shù)據(jù)挖掘技術(shù)研究進(jìn)展[J].地理與地理信息科學(xué),2005

[2]鞏華榮,何佳.空間數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展[J].測(cè)繪與空間地理信息,2007,5

[3]王新洲.論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2006,1

[4]朱明.數(shù)據(jù)挖掘.合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002,5

[5]王輝.城市空間數(shù)據(jù)挖掘方法的研究[A].山東省測(cè)繪學(xué)術(shù)年會(huì)論文集[C].2006

第9篇:聚類分析論文范文

關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù) 社會(huì)網(wǎng)絡(luò)分析 共詞分析 Ucinet SPSS

中圖分類號(hào): G254 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2013)05-0129-04

關(guān)聯(lián)數(shù)據(jù)(Linked Data)概念由“萬維網(wǎng)之父”Tmi Berners-Lee于2006年首次提出[1]。 關(guān)聯(lián)數(shù)據(jù)是語義web的主題之一,描述了通過可鏈接的 URI 方式來、分享、連接Web 中各類資源的方法。關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)把以前沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)鏈接在一起,允許用戶發(fā)現(xiàn)、關(guān)聯(lián)、描述并再利用各種數(shù)據(jù),因而自關(guān)聯(lián)數(shù)據(jù)提出以來便得到了社會(huì)廣泛的認(rèn)同和快速的發(fā)展,BBC、紐約時(shí)報(bào)、美國(guó)國(guó)會(huì)圖書館等都紛紛加入到關(guān)聯(lián)數(shù)據(jù)的出版之列[2],關(guān)聯(lián)數(shù)據(jù)也日益成為國(guó)內(nèi)學(xué)術(shù)界的關(guān)注熱點(diǎn)。因此本文運(yùn)用社會(huì)網(wǎng)絡(luò)分析方法和共詞分析方法,通過關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)和關(guān)鍵詞共詞聚類分析,了解我國(guó)關(guān)聯(lián)數(shù)據(jù)研究團(tuán)隊(duì)發(fā)展現(xiàn)狀、研究熱點(diǎn)和內(nèi)容結(jié)構(gòu),以期為后續(xù)研究與實(shí)踐的開展提供參考。

1 數(shù)據(jù)來源與研究方法

1.1 數(shù)據(jù)來源

本文選取CNKI的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)為數(shù)據(jù)來源庫(kù),以“關(guān)聯(lián)數(shù)據(jù)”或“l(fā)inked data”為檢索詞在主題字段檢索,檢索時(shí)間是2013年4月10日,剔除重復(fù)和非相關(guān)文獻(xiàn)后得到有效學(xué)術(shù)論文117 篇。

1.2 數(shù)據(jù)處理工具

在共詞分析和社會(huì)網(wǎng)絡(luò)分析方法中,數(shù)據(jù)處理是十分重要的步驟。使用浙江大學(xué)信息資源管理系劉啟元開發(fā)的文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具(Statistical Analysis Toolkit for Informetrics,SATI)。該軟件通過對(duì)期刊全文數(shù)據(jù)庫(kù)題錄信息的字段抽取、頻次統(tǒng)計(jì),進(jìn)而生成共現(xiàn)矩陣。生成的共現(xiàn)矩陣可以直接導(dǎo)入U(xiǎn)cinet和SPSS軟件進(jìn)行處理分析[3]。

1.3 研究方法

本文運(yùn)用社會(huì)網(wǎng)絡(luò)分析法生成作者合著網(wǎng)絡(luò)和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜來分析關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的作者合著關(guān)系及學(xué)科的研究熱點(diǎn);運(yùn)用共詞聚類分析法生成共詞聚類樹狀圖來分析關(guān)聯(lián)數(shù)據(jù)研究論文的主流研究領(lǐng)域的結(jié)構(gòu)及其關(guān)系。

2 構(gòu)建共現(xiàn)矩陣

將從CNKI中導(dǎo)出的Endnote格式的文獻(xiàn)題錄信息導(dǎo)入 SATI 軟件,分別選取作者和關(guān)鍵詞字段,進(jìn)行抽取和頻次統(tǒng)計(jì),構(gòu)建高頻作者合著共現(xiàn)矩陣和高頻關(guān)鍵詞共現(xiàn)矩陣,保存為 Excel文件,便可直接導(dǎo)入U(xiǎn)cinet和SPSS進(jìn)行處理分析。

3 高頻作者合著分析

3.1 高頻作者合著網(wǎng)絡(luò)分析

打開 Ucinet 導(dǎo)入 Excel 格式的高頻作者共現(xiàn)矩陣,利用Ucinet軟件集成的可視化工具Netdraw繪制高頻作者合作關(guān)系網(wǎng)絡(luò)圖,通過K-cores分析,將所有節(jié)點(diǎn)分類,選擇 Transform—node attribute editor 添加節(jié)點(diǎn)的大小和連線的粗細(xì)對(duì)網(wǎng)絡(luò)進(jìn)一步調(diào)整后,得到高頻作者合著網(wǎng)絡(luò)圖譜(見圖1)。圖中每個(gè)節(jié)點(diǎn)代表作者,節(jié)點(diǎn)越大代表著者的頻次越高,節(jié)點(diǎn)之間的連線粗細(xì)表示作者之間的合作強(qiáng)度。圖中最大的團(tuán)體是上海圖書館和廣東外語外貿(mào)大學(xué)圖書館為合作機(jī)構(gòu)下的劉煒、夏翠娟、張春景、趙亮、錢國(guó)富,在該合著網(wǎng)絡(luò)中頻率達(dá)到最高。該團(tuán)體以劉煒和夏翠娟為代表圍繞國(guó)家社會(huì)基金項(xiàng)目“關(guān)聯(lián)數(shù)據(jù)的理論和應(yīng)用研究”和“《資源描述與檢索》的中文化及其應(yīng)用研究”對(duì)關(guān)聯(lián)數(shù)據(jù)技術(shù)及其實(shí)現(xiàn)、開放應(yīng)用協(xié)議、RDA進(jìn)行了研究;四川大學(xué)和中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所為合作機(jī)構(gòu)下的范煒、方安、洪娜和鄒慶圍繞國(guó)家社會(huì)科學(xué)基金項(xiàng)目“關(guān)聯(lián)數(shù)據(jù)中潛在知識(shí)關(guān)聯(lián)的發(fā)現(xiàn)方法研究”對(duì)生物醫(yī)學(xué)關(guān)聯(lián)數(shù)據(jù)研究、語義管道技術(shù)、詞表資源關(guān)聯(lián)化、術(shù)語服務(wù)進(jìn)行了研究;以中國(guó)科學(xué)院國(guó)家科學(xué)圖書館和中國(guó)科學(xué)院研究生院為合作機(jī)構(gòu)下的的李春旺、黃永文、劉媛媛和鄧蘭蘭等人圍繞國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目“我國(guó)數(shù)字圖書館集成融匯方法研究”和中國(guó)科學(xué)院國(guó)家科學(xué)圖書館青年人才領(lǐng)域前沿項(xiàng)目“利用LOD實(shí)現(xiàn)數(shù)字圖書館中數(shù)字資源與知識(shí)內(nèi)容關(guān)聯(lián)揭示的技術(shù)方法研究”對(duì)關(guān)聯(lián)參考服務(wù)、對(duì)象共指問題、關(guān)聯(lián)數(shù)據(jù)應(yīng)用的體系框架、關(guān)聯(lián)數(shù)據(jù)資源集相似度計(jì)算方法、Web數(shù)據(jù)關(guān)聯(lián)創(chuàng)建、信息檢索服務(wù)和注釋服務(wù)等進(jìn)行了研究。從圖中還可以看出,作者合著網(wǎng)絡(luò)圖譜整體聯(lián)系稀疏,網(wǎng)絡(luò)中大多數(shù)節(jié)點(diǎn)之間沒有連線,關(guān)聯(lián)程度非常小,表明目前關(guān)聯(lián)數(shù)據(jù)領(lǐng)域還沒有形成一支成熟的研究隊(duì)伍。

3.2 網(wǎng)絡(luò)密度分析

網(wǎng)絡(luò)密度可以用來度量網(wǎng)絡(luò)成員之間聯(lián)系的緊密程度。一般來說,密度高的網(wǎng)絡(luò)信息溝通性較強(qiáng);而密度低的網(wǎng)絡(luò)常信息不暢[4]。利用Ucinet軟件得到高頻作者合著網(wǎng)絡(luò)密度(見圖2)為0.0097,這是一個(gè)相對(duì)偏低的密度值,網(wǎng)絡(luò)連通性不好,這也印證了在前面作者合著網(wǎng)絡(luò)分析中的結(jié)果。說明作者之間的合作程度低,作者之間不能很好地進(jìn)行深層次的知識(shí)構(gòu)建,不利于我國(guó)關(guān)聯(lián)數(shù)據(jù)研究的快速發(fā)展。

3.3 高頻作者合著中心性分析

中心性是社會(huì)網(wǎng)絡(luò)分析中的重點(diǎn)之一,它反映了行動(dòng)者在其社會(huì)網(wǎng)絡(luò)中所處的地位及權(quán)力影響。

3.3.1 點(diǎn)度中心性分析

本文使用點(diǎn)度中心性來測(cè)量作者在網(wǎng)絡(luò)中的重要性。作者點(diǎn)度中心性越高者,表示其在網(wǎng)絡(luò)中與較多的作者合作,在網(wǎng)絡(luò)中具有較高的影響力,從而可以認(rèn)為其具有核心作用。利用Ucinet進(jìn)行點(diǎn)度中心性分析得到點(diǎn)度中心度排名在前10位的作者(見圖3)。一般情況下,頻次較高的作者與其他作者合作的機(jī)會(huì)更多,因而普遍點(diǎn)度中心性也較高。通過分析可知,張勇、邢春曉等的點(diǎn)度中心性較原先頻次排名有較大幅的提升,說明這些作者具備相對(duì)其頻次排名有更高的影響力;而范煒、劉煒、黃永文等的點(diǎn)度中心性較原先頻次排名有較大幅度的回落,說明這些作者發(fā)表獨(dú)著的頻率高。由圖3可見,張春景的點(diǎn)度中心性最大,其次為夏翠娟,表明這些作者與網(wǎng)絡(luò)內(nèi)其他作者的知識(shí)交流更加頻繁,在關(guān)聯(lián)數(shù)據(jù)作者合作網(wǎng)絡(luò)中具有核心作用。

3.3.2 中介中心性分析

中介中心性排名較高的人往往是處于結(jié)構(gòu)洞位置的人。結(jié)構(gòu)洞是社會(huì)網(wǎng)絡(luò)分析中一個(gè)重要的概念,它的意義在于處于結(jié)構(gòu)洞位置,說明他們掌握了更多的學(xué)術(shù)資源,更具有學(xué)術(shù)創(chuàng)新力;其次處于結(jié)構(gòu)洞位置對(duì)于他們迅速提高自身聲望具有重要作用[9]。本文利用Ucinet進(jìn)行中介中心性分析,結(jié)果如圖4所示,從圖中可看出,李春旺的中介中心性最高,其次是范煒、劉煒、夏翠娟和張春景,表明這些作者在整個(gè)網(wǎng)絡(luò)中具有舉足輕重的地位,往往是連接多數(shù)作者的核心人物,他們對(duì)于關(guān)聯(lián)數(shù)據(jù)的研究產(chǎn)生了極為深遠(yuǎn)的影響。

4 高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析

打開 Netdraw 軟件,導(dǎo)入高頻關(guān)鍵詞共現(xiàn)矩陣,并用K-cores分析,得到基于節(jié)點(diǎn)在網(wǎng)絡(luò)中作用大小的圖譜(見圖5)。從圖中可以看出網(wǎng)絡(luò)中節(jié)點(diǎn)最大的正方形占據(jù)網(wǎng)絡(luò)核心地位,說明語義網(wǎng)、圖書館、RDF、URI、數(shù)據(jù)網(wǎng)絡(luò)等是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的核心關(guān)鍵詞,是目前該領(lǐng)域的研究熱點(diǎn)。在某種程度上,可以認(rèn)為其他研究領(lǐng)域都是圍繞著這些核心展開的。同時(shí)利用Ucinet進(jìn)行中介中心性分析(見圖6),得到的大部分也都是這些關(guān)鍵詞,更加充分說明這些關(guān)鍵詞在網(wǎng)絡(luò)中的重要地位。除此之外,在中介中心性中前十位中的本體、SKOS、SPARQL和術(shù)語服務(wù)也可說明是該領(lǐng)域的研究熱點(diǎn)。從關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)來看,除了核心關(guān)鍵詞以外,其它的節(jié)點(diǎn)聯(lián)系較為松散,說明關(guān)聯(lián)數(shù)據(jù)引入我國(guó)時(shí)間很短,發(fā)展還很不成熟,還沒有形成明顯的研究主題。

5 高頻關(guān)鍵詞共詞聚類分析

為了更加全面地了解關(guān)聯(lián)數(shù)據(jù)研究的主題結(jié)構(gòu),本文采用共詞聚類分析方法對(duì)關(guān)聯(lián)數(shù)據(jù)研究的內(nèi)部結(jié)構(gòu)進(jìn)行深入分析。將高頻關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入SPSS11.5進(jìn)行層次聚類分析。得到高頻關(guān)鍵詞的聚類分析樹狀圖(見圖7)。聚類結(jié)果顯示,國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在六大主題:開放數(shù)據(jù)和關(guān)聯(lián)開放數(shù)據(jù)研究;知識(shí)組織系統(tǒng)研究;書目研究;關(guān)聯(lián)數(shù)據(jù)基本理論研究;圖書館的數(shù)字資源整合研究和關(guān)聯(lián)數(shù)據(jù)研究。

(1)開放數(shù)據(jù)和關(guān)聯(lián)開放數(shù)據(jù)研究。包括關(guān)鍵詞開放數(shù)據(jù)、信息組織、開放政府?dāng)?shù)據(jù)、關(guān)聯(lián)開放數(shù)據(jù)、用戶模型和互操作。開放數(shù)據(jù)是一種哲學(xué)理念及實(shí)踐,要求數(shù)據(jù)可以被任何人自由獲取,沒有來自版權(quán) 、專利或其它機(jī)制限制。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)中日益豐富的具有異構(gòu)、無序、多元特點(diǎn)的海量信息資源使網(wǎng)絡(luò)信息組織面臨著巨大的挑戰(zhàn),而開放數(shù)據(jù)能與現(xiàn)代信息組織的關(guān)鍵技術(shù)關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、云計(jì)算等相結(jié)合而成為網(wǎng)絡(luò)信息組織的有效實(shí)踐。開放數(shù)據(jù)在信息組織中的應(yīng)用朝兩個(gè)方向分別發(fā)展:公共信息服務(wù)領(lǐng)域(政府、科研組織等)的數(shù)據(jù)開放與信息透明制度方面的應(yīng)用、商業(yè)領(lǐng)域的應(yīng)用[5]。在政府公共信息服務(wù)領(lǐng)域中,美英等國(guó)先后開展了開放數(shù)據(jù)的實(shí)踐應(yīng)用。

(2)知識(shí)組織系統(tǒng)研究。包括關(guān)鍵詞中國(guó)分類主題詞表、術(shù)語服務(wù)、本體、數(shù)字圖書館、NKOS、SKOS。主要涉及詞表資源關(guān)聯(lián)化、知識(shí)組織規(guī)范研究、術(shù)語服務(wù)和知識(shí)序化等研究。2008年國(guó)家圖書館啟動(dòng)的“國(guó)家圖書館知識(shí)組織標(biāo)準(zhǔn)規(guī)范”項(xiàng)目是國(guó)內(nèi)圖書館界首次對(duì)網(wǎng)絡(luò)環(huán)境下知識(shí)組織系統(tǒng)的設(shè)計(jì)、構(gòu)建和應(yīng)用進(jìn)行全面系統(tǒng)的總結(jié)和編制[6]。

(3)書目研究。包括關(guān)鍵詞FRBR、關(guān)聯(lián)數(shù)據(jù)集、RDA、SPARAL、關(guān)聯(lián)服務(wù)和元數(shù)據(jù)。主要對(duì)書目數(shù)據(jù)關(guān)聯(lián)化、書目數(shù)據(jù)、編目規(guī)則RDA和FRBR進(jìn)行了研究。關(guān)聯(lián)數(shù)據(jù)是今后書目數(shù)據(jù)獲得開放應(yīng)用的關(guān)鍵技術(shù)之一。它能夠使 RDA 編目的數(shù)據(jù)直接以機(jī)器可理解的方式、鏈接和利用。

(4)關(guān)聯(lián)數(shù)據(jù)基本理論研究。包括關(guān)鍵詞RDF、URI、D2R。研究涉及關(guān)聯(lián)數(shù)據(jù)發(fā)展背景、定義、基本原則、實(shí)現(xiàn)機(jī)制以及關(guān)聯(lián)數(shù)據(jù)在當(dāng)前國(guó)內(nèi)外的應(yīng)用現(xiàn)狀等研究。

(5)圖書館的數(shù)字資源整合研究。包括關(guān)鍵詞信息聚合、本體映射、圖書館、信息技術(shù)、數(shù)據(jù)網(wǎng)絡(luò)、信息資源、知識(shí)服務(wù)和數(shù)字資源整合。對(duì)圖書館數(shù)字資源整合的研究主要集中在關(guān)聯(lián)數(shù)據(jù)在圖書館館藏信息資源聚合中的作用、應(yīng)用和基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式研究。同時(shí)也有涉及圖書館、檔案館和博物館數(shù)字資源整合方面的研究。

(6)關(guān)聯(lián)數(shù)據(jù)研究。包括關(guān)鍵詞語義網(wǎng)、Dbpedia、數(shù)據(jù)、電子政務(wù)、知識(shí)組織和知識(shí)發(fā)現(xiàn)。主要圍繞關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)、技術(shù)和實(shí)現(xiàn)方式展開研究,尤其通過實(shí)例進(jìn)行關(guān)聯(lián)數(shù)據(jù)的研究成為很多學(xué)者關(guān)注的熱點(diǎn),并取得了豐碩的研究成果。

參考文獻(xiàn):

[1]Berners-Lee T. Linked Data-Design Issues[EB/OL]. [2009-02 -18]. http: ///DesignIssues/Linked

Data. html.

[2]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書館中的應(yīng)用研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,(5):1-7.

[3]劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)-以中外圖書情報(bào)學(xué)為例[J].信息資源管理學(xué)報(bào),2012,(1):50-58.

[4]張利華,閆明.基于SNA的中國(guó)管理科學(xué)科研合作網(wǎng)絡(luò)分析[J].技術(shù)與創(chuàng)新管理,2010,(4):39-45.

[5]李佳佳.信息管理的新視角-開放數(shù)據(jù)[J].情報(bào)理論與實(shí)踐,2010,(10):35-39.

精選范文推薦