公務(wù)員期刊網(wǎng) 精選范文 數(shù)學(xué)建模聚類分析范文

數(shù)學(xué)建模聚類分析精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)學(xué)建模聚類分析主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)學(xué)建模聚類分析

第1篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞 模糊聚類分析;DNA分類;數(shù)學(xué)建模

中圖分類號 O242 文獻標(biāo)識碼 A 文章編號 1673-9671-(2012)052-0202-02

1 概述

2000年6月,人類基因組計劃中DNA全序列草圖完成。DNA序列由A、T、C、G4種堿基按一定規(guī)律排列而成。當(dāng)前生物信息學(xué)最重要的課題之一是研究由這4種堿基排列成的序列中蘊藏的規(guī)律。目前在這項研究中最普通的思想是省略序列的某些細節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象。這種被稱為粗?;湍P突姆椒ㄍ兄谘芯科湟?guī)律性和結(jié)構(gòu)。現(xiàn)已知20個人工序列1~10屬于A類,11~20屬于B類,要求運用數(shù)學(xué)建模方法發(fā)掘已知類別DNA序列的特征,從而據(jù)此對未知類別的20個DNA序列進行分類。本文對T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價矩陣,λ截矩陣方法對DNA序列進行分類。

2 模糊聚類分析模型

2.1 主要研究步驟

通過觀察發(fā)現(xiàn),A類DNA序列中G堿基含量較多,T堿基含量較少,而B類DNA序列則剛好相反。所以可用這20條DNA序列中T和G堿基在自身序列中所占的頻率作為基本研究對象,并對T、G堿基所占的比例的原始數(shù)據(jù)進行標(biāo)準(zhǔn)化,放大差異。再建立相應(yīng)的模糊相似矩陣,模糊等價矩陣和λ截矩陣,找出一個最優(yōu)的λ值進行DNA序列分類并使分類準(zhǔn)確度達到最高。最后用上述方法以及λ值對另外20個未明類別的序列進行分類。

2.2 原始數(shù)據(jù)標(biāo)準(zhǔn)化

先對T和G堿基頻率作標(biāo)準(zhǔn)化處理。平移—標(biāo)準(zhǔn)差變換

(i=1,2…,20;j=2,4)

其中xi是第i個DNA序列,x'ij是指堿基A,G,C,T在第i個DNA序列中出現(xiàn)的頻率,x"ij是對x'ij進行標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)頻率值,

,,(j=2,4)。

進行平移—極差變換,(j=2,4),

可得到關(guān)于堿基頻率的模糊矩陣

2.3 模糊聚分析法

相關(guān)系數(shù)刻畫隨機變量之間的線性相關(guān)性:相關(guān)系數(shù)絕對值越大,隨機變量之間的線性關(guān)系越密切;相關(guān)系數(shù)為0,稱隨機變量線性無關(guān)。所以利用相關(guān)系數(shù)法對堿基頻率模糊矩陣的元素進行處理,利用公式:

得到一個關(guān)于xi與xj相似程度的模糊相似矩陣rij。

如果xi與xj的相似程度為rij,那么模糊矩陣R=(rij)20×20,顯然R是模糊相似矩陣,為

為了從模糊相似矩陣R得到模糊等價矩陣R=(rij)n×n,從n階模糊相似矩陣R出發(fā),依次求平方RR2R4…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R傳遞閉包t(R),則t(R)=R。對于已知分類的20條DNA序列,由大到小取一組λ∈[0,1],確定相應(yīng)的λ截矩陣Rλ=(λij)20×20,且λ截矩陣為一個對角線為1的對稱0-1矩陣。即可將其分類:若λij=1,說明第i條DNA序列與第j條DNA序列屬于同一類。若λij=0,說明第i條DNA序列與第j條DNA序列不屬于同一類。對于未分類的DNA序列,利用已求出的λ值,得到相應(yīng)λ截矩陣,再利用已知λ值便可對未分類的DNA序列進行分類。

2.4 分類結(jié)果及其分析

應(yīng)用Matlab軟件對第1-20個DNA序列數(shù)據(jù)進行處理,經(jīng)平移-極差變得到類別A、B中A、T、C、G堿基的標(biāo)準(zhǔn)化頻率(表1)。

可得到標(biāo)準(zhǔn)化矩陣:

那么得到表示這1-20個DNA序列之間的相關(guān)程度的模糊相似矩陣:

進而求得傳遞閉包t(R)及模糊相似矩陣RR=t(R)。對模糊等價矩陣R進行分析,發(fā)現(xiàn)選取λ∈(0.8714,0.9834)會得到最高的準(zhǔn)確

率,高達100%,識別率為90%,沒有出現(xiàn)誤判。計算時可取平均值λ=0.9764,得到λ截矩陣Rλ=(λij)20×20。對于λ截矩陣Rλ=(λij)20×20,若λij=1,說明第i條DNA序列與第j條DNA序列屬于同一類;若λij=0,則說明第i條DNA序列與第j條DNA序列不屬于同一類。最后得到分類結(jié)果:

A{1,2,3,5,6,7,8,9,10}

B{11,12,13,14,15,16,18,19,20}

C類(無法識別){4,17}。

采用以上方法對第1-20個DNA序列分類的準(zhǔn)確率為100%,識別率為90%,沒有出現(xiàn)誤判。把標(biāo)號為21-40的DNA序列添加到原來的數(shù)據(jù)中,采用同樣的模型與已求出的λ值對其進行分類,結(jié)

果為:

A類{22,23,25,27,29,33,34,35,36,37,39}

B類{21,24,26,28,30,31,38,40}

C類{32}。

3 結(jié)論

本文運用數(shù)學(xué)建模模糊聚類分析法方法,對T和G堿基在各DNA序列中所占的比例數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價矩陣,λ截矩陣方法對DNA序列進行分類,方法簡單、實用,且分類結(jié)果準(zhǔn)確率高達100%,識別率為90%,沒有出現(xiàn)誤判。

參考文獻

[1]csiam.省略/mcm.2000網(wǎng)易杯全國大學(xué)生數(shù)學(xué)建模競賽題.

[2]顧俊華,盛春楠,韓正忠.模糊聚類分析方法在DNA序列分類中的應(yīng)用[J].計算機仿真,2005,10(22):108-129.

[3]劉煥彬,庫在強,廖小勇,陳文略,張忠誠.數(shù)學(xué)模型與實驗[M].北京:科學(xué)出版社,2008.

[4]徐曉秋,初立元,左銘杰,譚欣欣.DNA分類方法的探討[J].大連大學(xué)學(xué)報,2001,8.

[5]岳曉寧,徐寶樹,王競波.基于聚類分析的DNA序列分類研究[J].沈陽大學(xué)學(xué)報,2008,20(6):104-106.

第2篇:數(shù)學(xué)建模聚類分析范文

【關(guān)鍵詞】商業(yè)銀行 收入結(jié)構(gòu) 多元統(tǒng)計法 MATLAB SPSS

隨著我國金融業(yè)的不斷開放和利率市場化的改革,商業(yè)銀行間的競爭日益激烈,再加上國家對商業(yè)銀行的監(jiān)管不斷加強,其盈利能力受到挑戰(zhàn)。商業(yè)銀行傳統(tǒng)的存貸息差的經(jīng)營模式收入逐漸減少,而國外的銀行已經(jīng)開始大力開拓中間業(yè)務(wù)等非利息收入。目前我國商業(yè)銀行利息收入所占的平均比重已由2010年的80%下降到2015年的70%,而國外發(fā)達國家的商業(yè)銀行利息收入所占平均比重已經(jīng)達到了40%。由此可見,加快經(jīng)營模式和和收入結(jié)構(gòu)的改變,已成為我國商業(yè)銀行改革的方向之一。

一、數(shù)據(jù)來源及模型假設(shè)

本文選取16家上市銀行為研究對象,對其2010到2015年年報進行整理分析,獲得所需數(shù)據(jù)。為了便于解決和研究問題,提出以下幾條假設(shè):⑴假設(shè)16家上市銀行的年報真實可信;⑵假設(shè)上市銀行在編制年報時使用會計記賬方式等一致;⑶假設(shè)設(shè)置的變量取值都有實際意義且數(shù)據(jù)記錄準(zhǔn)確規(guī)范。

二、根據(jù)收入結(jié)構(gòu)對商業(yè)銀行的分類

(一)研究思路

首先運用主成分分析將多個指標(biāo)濃縮為少量幾個指標(biāo),消除各個指標(biāo)間的多重共線性,然后根據(jù)主成分得分對其用二階聚類法進行聚類分析,最后根據(jù)實際情況確定最終聚類結(jié)果。

(二)數(shù)據(jù)處理

1.主成分分析。將我們整理的2015年16家上市銀行收入結(jié)構(gòu)的各項指標(biāo)用SPSS對其進行主成分分析,在方差累計貢獻率大于85%的情況下,得出F1、F2、F3、F4主成分得分函數(shù):

F1=-0.379X1+0.316X2+0.023X3-0.28X4+0.3X5+0.075X6

F2=-0.163X1+0.325X2+0.439X3+0.156X4-0.354X5-0.332X6

F3=-0.244X1-0.143X2+0.431X3+0.322X4-0.09X5+0.796X6

F4=-0.293X1+0.416X2-0.684X3+0.851X4+0.032X5+0.013X6

將各指標(biāo)值分別代入4個得分函數(shù)中,就可以得出每個商業(yè)銀行的主成分得分,得分結(jié)果如表1所示。

2.聚類分析。根據(jù)表1,對其用二階聚類法進行聚類分析,先分別聚成四類、五類和六類。

下圖為三種聚類的“模型概要”和“聚類質(zhì)量”圖。

“聚類質(zhì)量”通過不同的顏色來表示聚類質(zhì)量的“差”、“良”、“好”和“較佳”三個等級。藍色條帶表聚類質(zhì)量達到的等級。由上圖可以觀察到,三種聚類結(jié)果的聚類質(zhì)量良好,說明聚類成三種方式都是合理的。

下表是將16家商業(yè)銀行分別聚成四類、五類和六類的情況。

表2 不同聚類結(jié)果表

由表2可以看出,不論將這16家銀行分為四類、五類還是六類,我們都可以發(fā)現(xiàn):工商銀行、建設(shè)銀行、中國銀行被分為一類,農(nóng)業(yè)銀行、交通銀行、華夏銀行、北京銀行被分為一類,浦發(fā)銀行和民生銀行被分為一類。最終我們結(jié)合實際,將四類的結(jié)果作為本文的最終聚類結(jié)果。

(三)結(jié)果分析

第一類銀行的利息收入平均為72.58%,低于其余13家銀行2.3%。并且其他營業(yè)收入平均占總收入的4.93%,遠遠高于其余13家商業(yè)銀行4.03%。這說明國有的三大商業(yè)銀行比其他商業(yè)銀行具有較優(yōu)的收入結(jié)構(gòu),這也為工商、建設(shè)和中國銀行成為全球頂尖銀行提供了依據(jù)。

第二類商業(yè)銀行是利息收入占比降低最快或營業(yè)額相對龐大的商業(yè)銀行,這四家銀行的收入結(jié)構(gòu)雖然沒有第一類好,但在優(yōu)化收入結(jié)構(gòu)的能力上存在比較大的潛力,相信其收入結(jié)構(gòu)在以后幾年會快速得到改善。

第三類商業(yè)銀行是唯一在匯兌收益中虧損的一類商業(yè)銀行,這類商業(yè)銀行都是股份制銀行,資產(chǎn)規(guī)模較小,但是最富創(chuàng)新力的銀行。但就目前來說,其收入結(jié)構(gòu)是16家商業(yè)銀行中最差的一類銀行,應(yīng)該得到管理層的重視。

第四類商業(yè)銀行處于四類銀行收入結(jié)構(gòu)的中間水平。其中,招商銀行零售業(yè)務(wù)備受認可,平安銀行依靠其母公司平安集團快速擴張,意圖成為全能型模式銀行。此類銀行的利息占比收入是四類銀行中最低的一類銀行,甚至低于第一類國有控股銀行2.5%。但資產(chǎn)規(guī)模較低,其他業(yè)務(wù)收入占比僅為0.15%,遠遠低于第一類商業(yè)銀行其他營業(yè)收入平均占總收入的4.93%。

三、收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營業(yè)收入之間的聯(lián)系

(一)研究思路

本文假設(shè)收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營養(yǎng)結(jié)構(gòu)之間是確定的函數(shù)關(guān)系,進行回歸分析,得出收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營業(yè)收入之間的函數(shù)表達式,通過對各參數(shù)的分析,可分別得到資產(chǎn)規(guī)模和營業(yè)收入之間對收入結(jié)構(gòu)的影響。

(二)數(shù)據(jù)處理

1.回歸分析。用資產(chǎn)規(guī)模和營業(yè)收入作為自變量,用利息凈收入、手續(xù)費及傭金凈收入、投資收益、公允價值變動收 、匯兌收益、其他業(yè)務(wù)收入作為因變量。由于6個自變量具有不同的重要性,假定收入結(jié)構(gòu)可分為利息收入和非利息收入,因此先對這6個變量分別賦予權(quán)重0.5、0.1、0.1、0.1、0.1、0.1,然后再進行回歸分析。此數(shù)據(jù)是截面數(shù)據(jù),有可能存在異方差,所以直接采用加權(quán)最小二乘法進行回歸,回歸權(quán)數(shù)設(shè)置為殘差平方和。用EVIEWS進行WLS回歸。

①資產(chǎn)規(guī)模回歸方程

回歸結(jié)果如下:

Y1=-21.8235+43.817X1+195.5811X2+189.2389X3+363.1467X4 +394.9035X5+335.5921X6

T=(-1.7214)(1.6997)(1.6064)(1.6930)(1.8888)(2.8589)(1.7292)

R2=0.9999,DW=0.8,F(xiàn)=1094270

由回歸結(jié)果可以看出R2=0.9999,這說明模型對樣本擬合度很高;F=1094270,給定顯著性水平α=0.05通過查F分布表可知,此回歸程顯著。

②業(yè)收入回歸方程

回歸結(jié)果如下:

Y2=-16.844+33.147X1+152.972X2+166.822X3+350.225X4 +334.845X5+265.7024X6

T=(-1.1819)(1.1438)(1.1177)(1.3276)(1.6204)(2.1563)(1.2179)

R2=0.9999,DW=0.7513,F(xiàn)=957327

由回歸結(jié)果可以看出R2=0.9999,這說明模型對樣本擬合度很高;F=957327,給定顯著性水平α=0.05通過查F分布表可知,此回歸程顯著。

(三)結(jié)果分析

由資產(chǎn)規(guī)?;貧w方程中可以看出,6個自變量的系數(shù)都為正,說明6個變量與銀行的資產(chǎn)規(guī)模呈正相關(guān)。又發(fā)現(xiàn)利息收入的系數(shù)最小,說明利息對銀行資產(chǎn)規(guī)模的邊際彈性低,無法通過增加利息收入而增加資產(chǎn)規(guī)模。

由營業(yè)收入回歸中可以看出,6個自變量的系數(shù)都為正,說明6個變量與銀行的資產(chǎn)規(guī)模亦呈正相關(guān)。和資產(chǎn)規(guī)模回歸方程一樣,利息收入的系數(shù)最小。因此建議商業(yè)銀行應(yīng)該增大非利息收入,這樣可以優(yōu)化自己的收入結(jié)構(gòu),更快的提高營業(yè)收入。

四、收入結(jié)構(gòu)的預(yù)測

(一)研究思路

在前文分類的基礎(chǔ)上,為了代表所有的上市銀行和計算的方便性,我們挑選4類中一家銀行的收入結(jié)構(gòu)進行灰色預(yù)測。因為影響收入結(jié)構(gòu)最主要的因素是利息占總收入的比重,我們選取這一項作為預(yù)測對象。

(二)數(shù)據(jù)處理

灰色預(yù)測

商業(yè)銀行利息占總收入的比重近年來都呈現(xiàn)下降的趨勢,因此我們選取GM(1,1)灰色預(yù)測模型。

1.工商銀行。利用MATLAB軟件求出模型參數(shù)a、b,即發(fā)展灰度和內(nèi)生灰度的估計值:a=0.0132,b=0.7897。由此可求得一次累加原始數(shù)列擬合序列表達式:y=59.9381-59.1405E-0.0132t,以此計算而得的數(shù)列再進行累減還原即可得灰色預(yù)測后的擬合序列,最后進行模型誤差的檢驗。

由表3可以看出,2016~2020年擬合數(shù)據(jù)與原始數(shù)據(jù)的殘差均小于0.02,相對誤差均小于2%,說明此模型可以用來預(yù)測工商銀行利息收入占總收入的比重。

利用上述建立的模型,用MATLAB直接預(yù)測2016~2020年工商銀行利息占總收入的比重數(shù)據(jù),如下表4所示:

2.交通銀行、浦發(fā)銀行、平安銀行。采用與工商銀行相同的建模方式,對交通銀行、浦發(fā)銀行、平安銀行的利息占總收入的比重進行灰色GM(1,1)預(yù)測,預(yù)測誤差直接用圖2展示。

圖2 交通銀行、浦發(fā)銀行、平安銀行誤差與相對誤差分布圖.

由圖2可以直觀的觀察到,2016~2020年擬合數(shù)據(jù)與原始數(shù)據(jù)的殘差均小于0.02,相對誤差均小于2%,說明此模型對交通銀行、浦發(fā)銀行和平安銀行的利息收入占總收入的比重可以進行預(yù)測。

由此,我們用MATLAB求出其余三家商業(yè)銀行利息占總收入的比重數(shù)據(jù),如表5所示:

(三)結(jié)果分析

由表4和表5可以觀察到,平安銀行的利息收入在2020年占比最低為52%,遠高于工商銀行的68.75%,說明第四類銀行,即最富有創(chuàng)新的商業(yè)銀行未來的發(fā)展前景樂觀。而第一類銀行即目前具有相對最優(yōu)收入結(jié)構(gòu)的國有大型商業(yè)銀行,其利息收入所占比重雖然在逐年降低,但其速度遠遠小于第四類股份制商業(yè)銀行。

五、總結(jié)

本文首先聚類分析了國內(nèi)16家上市銀行收入結(jié)構(gòu)的現(xiàn)狀,我們發(fā)現(xiàn)國有大型商業(yè)銀行現(xiàn)階段憑借其強大的資產(chǎn)規(guī)模,構(gòu)建了比其它商業(yè)銀行更優(yōu)的收入結(jié)構(gòu),以此成為全球頂尖銀行。而第四類股份制商業(yè)銀行雖然具有較強的創(chuàng)新能力,但其收入結(jié)構(gòu)現(xiàn)狀仍不及國有大型商業(yè)銀行。然后回歸分析了商業(yè)銀行收入結(jié)構(gòu)與資產(chǎn)規(guī)模和營業(yè)收入之間的關(guān)系,得到利息收入對銀行資產(chǎn)規(guī)模和營業(yè)收入的邊際彈性低,因此商業(yè)銀行欲通過增加利息收入從而增加資產(chǎn)規(guī)模和營業(yè)收入已是不明智的選擇。最后對4類銀行中典型的4家銀行的利息收入所占比重進行灰色預(yù)測,發(fā)現(xiàn)5年后富有創(chuàng)新的股份制商業(yè)銀行的利息收入占比已經(jīng)低于國有大型商業(yè)銀行。

因此國有大型商業(yè)銀行應(yīng)該加強創(chuàng)新,重新定位經(jīng)營業(yè)務(wù)結(jié)構(gòu),向股份制商業(yè)銀行學(xué)習(xí),與國際金融大環(huán)境接軌,效仿國際先進理念,把中間業(yè)務(wù)作為商業(yè)銀行新效益增長點。股份制商業(yè)應(yīng)該保持其創(chuàng)新能力,繼續(xù)開展收入結(jié)構(gòu)改革,擴大資產(chǎn)規(guī)模。國家應(yīng)該逐步放松對金融的管制,讓商業(yè)銀行的業(yè)務(wù)范圍不斷擴大,逐漸形成混業(yè)經(jīng)營模式,成為多功能、綜合性的“金融百貨公司”,以此達到優(yōu)化收入結(jié)構(gòu)的目的。

參考文獻

[1]邢學(xué)艷.我國商業(yè)銀行收入結(jié)構(gòu)的實證分析[J].經(jīng)濟師,2011(9):181-183.

[2]黃國妍.商業(yè)銀行收入結(jié)構(gòu)與銀行風(fēng)險研究[D].華東師范大學(xué),2014.

[3]黃宏運,呂石山,朱家明.空氣污染的計量評估方法[J].陰山學(xué)刊(自然科學(xué)版),2016,04:1-5.

[4]楊桂元,朱家明.數(shù)學(xué)建模競賽優(yōu)秀論文評析[M].中國學(xué)技術(shù)大學(xué)出版社,2013.9.第一版.

[5]馮巖松.SPSS 22.統(tǒng)計分析應(yīng)用[M].北京:清華大學(xué)出版社,2015.

[6]楊桂元.數(shù)學(xué)建模[M].上海:上海財經(jīng)大學(xué)出版社,2015.

[7]孫亞靜,辛雪嬌,張彥紅.中國上市商業(yè)銀行經(jīng)營績效分析[J].產(chǎn)業(yè)與科技論壇,2013,13:26+226.

[8]張暢.我國股份制商業(yè)銀行競爭力比較分析[J].現(xiàn)代商貿(mào)工業(yè),2016,07:54-56.

第3篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞 葡萄酒評價 符號秩檢驗 灰色聚類分析

中圖分類號:TS262.6 文獻標(biāo)識碼:A DOI:10.16400/ki.kjdkz.2015.12.066

Abstract This paper established a signed rank test and gray clustering model wine evaluation. In order to get each group wine-tasting each wine sample an objective evaluation score for each group of wine-tasting wine samples for the evaluation scores do mean to give the wine sample overall score, and then the evaluation results of the two groups for wine-tasting poor, made the difference to get the data signed rank test, and finally the use of SAS software to calculate the signed-rank test = 0.0085, and less than the significance level = 0.05, it does not accept the original hypothesis that the evaluation results of two wine-tasting are significant differences; For the question of confidence, and we each wine-tasting wine samples ratings for variance analysis, were calculated first and second set of score results of variance and were 1409.3,821.1, easy to know and much larger than the first group variance The second group, so the evaluation results of the second group is more stable and more reliable. The second group of wine-tasting red wine for the evaluation of the results will be classification, then using gray cluster analysis of the samples were graded red grapes, combined with its wine is quality, both in the grape samples wines level, to determine the level of the wine.

Key words wine evaluation; signed rank test; grey cluster analysis

1 問題重述

1.1 研究課題背景

針對主觀性評價問題和多目標(biāo)問題,由于其繁瑣性和主觀性,對我們來說,很難透過現(xiàn)象看本質(zhì),雖然層次分析法在PHP中可以通過得分函數(shù)構(gòu)成。但就其缺點而言,我們認為對這類模糊性問題采取多目標(biāo)分層次的解決方式,而利用統(tǒng)計分析里的方差分析和灰色關(guān)聯(lián)度分析能夠合理處理此類問題。對于未來預(yù)測性和多目標(biāo)問題可以得到很好的預(yù)見性效果。同時也為多領(lǐng)域多目標(biāo)問題中提供一個較好的模型。

本文的模型也可適當(dāng)?shù)貙ρ芯咳耸?、招聘及高校評選的處理方法有所幫助和提高。

2 問題分析

因為兩組品酒員對酒樣的評分是成對比較,且對評分并不要求成對數(shù)據(jù)之差服從正態(tài)分布,只要求對稱分布,故我們采用統(tǒng)計學(xué)中Wilcoxon符號秩檢驗來解釋兩組品酒員對葡萄酒的評價有無顯著性差異。

假設(shè)兩組品酒員對葡萄酒的評價有顯著性差異,就需要確定哪組品酒員的評價更可信,為此對品酒員評價數(shù)據(jù)做置信度分析――方差分析,由于葡萄酒評價數(shù)據(jù)無法進行復(fù)測,就要利用matlab軟件的信度分析功能,分別對第一組和第二.組的評分進行可信度分析,最后通過圖形直觀的反映結(jié)果。

3 模型建立

3.1 符號秩檢驗?zāi)P偷慕?/p>

將兩組評酒員分別看作兩個整體、,對每個紅葡萄酒樣品進行評價,對每個紅葡萄酒樣品的評價結(jié)果通過組內(nèi)每一位品酒員的評分的均值 = 來刻畫,同樣對每個紅葡萄酒樣品的評價結(jié)果用均值 = 來刻畫,從而得到兩組評酒員對每種樣品酒的評價結(jié)果,建立兩組評酒員對紅葡萄酒的評價。

對同一酒樣品得到一對數(shù)據(jù)??芍獌蓪?shù)據(jù)之間差異是由各種因素,如葡萄酒的外觀、香氣、口感、材料成分等因素引起的。由于各酒樣品的特性有廣泛的差異,就不能將第一組評酒員對27 種紅葡萄酒的評價結(jié)果看成是同分布隨機變量的觀測值。因而表1中第一行不能看成是一個樣本的樣本值,同樣第二組的數(shù)據(jù)也不能看成是同一個樣本的樣本值,而同一對中兩個數(shù)據(jù)是同分布隨機變量的觀測值,他們的差異是由于兩組品酒員的水平引起的。為鑒定他們的評價結(jié)果有無顯著性差異,可使用基于成對數(shù)據(jù)的逐對比較法。以紅葡萄酒樣品為例,有27對相互獨立的評價結(jié)果:(,),(,),…,(,),令 = , = ,…, = ,則,,…,相互獨立,所以我們對,,…,進行單因素的符號秩檢驗。

再對和中的元素分別求和得到方差和,用方差和對比得到對于同一批紅葡萄酒兩組的不同評價水平。方差和小的穩(wěn)定性好,相對來說比另一組的評價結(jié)果更可信。

3.3 灰色聚類分析模型的建立

在附件2中我們可以得到,對于紅葡萄酒,有對應(yīng)的30個一級指標(biāo),為了使結(jié)果更具有客觀性,我們將葡萄酒的質(zhì)量也作為一級指標(biāo)。對于這31個一級指標(biāo),其中多酚氧化酶活力、褐變度、總酚、固酸比、出汁率這5個指標(biāo)與葡萄酒質(zhì)量呈負相關(guān),其余26個指標(biāo)都與葡萄酒質(zhì)量呈正相關(guān)。

4 模型求解

4.1 符號秩檢驗?zāi)P偷那蠼?/p>

對于該模型,我們首先作出同一酒樣品分別由兩組品酒員,得到的評價結(jié)果之差,列于表1的第三行。根據(jù)建立模型的需要假設(shè)

: = 0,:≠0

我們?nèi)?= 0.05,并采用SAS軟件編程處理,具體程序見附錄程序1。

在SAS中運行的結(jié)果如圖1:

結(jié)果顯示符號秩檢驗對應(yīng)的P為0.0085,小于顯著性水平0.05,故不接受原假設(shè),即認為這兩組品酒員分別對紅葡萄酒的評分有顯著性差異。

4.2 方差分析模型的求解

運用MATLAB軟件編程求解,得到,。

對于紅葡萄酒而言:元素的和為1409.3,元素的和為821.1。由此可以得出,第一組的方差和遠遠大于第二組。

4.3 灰色聚類分析模型的求

我們先對紅葡萄酒質(zhì)量的評價結(jié)果按評分從小到大排列得到表1:

根據(jù)等級分級標(biāo)準(zhǔn):高級葡萄酒:9、23、20;上等葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22;中等葡萄酒:16、10、13、1、12、25、6、15、7、8;下等葡萄酒:18、11。

對于每類葡萄中的元素,結(jié)合該葡萄樣本所釀造的葡萄酒的級別,來確定該葡萄的級別。然后再根據(jù)每類葡萄中葡萄樣本級別的比例來確定該類葡萄的級別。對應(yīng)葡萄酒的等級分類,我們根據(jù)葡萄的聚類分析也將葡萄分成高級、上級、中級、下級。

紅葡萄的分類結(jié)果:高級紅葡萄:9、23、4、20;上級紅葡萄:3、17、12、15、18、24、5、19、13、21、2、26;中級紅葡萄:10、16、27、1、14、25、6、7、22、8;下級紅葡萄:11。

參考文獻

第4篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞數(shù)據(jù)挖掘 教學(xué)模式 合作式教學(xué)

中圖分類號:G642文獻標(biāo)識碼:A

數(shù)據(jù)是無處不在的。當(dāng)飛速增長的數(shù)據(jù)給我們帶來方便和便捷的同時,也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學(xué)領(lǐng)域中的自動數(shù)據(jù)收集設(shè)備每小時能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問題已經(jīng)不再是沒有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊含于這些信息之中的有價值的知識。由于數(shù)據(jù)分析師的匱乏,導(dǎo)致了很多領(lǐng)域出現(xiàn)了“數(shù)據(jù)豐富而知識匱乏”的現(xiàn)象,因而在信息計算科學(xué)、統(tǒng)計學(xué)等本科專業(yè)中開設(shè)數(shù)據(jù)分析課程是非常有必要的。

數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點就是“讓數(shù)據(jù)說話”。該課程設(shè)計的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計、多元統(tǒng)計分析、判別聚類分析、時間序列分析等。由于計算機編程的復(fù)雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學(xué),使得本科階段的學(xué)生很難接受。隨著計算機及統(tǒng)計軟件(如SAS,SPSS)的普及,大大的減少了對程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開放(如金融數(shù)據(jù)庫),使學(xué)生有可研究的對象,從而使得我們在大學(xué)本科階段開設(shè)數(shù)據(jù)分析課程成為可能,但需要合適的教學(xué)模式以適應(yīng)本科階段的教學(xué)。

由于數(shù)據(jù)分析的方法眾多,對不同學(xué)科的數(shù)據(jù)又會有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的?;趯W(xué)生的數(shù)學(xué)和計算機基礎(chǔ),從實際問題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應(yīng)用為主,理論為輔,運用SAS軟件來實現(xiàn)。在教學(xué)過程中采用了以下幾個模式,并達到了較好的教學(xué)效果。

1 選用SAS軟件為課程配套工具軟件

在數(shù)據(jù)分析課程的教學(xué)中,算法實現(xiàn)對于本科生來說難度太大,該階段的學(xué)生只學(xué)過C語言,很多分析方法如果用C語言來編程完成,難度將無法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級程序員。隨著統(tǒng)計軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學(xué)。通過簡單的編程即可實現(xiàn)所有數(shù)據(jù)分析方法,并且應(yīng)用多樣化,功能強大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學(xué)時間,我們?yōu)樵搶I(yè)學(xué)生準(zhǔn)備了兩周實踐課程,專門進行SAS的教學(xué),取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡單原理,計算步驟及SAS系統(tǒng)中對應(yīng)的模塊和程序說明。例如在介紹方差分析時,同時介紹SAS系統(tǒng)中ANOVA和GLM過程,利用SAS軟件可迅速得到各種統(tǒng)計量,學(xué)生只需通過結(jié)果做相關(guān)的分析結(jié)論,簡化繁瑣計算,節(jié)省課時,提高了學(xué)生的學(xué)習(xí)興趣。

2 引入合作式教學(xué),加入討論課模式

數(shù)據(jù)分析課程當(dāng)中,理論知識的傳授和應(yīng)用能力的培養(yǎng)歸根結(jié)底是為了解決實際問題。各種分析算法,軟件都是幫助解決問題的一個工具。如何讓學(xué)生去面臨實際問題,并通過收集數(shù)據(jù),建立模型,求解模型從而解決問題,這才是我們希望學(xué)生真正得到的能力。所以,我們引入的合作式教學(xué)模式。每次討論課給定特定的專題,學(xué)生以組為單位收集相關(guān)資料數(shù)據(jù),并進行問題分析,選定數(shù)據(jù)分析方法并建模求解,對得到的結(jié)果進行相關(guān)的解釋,最后進行合理性分析。如對某產(chǎn)品在各個超市的銷售量的分析,判斷地區(qū)是否對銷售量有影響。整個過程從灌輸式的教學(xué)模式轉(zhuǎn)變?yōu)橐龑?dǎo)式的教學(xué)模式,學(xué)生在討論課當(dāng)中占據(jù)主導(dǎo)地位。在分析問題得到結(jié)論后,以小組為單位進行總結(jié)匯報,由組外同學(xué)進行點評討論,教師只做啟發(fā),指導(dǎo)工作。這種教學(xué)模式,不僅大大提高了學(xué)生的主動性,調(diào)動的學(xué)生思維,提高解決問題的實際能力,表達、溝通及團隊合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問題,糾正錯誤。

3 適當(dāng)介紹方法產(chǎn)生的背景、原理、重點介紹方法的綜合應(yīng)用

適當(dāng)介紹方法產(chǎn)生背景和原理,可加深學(xué)生對分析方法的理解,深入了解方法的適用領(lǐng)域,所能解決的問題,與實際相結(jié)合,從而提高學(xué)生的學(xué)習(xí)興趣。但我們更應(yīng)該把分析方法綜合應(yīng)用作為首要教授的方面,即如何讓學(xué)生把所學(xué)的數(shù)據(jù)方法正確的應(yīng)用到實際問題當(dāng)中。我們應(yīng)該從以下幾個方面入手:

(1)介紹分析方法的基本背景和原理,講清應(yīng)用范圍。教學(xué)中,我們可簡單介紹分析方法的基本思想和計算方法,但其具體能解決何種問題必須講清。如:聚類分析和判別分析兩類問題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過一組已經(jīng)分類的樣本),根據(jù)已知的知識對現(xiàn)有未知的樣本進行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強的樣本歸為一類,其中類別的特點,數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問題,而對新的疫情進行類別區(qū)別則是屬于聚類問題。利用實例使學(xué)生區(qū)分兩種方法所能解決的問題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。

(2)融入數(shù)學(xué)建模思想,加強分析方法的應(yīng)用。每個分析方法從理論到實際應(yīng)用都需要一個過程。如果將一個實際問題轉(zhuǎn)變?yōu)橐粋€數(shù)學(xué)能解決的問題,就需要運用數(shù)學(xué)建模的思想,建立數(shù)學(xué)模型解決實際的問題。如:一個城市的安全程度往往可以通過這個城市的犯罪率來體現(xiàn),但是犯罪種類之多使得我們無法通過某種犯罪次數(shù)來得出結(jié)論。這就使得我們要建立主成分分析模型,運用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進行線性組合,得到幾個主要的犯罪指標(biāo)――總體犯罪率,重度犯罪比例等等。利用少量的指標(biāo)去體現(xiàn)原來多個指標(biāo)所體現(xiàn)的大部分信息,達到反應(yīng)總體狀況的效果。通過簡單的、學(xué)生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過各個主成分依次求出,其反應(yīng)出的總體信息不斷加大,還可引入貢獻率和累計貢獻率得概念,使學(xué)生明確如何合理選擇主成分。比如當(dāng)前m個主成份的累計貢獻率達到85%的時候,就可認為這m個主成份能夠反應(yīng)總體的絕大部分信息。重點介紹各個統(tǒng)計量在當(dāng)前模型中的含義,作用及對應(yīng)關(guān)系,使得學(xué)生能夠使用分析方法在實際中加以應(yīng)用。

(3)加強介紹方法的步驟、軟件實現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學(xué)生必須掌握的技術(shù)。任何數(shù)據(jù)分析算法,都不太可能利用人工計算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學(xué)模型后,都會給出相關(guān)實現(xiàn)的步驟。SAS編程相對簡單,分析過程大多是PROC步完成,其針對每種分析方法都會有相關(guān)的過程函數(shù),并且會有與算法對應(yīng)的輸入?yún)?shù)。學(xué)生只要模仿調(diào)用相關(guān)過程,并對結(jié)果進行相關(guān)解釋即可實現(xiàn)相應(yīng)分析方法的應(yīng)用。比如利用SAS程序進行回歸分析簡單例子:

proc regdata= study.bclass;

modelweight = height /r clm cli dw;

run;

其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計模型來計算的預(yù)測值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計量等。通過計算可得到各個相關(guān)統(tǒng)計量的值,學(xué)生無需涉及計算過程,只需知道計算得到的各個統(tǒng)計量所代表的含義,并會對結(jié)果進行解釋。只有學(xué)會對結(jié)果的解釋分析,才能解決真正的實際問題。

通過教學(xué)實踐,我認為將統(tǒng)計軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學(xué),可以起到相輔相成的作用,加入合作式教學(xué)模式,開展討論課不僅學(xué)生綜合能力得到了提高,而且學(xué)生團隊合作意識得到了加強。同時,教師必須擔(dān)任好自己的角色,要精心設(shè)計教學(xué)中的每個細節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學(xué)效果。

注釋

紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實例[M]. 機械工業(yè)出版社,2009.

第5篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞:聚類分析;資產(chǎn)管理;獨立學(xué)院

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2014)03-0443-03

固定資產(chǎn)管理是高校管理系統(tǒng)中的重要組成部分。高校資產(chǎn)管理部門參與了固定資產(chǎn)申報、采購、驗收、維修、報廢等整個生命周期。高校資產(chǎn)管理部門既能影響學(xué)院層面的決策,又直接參與系部層面的管理。在全面貫徹落實《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》精神和充分發(fā)揮教育統(tǒng)計對宏觀決策的服務(wù)作用的大形勢下,在高校學(xué)院等一級組織機構(gòu)層面的管理,有國家的各項指標(biāo)參數(shù)作為辦學(xué)管理依據(jù),如《普通高等學(xué)?;巨k學(xué)條件指標(biāo)》、《中國教育評價與監(jiān)測統(tǒng)計指標(biāo)體系》等。但資產(chǎn)管理部門在對教學(xué)系部等院校內(nèi)部二級組織機構(gòu)進行管理決策時,卻缺少較為成熟的輔助決策模型或指標(biāo)體系。我們資產(chǎn)管理部門在管理決策的過程中多以經(jīng)驗為主導(dǎo)。在高校多年的改革探索運行的進程里,資產(chǎn)管理部門積累了大量的數(shù)據(jù),如果能從已有的相關(guān)統(tǒng)計數(shù)據(jù)里挖掘出更多有用的知識,我們管理決策工作就多了一層科學(xué)性的保障,甚至能發(fā)現(xiàn)工作里部分潛在的異常,防范資產(chǎn)管理工作中的一些常見問題。比如實驗室維修經(jīng)費的管理、設(shè)備申購的審批,從局部來看,每次報告申請都有其內(nèi)在原因和必要性。但如果縱橫對比來看,申購物品是否和普遍的投資規(guī)律相符,是否和同類型部門的運行規(guī)律相符?本文嘗試通過對某學(xué)院2012-2013學(xué)年度各系部資產(chǎn)管理的相關(guān)指標(biāo)參數(shù)進行聚類分析挖掘出一些有用的知識,實現(xiàn)同類系部間管理經(jīng)驗的借鑒。

1 管理對象指標(biāo)的選取

我們的指標(biāo)選取參考了教學(xué)狀態(tài)評估、獨立學(xué)院評估的參數(shù)和實際工作經(jīng)驗。針對一個部門,我們選擇六個參數(shù)包括設(shè)備數(shù)量、學(xué)生數(shù)、教職員工數(shù)、耗材費維修費、大型精密儀器設(shè)備總額、實驗人時數(shù)。

該分類問題原始數(shù)據(jù)矩陣為:

2 數(shù)據(jù)標(biāo)準(zhǔn)化處理

當(dāng)[m]個特征變量(指標(biāo))觀測值具有不同的數(shù)量級和不同的測量單位時,常需對數(shù)據(jù)進行預(yù)處理。標(biāo)準(zhǔn)化后的數(shù)據(jù)為[x′ik=xik-xkSk],[i=1,2…n,k=1,2…m],其中[xk=1ni=1nxik]([xk]表示變量[xk]的樣本均值),[Sk=1n-1i=1n(xik-xk)212]([Sk]表示變量[xk]的樣本標(biāo)準(zhǔn)差)。

3 基于Ward法的系統(tǒng)聚類

用[G]表示類,設(shè)[G]中有[k]個樣本元素,這些元素用[i,j]表示。

定義 [T]為一給定的閾值,如果對任意的[i,j∈G,]有[dij≤T]([dij]為[i,j]的距離),則稱[G]為一個類。

本文系統(tǒng)聚類法(hierarchical clustering method)的實施包含下列步驟:

①對系部相關(guān)數(shù)據(jù)進行變換處理;

②構(gòu)造9個類,每個類[Gt]只包含一個樣本[i];

③計算9個樣本[dij]兩兩間的距離 ;

④合并距離最近的兩類為一新類[Gp];

⑤計算新類與當(dāng)前各類的距離,若類的個數(shù)等于1,轉(zhuǎn)到⑥;否則回④;

⑥生成樹狀聚類圖;

⑦根據(jù)設(shè)定的閾值[T]判斷類的個數(shù),得出分類結(jié)果。

在算法第⑤步需要計算類與類之間的距離,常用的有最短距離法、類平均距離法、重心距離法等。我們采用的是起源于方差分析的Ward法(也稱離差平方和)。較好的分類可以達到樣品間離差平方和較小,類與類之間的離差平方和較大。設(shè)將[n]個樣品分成[k]類;

[G1,G2,…,Gk]用[xit]表示類[Gt]中第i個樣品,[nt]表示類[Gt]中樣品個數(shù),[xt]是類[Gt]的重心,則整個類[Gt]中的離差平方和是[L=t=1ki=1nt(xit-xt)′(xit-xt)]。

我們用統(tǒng)計分析軟件SPSS 19.0,平方歐氏距離作為相似性測度,類間距用Ward法定義。生成的聚類圖表如表3,圖2。

由以圖2分類結(jié)果可以看出,分為4~5類較為合適,同類系部之間如計算機系與金融貿(mào)易系的資產(chǎn)管理策略可以相互借鑒,同類系部的資產(chǎn)管理問題,也應(yīng)該引起共同的關(guān)注并引以為戒。我們的工作實踐表明,該分類模型可以幫助我們防范同類系部可能遇到的部分相似問題,減少了資產(chǎn)管理工作中的盲目性,為管理決策提供了科學(xué)性的參考。

4 結(jié)束語

聚類分析作為無監(jiān)督學(xué)習(xí)的一種重要形式,具有廣泛的應(yīng)用前景。高校系部等二級機構(gòu)的資產(chǎn)管理決策目前較多依賴以往經(jīng)驗,基于系統(tǒng)聚類法的資產(chǎn)管理決策,讓我們獨立學(xué)院“摸著石頭過河”的探索多一些科學(xué)的依據(jù)。但我們的模型還有很多不足和待解決問題,比如樣本指標(biāo)的合理性,模型能否推廣到行政機構(gòu)、后勤部門等非教學(xué)二級機構(gòu)。另外針對同一高校探討還可以從同一時間段不同學(xué)院系部的情況聚類,和同一學(xué)院系部不同時間段聚類分析,需要我們進一步深度收集整理相關(guān)數(shù)據(jù)。

參考文獻:

[1] 何曉群.多元統(tǒng)計分析[M].3版.北京:中國人民大學(xué)出版社,2012.

[2] 王宏洲,李學(xué)文.數(shù)學(xué)建模方法進階[M].北京:清華大學(xué),2013.

第6篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵詞:化學(xué)計量學(xué);中藥學(xué);選修課程

中圖分類號:G642.0 文獻標(biāo)志碼:A 文章編號:1674-9324(2012)12-0193-02

中藥學(xué)專業(yè)主要開設(shè)中藥學(xué)、中藥鑒定學(xué)、中藥資源學(xué)、中藥藥理學(xué)、中藥藥劑學(xué)、中藥化學(xué)、中藥制劑分析等必修課程,培養(yǎng)具備中藥學(xué)基礎(chǔ)理論、基本知識、基本技能以及與其相關(guān)的中醫(yī)學(xué)、藥學(xué)等方面的知識和能力,能在中藥生產(chǎn)、檢驗、流通、使用和研究與開發(fā)領(lǐng)域從事中藥鑒定、設(shè)計、制劑及臨床合理用藥等方面工作的高級科學(xué)技術(shù)人才[1]。然而,中藥在現(xiàn)代化研究過程中,具有藥效物質(zhì)不明、作用機理不請、質(zhì)量可控性差等問題,隨著先進儀器和技術(shù)的引入和發(fā)展,給中藥研究帶來了有利的手段,但同時也造就了復(fù)雜的數(shù)據(jù)信息需要處理的問題?;瘜W(xué)計量學(xué)方法非常適合于中藥復(fù)雜體系研究中大量數(shù)據(jù)有效信息的提取,將化學(xué)計量學(xué)引入中藥復(fù)雜體系研究可以發(fā)揮重要作用,也為中藥的進一步研究提供了新的思路、方法和手段。筆者認為,既然現(xiàn)時化學(xué)計量學(xué)方法在中藥研究中已得到了廣泛應(yīng)用,那么中藥學(xué)專業(yè)的人才培養(yǎng)就應(yīng)該切合實際需要,適時地為本科生特別是研究生開設(shè)《化學(xué)計量學(xué)》選修課程。

一、化學(xué)計量學(xué)的學(xué)科內(nèi)涵

國際化學(xué)計量學(xué)學(xué)會(ICS)定義了化學(xué)計量學(xué)(Chemometrics)的學(xué)科內(nèi)涵:“化學(xué)計量學(xué)是一門通過統(tǒng)計學(xué)或數(shù)學(xué)方法將對化學(xué)體系的測量值與體系的狀態(tài)之間建立聯(lián)系的學(xué)科”。它應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)和其他方法及手段(包括計算機技術(shù)),選擇最優(yōu)試驗設(shè)計和測量方法,并通過對測量數(shù)據(jù)的處理和解析,最大限度地獲取有關(guān)物質(zhì)系統(tǒng)的成分、結(jié)構(gòu)與其他相關(guān)信息[2]?;瘜W(xué)計量學(xué)在上世紀(jì)80年代開始有了較大的發(fā)展,各種新的算法層出不窮,基礎(chǔ)及應(yīng)用研究取得了長足進展,迅速成為化學(xué)與分析化學(xué)發(fā)展的重要前沿領(lǐng)域。

二、化學(xué)計量學(xué)在中藥研究中的應(yīng)用

中藥是十分復(fù)雜的化學(xué)量測體系,具有化學(xué)成分眾多、藥效物質(zhì)不明等特點,隨著先進量測儀器與技術(shù)的應(yīng)用,中藥復(fù)雜化學(xué)體系得以逐漸闡明,但隨之而來的是獲得的海量量測數(shù)據(jù)亟需整理挖掘。此時,要從錯綜復(fù)雜的海量數(shù)據(jù)中更加有效地提取出有用信息,必須借助于化學(xué)計量學(xué)的方法與技術(shù),將化學(xué)計量學(xué)引入中藥復(fù)雜體系研究,必然可以發(fā)揮重要作用,也為中藥的進一步研究提供了新的思路、方法和手段。下文簡述了幾種化學(xué)計量學(xué)方法在中藥研究領(lǐng)域中的一些典型應(yīng)用。

1.主成分分析法(PCA)。PCA旨在運用降維思想,把給定的一組相關(guān)變量通過線性變換,轉(zhuǎn)化成另一組彼此正交的低維變量。PCA被廣泛用于光譜、色譜及其聯(lián)用指紋圖譜的模式識別,如徐永群等[3]測量了黃芩的紅外光譜數(shù)據(jù),在此基礎(chǔ)上應(yīng)用PCA法進行聚類分析,將來自15個產(chǎn)地的黃芩樣品分為6個產(chǎn)區(qū),相同產(chǎn)區(qū)內(nèi)樣品的化學(xué)成分相似,以此提出了黃芩藥材質(zhì)量評價的方法。

2.聚類分析法(CA)。CA是對一組尚無明確分類的樣本按相似程度的大小加以歸類,屬于無監(jiān)督學(xué)習(xí)方法,其目標(biāo)是在模式空間中找到客觀存在的類別。張銘光等[4]通過測定廣藿香裂解色譜指紋圖譜,應(yīng)用算術(shù)平均最小法對13張指紋圖譜進行了聚類分析,總結(jié)出樣品間相關(guān)系數(shù)與產(chǎn)地的關(guān)系,此方法不以廣藿香醇、廣藿香酮等有限成分的含量作為主要指標(biāo),可作為中藥廣藿香的質(zhì)量控制方法。

3.判別分析法(DA)。DA則屬于一種有監(jiān)督學(xué)習(xí)方法,它利用一組已知樣本為訓(xùn)練集,經(jīng)訓(xùn)練后得到一個判別模型,從而對未知樣本進行分類。DA法可分為參數(shù)法和非參數(shù)法。張亮等[5]采用RP-HPLC法測定了六味地黃丸缺味藥模擬方的浸出物,借助Bayes判別建模,取得了滿意的識別效果。蘇薇薇等[6]分析了不同產(chǎn)地、不同部位的化橘紅樣品的HPLC量測數(shù)據(jù),借助DA法可快速、準(zhǔn)確地對樣品進行分類。

4.人工神經(jīng)網(wǎng)絡(luò)(ANN)。ANN是一種通過模仿人中樞神經(jīng)系統(tǒng)神經(jīng)元之間相互聯(lián)系的方式來進行計算的信息處理技術(shù)。它借鑒人腦神經(jīng)系統(tǒng)處理信息的過程,以數(shù)學(xué)網(wǎng)絡(luò)拓撲結(jié)構(gòu)為理論基礎(chǔ)。其結(jié)構(gòu)和算法已有多種,包括BP(反向誤差傳播)、ART(自適應(yīng)神經(jīng)網(wǎng)絡(luò))、MDL(自適應(yīng)線性機)、FANN(模糊神經(jīng)網(wǎng)絡(luò))等,其中以BP網(wǎng)絡(luò)在中藥質(zhì)量評價中應(yīng)用得最為廣泛,如喬延江等[7]借助ANN法建立了中藥蟾蜍的質(zhì)量評價方法。

5.支持向量機(SVM)。SVM是建立在統(tǒng)計學(xué)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原理基礎(chǔ)上的一種新型機器學(xué)習(xí)算法,具有小樣本學(xué)習(xí)和泛化能力強的優(yōu)點。其基本原理是把訓(xùn)練集數(shù)據(jù)從輸入空間非線性地映射到一個高維特征空間,然后在此高維空間中求解凸優(yōu)化問題,得到唯一的全局最優(yōu)解。張錄達等[8]測定了中藥大黃樣品的近紅外光譜數(shù)據(jù),結(jié)合SVM法建立了大黃樣品真?zhèn)巫R別模型,對訓(xùn)練集與測試集的檢驗精度分別達到了100%和96.77%。

本文簡要綜述了化學(xué)計量學(xué)方法在中藥研究中的一些典型應(yīng)用,而且隨著化學(xué)計量學(xué)理論和方法的不斷深入發(fā)展,其在中藥研究中的應(yīng)用必將越來越廣泛。因此筆者相信,在中藥學(xué)專業(yè)本科生尤其是研究生的教學(xué)中,開設(shè)《化學(xué)計量學(xué)》選修課程,拓寬學(xué)生的知識面,加強培養(yǎng)他們的數(shù)據(jù)解析能力,具有重要的實踐意義和教學(xué)價值。

參考文獻:

[1]梁生旺.中藥制劑分析(第二版)[M].北京:中國中醫(yī)藥出版社,2007.

[2]梁逸曾,俞汝勤.化學(xué)計量學(xué)[M].北京:高等教育出版社,2003.

[3]徐永群,孫素琴,馮學(xué)峰,等.黃芩產(chǎn)區(qū)紅外指紋圖譜和聚類分析法的快速鑒別研究[J].光譜學(xué)與光譜分析,2003,23(3):505-505.

[4]張銘光,袁敏,袁鵬,等.廣藿香裂解色譜指紋圖譜及其聚類分析[J].中草藥,2003,34(8):749-752.

[5]張亮,劉展鵬.六味地黃丸缺味藥的Bayes法和PRIMA法定性識別研究[J].中國中藥雜志,2000,(1):29-32.

[6]蘇薇薇,林海丹,方鐵錚,等.中藥化橘紅的模式識別——計算機辨識研究J].中藥材,2002,25(8):554-561.

[7]喬延江,吳剛,王璽,等.中藥蟾蜍質(zhì)量的人工神經(jīng)網(wǎng)絡(luò)化學(xué)模式識別研究[J].分析化學(xué),1995,23(6):630-634.

第7篇:數(shù)學(xué)建模聚類分析范文

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

參考文獻:

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻出版社,2003

第8篇:數(shù)學(xué)建模聚類分析范文

DM是數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程(圖1),包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國人工智能協(xié)會(americanassociationforartificialintelli-gence,AAAI)學(xué)術(shù)會議上提出的,是近年來隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)[4],其開發(fā)與研究應(yīng)用是建立在先進的計算機技術(shù)、超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、對巨大量數(shù)據(jù)的快速訪問、對這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計方法計算的能力這4個必要條件基礎(chǔ)上的,以數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計三大技術(shù)為支柱[5]。

2DM的基本模式及在臨床醫(yī)學(xué)中的應(yīng)用

DM的任務(wù)通常有兩大類:預(yù)測任務(wù)和描述任務(wù)。預(yù)測任務(wù)主要是根據(jù)其他屬性的值,預(yù)測特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常),主要有關(guān)聯(lián)分析、聚類分析、異常檢測3種模式[1]。

2.1預(yù)測建模(predictivemodeling)

涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有2種模式:分類和回歸。分類是用于預(yù)測離散的目標(biāo)變量。在臨床醫(yī)學(xué)中,疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi[6]以美國麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對心電圖的5種異常波形和正常波形進行分類?;貧w是用于預(yù)測連續(xù)的目標(biāo)變量?;貧w可廣泛應(yīng)用于醫(yī)學(xué)研究中如醫(yī)療診斷與預(yù)后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對影響乳腺癌患者預(yù)后的因素進行回歸分析。

2.2關(guān)聯(lián)分析(associationanalysis)

用來描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊函規(guī)則或特征子集的形式表示。關(guān)聯(lián)分析主要應(yīng)用于DNA序列間相似搜索與比較、識別同時出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等[5]。有學(xué)者對37000例腎病患者進行了追蹤觀察,監(jiān)測腎小球過濾率、尿蛋白水平和貧血狀況,結(jié)果發(fā)現(xiàn)以上3種生理指標(biāo)中的任何一項異常都伴隨著心臟病發(fā)病率的上升,這種腎病與心臟病“關(guān)聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段[8]。

2.3聚類分析(clusteranalysis)

旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫(yī)學(xué)領(lǐng)域中主要用于DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動分析以及多種生理參數(shù)監(jiān)護數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險因素等方面[5]。羅禮溥和郭憲國[9]利用聚類分析對云南省25縣(市)現(xiàn)有的112種醫(yī)學(xué)革螨的動物地理區(qū)劃進行分析,發(fā)現(xiàn)云南省醫(yī)學(xué)革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。

2.4異常檢測(anomalydetection)

用來識別其特征明顯不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測的目標(biāo)是發(fā)現(xiàn)真正的異常點,避免錯誤地將正常對象標(biāo)注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率,其主要應(yīng)用于檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等[2]。

3DM的方法及研究趨勢

在DM算法的理論基礎(chǔ)上,DM常用方法:(1)生物學(xué)方法包括人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等;(2)信息論方法包括決策樹等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統(tǒng)計學(xué)方法;(5)可視化技術(shù)等方法。DM經(jīng)過十幾年的蓬勃發(fā)展,很多基本算法已較為成熟,在其基礎(chǔ)上進行更加高效的改進和算法提高顯得比較困難,如傳統(tǒng)的頻繁模式和關(guān)聯(lián)規(guī)則挖掘在近幾年的國際著名會議和期刊上已不再作為重要的研究主題[10]。近年來眾多國內(nèi)外知名學(xué)者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領(lǐng)域十大挑戰(zhàn)性問題報告;Agrawa等[12]探討了DM的現(xiàn)狀并展望了未來的發(fā)展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰(zhàn)性問題,并主要探討在生物信息學(xué)(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網(wǎng)絡(luò)挖掘(webmining)等領(lǐng)域所遇到的挑戰(zhàn)。與國外相比,DM在國內(nèi)的研究和應(yīng)用始于20世紀(jì)90年代初,主要是對DM方法的介紹和推廣,20世紀(jì)90年代后期和21世紀(jì)初進入蓬勃發(fā)展階段,當(dāng)前DM已成為大型企業(yè)進行經(jīng)營決策時所必須采用的方法,證券和金融部門已將DM作為今后重點應(yīng)用的技術(shù)之一。有學(xué)者以HIS和LIS數(shù)據(jù)庫信息為數(shù)據(jù)源,人工神經(jīng)網(wǎng)絡(luò)為工具,概率論為依據(jù),對常規(guī)檢驗結(jié)果和質(zhì)譜指紋圖數(shù)據(jù)進行DM并應(yīng)用于臨床實踐[14-16]。

4臨床醫(yī)學(xué)DM的特點

DM作用于醫(yī)學(xué)數(shù)據(jù)庫跟挖掘其他類型的數(shù)據(jù)庫相比較,具有其自己的特點。以電子病歷、醫(yī)學(xué)影像、病歷參數(shù)、化驗結(jié)果等臨床數(shù)據(jù)為基礎(chǔ)建立的醫(yī)學(xué)數(shù)據(jù)庫是一個復(fù)雜類型數(shù)據(jù)庫,這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身的特殊性和復(fù)雜性,使得醫(yī)學(xué)DM與常規(guī)DM之間存在較大差異。醫(yī)學(xué)DM方法包括統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法等。將這些不同的挖掘方法應(yīng)用到疾病的診斷、治療和預(yù)后分析以及醫(yī)療管理等各個領(lǐng)域,從疾病的診治、醫(yī)療質(zhì)量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評價等方面去獲取諸如概念、規(guī)律、模式等相關(guān)知識;用于對疾病進行分類、分級、篩選危險因素、決定治療方案和開藥數(shù)量等[5]。

第9篇:數(shù)學(xué)建模聚類分析范文

關(guān)鍵字:電力系統(tǒng);人工神經(jīng)網(wǎng)絡(luò);信號處理

1 引言

基于電力變壓器故障診斷方法對提高電力系統(tǒng)運行的安全性和可靠性具有重要意義,同時也具有重要的理論價值和廣闊的工程應(yīng)用.基于智能信息處理方法的關(guān)鍵技術(shù)研究在研究分析智能信息處理理論關(guān)鍵技術(shù)的基礎(chǔ)上,提出了以智能信息技術(shù)處理理論為主線的電力變壓器故障智能診斷技術(shù)方案來實現(xiàn)基于云模型白化權(quán)函數(shù)的灰聚類分析和改進的加權(quán)灰靶理論相結(jié)合的電力變壓器狀態(tài)評估模型,通過先驗知識和實驗分析共同優(yōu)化云模型參數(shù)結(jié)構(gòu),提高電力變壓器故障評估的實用性與科學(xué)性.

2 基于云模型綜合應(yīng)用研究

基于云模型是指一種描述非確定性不確定性數(shù)學(xué)方法應(yīng)用在模糊數(shù)學(xué)和統(tǒng)計學(xué)的基礎(chǔ)與模糊性和隨機性相結(jié)合共同構(gòu)成定性描述和定量描述的相互映射關(guān)系,其中,模糊隸屬函數(shù)是模糊理論的基石,是一個重要的概念,但是在工程實踐中如何確定模糊隸屬度函數(shù)卻沒有公認的方法與不確定性問題的隨機性和模糊性來彌補模糊理論的不徹底性缺陷,因此提出了隸屬云平臺、云技術(shù)與云模型等概念和理論體系結(jié)構(gòu).

2.1 基于電力變壓器故障云模型研究

基于電力變壓器故障云模型數(shù)字運算期望值、熵和超熵表示.期望值Ex是所有云滴電力故障所在數(shù)域的重心位置,反映了這個定性概念的量在數(shù)域上的坐標(biāo).熵En是表示定性概念亦此亦彼性的變量,反映了數(shù)域中可被語言值接受的數(shù)據(jù)范圍,同時還反映了在數(shù)域中的云滴電力故障能夠代表這個語言值的概率.超熵He反映每個數(shù)值代表這個語言值確定性的凝聚性和云滴的凝聚程度.

對于電力變壓器控制系統(tǒng)故障存在雙邊約束的指標(biāo),電力變壓器故障云模型的期望值根據(jù)公式⑴計算=⑴

根據(jù)正態(tài)分布的原則, 電力變壓器故障云模型的熵En按公式(2)計算:

超熵He是一個常數(shù),可根據(jù)具體指標(biāo)的不確定性和隨機性進行調(diào)整.

3 基于灰色系統(tǒng)理論應(yīng)用在智能信息電力變壓器故障研究

3.1 灰色系統(tǒng)理論介紹

基于灰色系統(tǒng)理論是指以GM(1,1)模型為基礎(chǔ)的預(yù)測,灰色系統(tǒng)模型是一階微分方程動態(tài)模型.而智能信息電力變壓器故障不確定性因素與不確定性全因素多傳感器數(shù)據(jù)信息融合處理關(guān)鍵技術(shù)方法,應(yīng)用于時間序列預(yù)測數(shù)據(jù).

3.2 基于灰色智能信息電力變壓器故障模型建模算法研究

3.2.1 設(shè)所要智能信息電力變壓器故障預(yù)測系統(tǒng)的某項指標(biāo)的原始數(shù)據(jù)列為

3.2.2對原始數(shù)據(jù)列做一次累加,先生成(1-AGO),再生成(3.2.1)新數(shù)據(jù)列,即

3.2.3 對生成的數(shù)據(jù)列’建立相應(yīng)的微分方程式中.為發(fā)展系數(shù),為內(nèi)生控制系數(shù).

3.2.4解步驟3.2.3)中方程式,可得其相應(yīng)的時間響應(yīng)模型為:

3.2.5 設(shè)方程的參數(shù)的向量:式中B為累加生成矩陣,為向量,二者的構(gòu)造分別為:

,

式中為第年的原始數(shù)據(jù);為第年的一次累加.

3.2.6 令t=1,2,…,n-1,由4)中式可得的值.其中是一次累加量,還需求出還原值,即

3.2.7 求出原始智能信息電力變壓器故障數(shù)據(jù)的還原預(yù)測值與實際數(shù)據(jù)值之間的殘差值和相對誤差q(t),進行殘差檢驗

3.2.8 進行關(guān)聯(lián)度R檢驗;后驗差C檢驗和小誤差概率P檢驗.

3.2.9 如果殘差檢驗、關(guān)聯(lián)度檢驗和后驗差都能通過,則可以用所建立的智能信息電力變壓器故障模型進行預(yù)測.

3.4 基于灰色神經(jīng)網(wǎng)絡(luò)智能信息電力變壓器故障模型研究

⑴ 灰色理論模型.灰色系統(tǒng)建模使用最多的是GM(1,1)模型,它是對經(jīng)過一次累加生成的數(shù)列建立的模型,其灰微分方程為(,為待定參數(shù)).⑶

⑵ 白化GNNM(1,1)灰色神經(jīng)網(wǎng)絡(luò)模型.設(shè)參數(shù)已經(jīng)確定,對式⑶求解可得到其時間響應(yīng)函數(shù):⑷

白化微分方程⑶的參數(shù)的思路是:將方程⑶的時間響應(yīng)函數(shù)⑷映射到一個智能信息電力變壓器故障BP網(wǎng)絡(luò)中,對這個BP網(wǎng)絡(luò)進行訓(xùn)練,從訓(xùn)練后的BP網(wǎng)絡(luò)中提取出相應(yīng)的方程系數(shù),從而得到一個白化的微分方程,進而利用此白化的微分方程,對系統(tǒng)進行深層次的研究,或?qū)Υ宋⒎址匠糖蠼?要將⑷式映射到BP網(wǎng)絡(luò)中,對其做如下變換,對等式兩邊同除以1+exp(-ak),可得

=

= ⑸

經(jīng)過變換后可將⑸映射到BP網(wǎng)絡(luò)中,其結(jié)構(gòu)如圖1所示.

相應(yīng)的BP網(wǎng)絡(luò)權(quán)值可進行如下賦值(令

(6)

的閾值設(shè)為,由⑸得,多層神經(jīng)元激活函數(shù)為Sigmoid型函數(shù): ⑺

該函數(shù)是S型函數(shù),存在一個高增益區(qū),能確保網(wǎng)絡(luò)達到穩(wěn)定態(tài),其它層激活函數(shù)取線性的.經(jīng)過⑹式賦值及BP網(wǎng)絡(luò)激活函數(shù)確定為⑺式后,可對網(wǎng)絡(luò)中各個結(jié)點計算為:

LD層僅1個節(jié)點,其作用只是對進行y1放大,使之與式⑶相符.考慮到灰色BP網(wǎng)絡(luò)與式①的對應(yīng)關(guān)系,因此在設(shè)計灰色BP網(wǎng)絡(luò)學(xué)習(xí)算法時要注意以下幾點:1)學(xué)習(xí)算法采用標(biāo)準(zhǔn)BP算法,由于有一些神經(jīng)元所用的激活函數(shù)為線性的,因此計算誤差時要利用線性函數(shù)的求導(dǎo).2)由,故在BP網(wǎng)絡(luò)訓(xùn)練過程中,權(quán)值始終保持不變.3)直接由輸入與、得到,并且連接只是將誤差前向傳遞到第3層,其本身不修改.精度比較可知,用神經(jīng)網(wǎng)絡(luò)輔助的灰色建模要遠遠優(yōu)于傳統(tǒng)的灰色模型方法.

4 基于人工神經(jīng)免疫系統(tǒng)應(yīng)用研究

在人工免疫系統(tǒng)應(yīng)用是生物必須防御機制與免疫功能的器官、組織、細胞和免疫效應(yīng)分子及其基因組成通過分布在全身的各類淋巴細胞識別和清除侵入生物體的抗原性異物,可以保護機體抵御病原體、有害的異物以及癌細胞等致病因子的侵害.基于生物的免疫系統(tǒng)是一種高級的智能信息處理控制系統(tǒng)數(shù)據(jù)[2].而人工免疫系統(tǒng)是模仿免疫系統(tǒng)的一種智能方法,提供噪聲忍耐、自組織神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)、自組織與記憶神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)系統(tǒng),結(jié)合分類器、神經(jīng)網(wǎng)絡(luò)和機器推理等系統(tǒng)的優(yōu)點,具有分布式并行處理、自學(xué)習(xí)、自適應(yīng)和強魯棒性和集中式分散處理與分析電力變壓器智能診斷故障等優(yōu)點服務(wù).

5 結(jié)束語

基于智能信息與處理電力變壓器故障診斷方法來應(yīng)用電力變壓器故障云模型處理、灰色系統(tǒng)理論模型、人工免疫系統(tǒng)等內(nèi)容的理念和方法.以提高智能信息電力變壓器故障診斷方法與灰色神經(jīng)網(wǎng)絡(luò)模型預(yù)測的應(yīng)用體系結(jié)構(gòu),實踐證明,基于智能信息處理關(guān)鍵技術(shù)在電力變壓器故障診斷方法能夠有效的排除故障.

參考文獻: