公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)分析的方法范文

數(shù)據(jù)分析的方法精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)分析的方法主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)分析的方法

第1篇:數(shù)據(jù)分析的方法范文

環(huán)境監(jiān)測數(shù)據(jù)可以反映出某一區(qū)域內(nèi)的環(huán)境質(zhì)量狀況、污染物的排放情況以及環(huán)境受污染的程度。各項(xiàng)數(shù)據(jù)的不斷匯總并分析為各級環(huán)保主管部門以及相關(guān)機(jī)構(gòu)做決策提供了技術(shù)依據(jù)。因此,采用健全的質(zhì)量保證體系以及方法來保證數(shù)據(jù)的分析質(zhì)量很有必要。首先,我們先來了解監(jiān)測數(shù)據(jù)分析方法。

(一)統(tǒng)計(jì)規(guī)律分析

就是采用數(shù)理統(tǒng)計(jì)方法、模糊數(shù)學(xué)方法以及適用于小同環(huán)境要素的數(shù)學(xué)和物理方程等方法,對所得的監(jiān)測數(shù)據(jù)進(jìn)行深度剖析,做出詳細(xì)的分析評價(jià)。這種數(shù)據(jù)分析方法主要適用于環(huán)境調(diào)查、環(huán)境規(guī)劃和環(huán)評等工作。

(二)合理性分析

實(shí)際的環(huán)境監(jiān)測中,影響環(huán)境要素變化的因素錯(cuò)綜復(fù)雜,而有效的能用于綜合分析的監(jiān)測數(shù)據(jù)十分有限,所以我們需要考慮到各種環(huán)境要素之間的相互影響,以及監(jiān)測項(xiàng)目之間的關(guān)系,理論結(jié)合實(shí)際全面分析數(shù)據(jù)的合理性,這樣才可能得到準(zhǔn)確可靠的、合理的監(jiān)測數(shù)據(jù)分析結(jié)果。

二、提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的方法

為了促進(jìn)環(huán)境執(zhí)法工作的嚴(yán)肅和公正,在科學(xué)化環(huán)境管理政策中,提高環(huán)境數(shù)據(jù)分析質(zhì)量很有必要。在前人的研究工作基礎(chǔ)之上,我們提出了以下幾種方法來提高數(shù)據(jù)分析質(zhì)量。

(一)加強(qiáng)審核

加強(qiáng)各項(xiàng)審核是提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的重要方法,它主要是指加強(qiáng)對現(xiàn)有數(shù)據(jù)的綜合審核。在進(jìn)行例行監(jiān)測或是年度監(jiān)測計(jì)劃時(shí),我們的工作一般都是連續(xù)性的展開的,一年或是好幾年,因此,我們可以建立一個(gè)動(dòng)態(tài)的分析數(shù)據(jù)庫,錄入每次的監(jiān)測數(shù)據(jù),包括每個(gè)污染源的詳細(xì)信息(污染點(diǎn)的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數(shù)據(jù)審核中對于同一采樣點(diǎn)、同一分析項(xiàng)目進(jìn)行新舊數(shù)據(jù)的分析對比。當(dāng)數(shù)據(jù)分析結(jié)果出現(xiàn)異常時(shí),可以及時(shí)的發(fā)現(xiàn)并找到原因,這可以對污染應(yīng)急事故的發(fā)生起到提前警示的作用。另外,在數(shù)據(jù)審核中,也要密切注意到同一水樣、不同的分析項(xiàng)目之間的相關(guān)性,比如:同一水體中氟化物和總硬度、色度和pH的關(guān)系、氨氮和總氮之間的相關(guān)性等,這樣也能及時(shí)發(fā)現(xiàn)數(shù)據(jù)分析中出現(xiàn)的誤差。

(二)加強(qiáng)監(jiān)督機(jī)制

通過調(diào)研我們發(fā)現(xiàn),目前在傳統(tǒng)的監(jiān)測數(shù)據(jù)質(zhì)量控制系統(tǒng)中依舊存在許多不足,我們可以通過引入反饋和交流機(jī)制,加強(qiáng)監(jiān)督機(jī)制來有效提高數(shù)據(jù)分析的質(zhì)量。首先,通過強(qiáng)化平面控制,在系統(tǒng)內(nèi)部全面優(yōu)化管理的模式,提高工作人員的分析技術(shù)水平,盡可能的減少或消除數(shù)據(jù)誤差,以此來提高監(jiān)測分析的準(zhǔn)確性;其次,我們應(yīng)該主動(dòng)接受來自外界的監(jiān)督,對于外界有異議的監(jiān)測數(shù)據(jù)要進(jìn)行反復(fù)的檢測;再次,我們也應(yīng)該多舉辦技術(shù)交流會,讓技術(shù)人員可以與各級環(huán)境監(jiān)測部門的人員溝通,學(xué)習(xí)他們的先進(jìn)技術(shù)和方法,同時(shí)進(jìn)行數(shù)據(jù)分析結(jié)果對比,找到自身的不足,發(fā)現(xiàn)問題并能及時(shí)更正。

(三)加強(qiáng)采樣及實(shí)驗(yàn)室測量質(zhì)量的控制

1.采樣控制

工作人員在每次采樣前,都應(yīng)該根據(jù)實(shí)際環(huán)境情況來制定采樣技術(shù)細(xì)則,做好采樣控制,比如:需要校準(zhǔn)儀器并確保儀器可以正常運(yùn)轉(zhuǎn);使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時(shí)進(jìn)行檢測,考慮到樣品的穩(wěn)定性,最好將樣品密封并存放在于冰箱中。

2.實(shí)驗(yàn)室測量控制

在實(shí)驗(yàn)室進(jìn)行樣品測試之前,首先應(yīng)該對所要用到的玻璃量器及分析測試儀器進(jìn)行校驗(yàn)。日常工作中,也應(yīng)該根據(jù)各種儀器保養(yǎng)規(guī)定,對儀器定期進(jìn)行維護(hù)和校驗(yàn),確保儀器可以正常運(yùn)轉(zhuǎn)工作。其次,需要準(zhǔn)確調(diào)配各種溶液,特別是標(biāo)準(zhǔn)溶液,配置時(shí)要使用合格的實(shí)驗(yàn)用蒸餾水。測試數(shù)據(jù)時(shí),先要測定標(biāo)準(zhǔn)樣品并繪制標(biāo)準(zhǔn)曲線。測定樣品時(shí)要檢查相關(guān)系數(shù)和計(jì)算回歸方程,并對實(shí)驗(yàn)系統(tǒng)誤差進(jìn)行測驗(yàn),每一步都不能少。

三、結(jié)束語

第2篇:數(shù)據(jù)分析的方法范文

人們通常把分析學(xué)等同于儀表盤報(bào)告,但這太死板了,只能粗略地反映你的游戲表現(xiàn)。

這就是為什么行業(yè)越來越傾向于使用特定的玩家反饋和可執(zhí)行的分析結(jié)果來指導(dǎo)游戲設(shè)計(jì)調(diào)整。

了解真實(shí)的玩家觀點(diǎn)并不容易。對發(fā)行商和開發(fā)者而言,玩家、平臺和設(shè)備類型多樣化導(dǎo)致分析學(xué)的數(shù)據(jù)追蹤成了一大挑戰(zhàn)。

那就是為什么我們最近發(fā)表了《Analytics Driven Game Design》白皮書,旨在使這個(gè)過程更加簡單和有效。

以下是一些重要的設(shè)計(jì)和執(zhí)行建議:

1、提前收集數(shù)據(jù)

人們往往不會把執(zhí)行分析學(xué)的數(shù)據(jù)標(biāo)注當(dāng)作優(yōu)先任務(wù)。

這是錯(cuò)誤的,因?yàn)閿?shù)據(jù)收集一般要貫穿整個(gè)開發(fā)過程,需要的時(shí)間是執(zhí)行的三到五倍。

2、盡早收集事件數(shù)據(jù)

當(dāng)事件及其參數(shù)定義好時(shí),開發(fā)者就可以確定什么時(shí)候需要什么數(shù)據(jù)了。

一開始就把這樣的數(shù)據(jù)結(jié)構(gòu)結(jié)合到代碼中,可以保證當(dāng)代碼需要這些數(shù)據(jù)時(shí)就能有現(xiàn)成的數(shù)據(jù)。

如果把事件收集放在開發(fā)過程的末尾,通常只能收集到60%有價(jià)值的數(shù)據(jù),這說明沒有充分利用分析學(xué)。

3、統(tǒng)一視角

復(fù)雜的游戲通常涉及多個(gè)系統(tǒng)。例如,登錄系統(tǒng)可能不同于支付系統(tǒng),這意味著數(shù)據(jù)來源通常有兩個(gè):服務(wù)器和游戲客戶端。

因此,有必統(tǒng)一視角,即使戶ID與登錄活動(dòng)保持一致。

這樣,分析時(shí)就可以忽略數(shù)據(jù)來源,把所有信息放在一起。

4、同步時(shí)間標(biāo)記

類似地,因?yàn)槭录?shù)據(jù)來自多個(gè)來源、時(shí)區(qū)和應(yīng)用商店,有必要使用同步時(shí)間標(biāo)記,以確保觀察玩家行為的視角能夠保持一致。

發(fā)送客戶端數(shù)據(jù)時(shí)通常使用本地時(shí)間標(biāo)記,而服務(wù)器數(shù)據(jù)記錄的通常是保存數(shù)據(jù)的時(shí)間。

如果兩個(gè)時(shí)間標(biāo)記不一樣,就會很難知道真正的事件順序,從而不利于建立玩家行為檔案。

5、創(chuàng)建單一登錄ID

將這個(gè)獨(dú)特的ID與一次登錄中發(fā)生的所有事件聯(lián)系在一起,對高效分析特別重要。

如果事件發(fā)生后才關(guān)聯(lián)數(shù)據(jù),必然會導(dǎo)致誤差和錯(cuò)誤。

考慮到大量初次玩家留存分析學(xué)專注于第一次游戲,統(tǒng)一而準(zhǔn)確地定義你的登錄活動(dòng)是很重要的。

6、總是記錄結(jié)果

事件的目標(biāo)應(yīng)該是記錄結(jié)果而不是變化。

換句話說,記錄任務(wù)的結(jié)果比記錄任務(wù)中的各種變化更好。例如,記錄當(dāng)玩家完成任務(wù)時(shí)獲得了什么,即得到多少經(jīng)驗(yàn)點(diǎn)或殺敵數(shù),比記錄每一次射擊更實(shí)用。

7、數(shù)據(jù)完整性vs.數(shù)據(jù)優(yōu)先級

第3篇:數(shù)據(jù)分析的方法范文

關(guān)鍵詞: 關(guān)鍵詞模板庫; 景區(qū)輿情; 滿意度; 評價(jià)數(shù)據(jù)

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2017)03-62-03

Abstract: This paper puts forward a method of analyzing public opinion and satisfaction on the evaluation data of scenic spots based on tourist demand template. By means of keywords template library building and expansion based on the template of tourism demand, the paper analyses and builds the model of the public opinion and satisfaction on the evaluation data. It solves the problem that unstructured content such as tourists' travels and evaluation cannot be efficiently searched and utilized by other tourists. It can not only provide tourists with scenic spots' comprehensive satisfaction value, but also satisfaction values in the specific area of cuisine, housing, transportation, travelling, shopping, and entertainment, and even more specific related content of the satisfaction value in those six aspects. Thus it helps visitors quickly understand the evaluation of the various parameters of the area.

Key words: template library; public opinion of scenic spots; satisfaction; evaluation data

0 引言

隨著經(jīng)濟(jì)的發(fā)展,現(xiàn)在已經(jīng)進(jìn)入旅游智能化階段和大數(shù)據(jù)的時(shí)代,游客通常通過查看媒體互動(dòng)分享評價(jià)來決定自己旅游計(jì)劃。然而,傳統(tǒng)游客在游記中對景區(qū)景點(diǎn)的評價(jià)內(nèi)容是非結(jié)構(gòu)化、離散的,即難以采用一定的算法對其進(jìn)行有規(guī)律地提取和組織,從而導(dǎo)致不能采用計(jì)算機(jī)智能對其提取分類。然而游客對“吃、住、行、游、購、娛”的評價(jià)獲取需求頗為急切,因此需要采用一種新的技術(shù)來實(shí)現(xiàn)游客評價(jià)的自動(dòng)化提取并對大量的數(shù)據(jù)進(jìn)行高效的有價(jià)值的分析[1-3]。

1 本文提出的方法步驟及特征

本文提出一種基于旅游需求模板的景區(qū)評價(jià)數(shù)據(jù)分析輿情滿意度方法,主要有基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建(見圖1)、關(guān)鍵詞模板庫的擴(kuò)充(見圖2)和針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算三個(gè)步驟。該方法的特征在于:所述的旅游需求模板主要由內(nèi)容大類關(guān)鍵詞、內(nèi)容子類關(guān)鍵詞和情感關(guān)鍵詞構(gòu)成,每個(gè)內(nèi)容大類關(guān)鍵詞下分屬有其對應(yīng)的內(nèi)容子類關(guān)鍵詞,每個(gè)內(nèi)容子類關(guān)鍵詞下分屬有其對應(yīng)的情感關(guān)鍵詞[4-5]。

1.1 基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建

主要由基于旅游需求模板引導(dǎo)評價(jià)的內(nèi)容大類關(guān)鍵詞、內(nèi)容子類關(guān)鍵詞和情感關(guān)鍵詞構(gòu)成,每個(gè)內(nèi)容大類關(guān)鍵詞下分屬有其對應(yīng)的內(nèi)容子類關(guān)鍵詞,每個(gè)內(nèi)容子類關(guān)鍵詞下分屬有其對應(yīng)的情感關(guān)鍵詞。

關(guān)鍵詞模板庫初始由列舉而成,所述的內(nèi)容大類關(guān)鍵詞包括吃、住、行、游、購、娛的六個(gè)類別;所述的內(nèi)容子類關(guān)鍵詞是在內(nèi)容大類關(guān)鍵詞的基礎(chǔ)上構(gòu)建的;所述情感關(guān)鍵詞是對內(nèi)容子類關(guān)鍵詞的描述性詞語。

1.2 關(guān)鍵詞模板庫的擴(kuò)充

關(guān)鍵詞模板庫的擴(kuò)充具體是采用以下方式對內(nèi)容子類關(guān)鍵詞和情感關(guān)鍵詞進(jìn)行擴(kuò)充:

⑴ 在已構(gòu)建的關(guān)鍵詞模板庫基礎(chǔ)上,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容大類關(guān)鍵詞所在段落文字附近搜索內(nèi)容子類關(guān)鍵詞,將找到的在已構(gòu)建關(guān)鍵詞模板庫中不存在的內(nèi)容子類關(guān)鍵詞作為新的內(nèi)容子類關(guān)鍵詞,并加入到關(guān)鍵詞模板庫中;

⑵ 在已構(gòu)建的關(guān)鍵詞模板庫基礎(chǔ)上,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容子類關(guān)鍵詞所在段落文字附近搜索情感關(guān)鍵詞,將找到的在已構(gòu)建關(guān)鍵詞模板庫中不存在的情感關(guān)鍵詞作為新的情感關(guān)鍵詞,對新的情感關(guān)鍵詞賦權(quán)值后加入到關(guān)鍵詞模板庫中。

1.3 針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算

所述針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算具體是:由擴(kuò)充后的關(guān)鍵詞模板庫通過網(wǎng)絡(luò)爬蟲工具搜索景區(qū)下的文字?jǐn)?shù)據(jù),抽取出內(nèi)容大類關(guān)鍵詞所在段落文字附近的內(nèi)容子類關(guān)鍵詞,再搜索抽取出每個(gè)內(nèi)容子類關(guān)鍵詞所在段落文字附近的情感關(guān)鍵詞,從而獲得所有情感關(guān)鍵詞及其每個(gè)情感關(guān)鍵詞對應(yīng)的內(nèi)容子類關(guān)鍵詞和內(nèi)容大類關(guān)鍵詞,然后構(gòu)建景區(qū)輿情與滿意度的分析模型,通過景區(qū)輿情與滿意度的分析模型獲得以平均滿意度值作為該景區(qū)的輿情滿意度值。

2 景區(qū)輿情與滿意度的分析模型

⑴ 先采用以下公式計(jì)算獲得文字?jǐn)?shù)據(jù)中所有評論中的關(guān)于某一個(gè)內(nèi)容子類關(guān)鍵詞的滿意度值:

其中,表示第i個(gè)內(nèi)容大類關(guān)鍵詞下第j個(gè)內(nèi)容子類關(guān)鍵詞的平均滿意度值,t是分值(1~5),表示i個(gè)內(nèi)容大類關(guān)鍵詞下第j個(gè)內(nèi)容子類關(guān)鍵詞對應(yīng)分值為t的情感關(guān)鍵詞的數(shù)量,Bij表示第i個(gè)內(nèi)容大類關(guān)鍵詞下第j個(gè)內(nèi)容子類關(guān)鍵詞,B{B11,B12,B13…B21,B22,B23…}代表內(nèi)容子類關(guān)鍵詞集合。

⑵ 再采用以下公式計(jì)算獲得文字?jǐn)?shù)據(jù)中一個(gè)內(nèi)容大類關(guān)鍵詞的滿意度值:

其中,表示第i個(gè)內(nèi)容大類關(guān)鍵詞的滿意度值,表示第i個(gè)內(nèi)容大類關(guān)鍵詞下第j個(gè)內(nèi)容子類關(guān)鍵詞的權(quán)值,n表示第i個(gè)內(nèi)容大類關(guān)鍵詞下內(nèi)容子類關(guān)鍵詞的數(shù)量,A{A1,A2,…,A6}代表內(nèi)容大類關(guān)鍵詞集合。

⑶ 再采用以下公式計(jì)算獲得該景區(qū)的綜合滿意度值:

其中,Y表示景區(qū)的綜合滿意度值,i表示內(nèi)容大類關(guān)鍵詞的序號,i取值范圍是1~6,表示第i個(gè)內(nèi)容大類關(guān)鍵詞下的的權(quán)值。

3 具體實(shí)施方式

3.1 基于旅游需求模板的關(guān)鍵詞模板庫構(gòu)建

⑴ 內(nèi)容大類關(guān)鍵詞構(gòu)建,主要包括吃、住、行、游、購、娛幾個(gè)大類。

⑵ 內(nèi)容子類關(guān)鍵詞構(gòu)建,主要是在內(nèi)容大類關(guān)鍵詞的基礎(chǔ)上構(gòu)建,比如和內(nèi)容大類關(guān)鍵詞吃相關(guān)的內(nèi)容子類關(guān)鍵詞有飯店、餐館、快餐店、小吃街等。

⑶ 情感關(guān)鍵詞構(gòu)建,主要是在內(nèi)容子類關(guān)鍵詞基礎(chǔ)上構(gòu)建,比如和內(nèi)容子類關(guān)鍵詞‘吃’對應(yīng)的情感關(guān)鍵詞有味道很好,價(jià)格實(shí)惠,環(huán)境優(yōu)美等。

3.2 關(guān)鍵詞模板庫的擴(kuò)充

⑴ 基于需求模板引導(dǎo)評價(jià)的內(nèi)容子類關(guān)鍵詞庫擴(kuò)充,通過網(wǎng)絡(luò)爬蟲工具在內(nèi)容大類關(guān)鍵詞附近搜索相關(guān)的內(nèi)容子類關(guān)鍵詞并與已有的模板庫進(jìn)行對比,遇到新的內(nèi)容子類關(guān)鍵詞后,自動(dòng)加入到模板庫,比如遇到與內(nèi)容大類關(guān)鍵詞吃相關(guān)的新的內(nèi)容子類關(guān)鍵詞野味店等。

⑵ 基于需求模板引導(dǎo)評價(jià)的情感關(guān)鍵詞庫擴(kuò)充,通過網(wǎng)絡(luò)爬蟲工具八爪魚采集器,在內(nèi)容子類關(guān)鍵詞附近搜索相關(guān)的情感關(guān)鍵詞并與已有的模板庫進(jìn)行對比,遇到新的情感關(guān)鍵詞后,自動(dòng)加入到模板庫。

⑶ 情感關(guān)鍵詞均已由用戶進(jìn)行賦分,給出分值(1~5),比如非常好/棒極了/美妙極了,這三個(gè)情感詞表達(dá)的滿意度是相同的,對應(yīng)的分值都是5分,一般/湊合/還行對應(yīng)的分值則都是3分;差極了/難受死了/簡直就是受罪/再也不會去了,對應(yīng)的分值則是1分。

3.3 針對景區(qū)評價(jià)數(shù)據(jù)的輿情滿意度分析計(jì)算

⑴ 根據(jù)已有模版庫構(gòu)建評價(jià)體系表。內(nèi)容大類關(guān)鍵詞和內(nèi)容子類關(guān)鍵詞的權(quán)重和情感關(guān)鍵詞的分值以及相同分值評論數(shù)量如表1所示,表中{}表示第i個(gè)內(nèi)容大類關(guān)鍵詞下第j個(gè)內(nèi)容子類關(guān)鍵詞對應(yīng)分值為t的情感關(guān)鍵詞的集合。

⑵ 通過網(wǎng)絡(luò)爬蟲工具搜索景區(qū)網(wǎng)頁的每個(gè)帖子,按內(nèi)容子類關(guān)鍵詞,搜索所有相關(guān)的情感關(guān)鍵詞,根據(jù)表1進(jìn)行分類統(tǒng)計(jì),把相應(yīng)的情感關(guān)鍵詞的數(shù)量記錄到對應(yīng)到中。

比如:通過網(wǎng)絡(luò)爬蟲工具搜到網(wǎng)頁得到1000個(gè)情感關(guān)鍵詞,有600個(gè)是與內(nèi)容大類關(guān)鍵詞‘吃A1’有關(guān)的,其中300個(gè)是與內(nèi)容子類關(guān)鍵詞‘味道B11’有關(guān)的,對應(yīng)的情感關(guān)鍵詞集{}及數(shù)量如表2所示。

由內(nèi)容子類關(guān)鍵詞滿意度計(jì)算公式可知該景區(qū)關(guān)于吃的味道的滿意度值為:

即:該景區(qū)關(guān)于吃的味道的滿意度值為3.6,同理可以計(jì)算其他內(nèi)容子類的關(guān)鍵詞的滿意度值。

4 結(jié)束語

通過這種方法得到滿意度值,解決了以往游客的游記、評價(jià)等非結(jié)構(gòu)化內(nèi)容難以被其他游客高效搜索利用的問題,除了可以向游客提供某個(gè)景區(qū)的綜合滿意度值外,還可以向游客提供該景區(qū)具體的關(guān)于吃、住、行、游、購、娛六個(gè)方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關(guān)內(nèi)容子類關(guān)鍵詞的滿意度值,讓游客快速了解該景區(qū)的各個(gè)評價(jià)參數(shù)。

參考文獻(xiàn)(References):

[1] 維克托.邁爾舍恩伯格著,盛楊燕,周濤譯.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].浙江人民出版社,2013.

[2] 馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013.2:10-11

[3] 黃先開,張麗峰,丁于思.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測研究-以北京故宮為例[J].旅游學(xué)刊,2013.11:93-100

第4篇:數(shù)據(jù)分析的方法范文

關(guān)鍵詞:大數(shù)據(jù)分析方法;企業(yè)檔案管理;檔案數(shù)據(jù)資源;企業(yè)創(chuàng)新決策

Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.

Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making

2015年9月5日,我國政府了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,旨在促進(jìn)大數(shù)據(jù)和云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的融合,探索大數(shù)據(jù)和傳統(tǒng)產(chǎn)業(yè)發(fā)展新模式,推動(dòng)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級和新興產(chǎn)業(yè)發(fā)展。正如大數(shù)據(jù)專家舍恩伯格所說:大數(shù)據(jù)正在改變?nèi)藗兊纳詈腿藗兝斫馐澜绲姆绞?,更多的變化正蓄勢待發(fā),大數(shù)據(jù)管理分析思維和方法也開始影響到我們企業(yè)檔案管理的發(fā)展趨勢。

1 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的背景

1.1 大數(shù)據(jù)研究逐漸縱深化。自從2008年science雜志推出Big Data專刊以來,國內(nèi)外對大數(shù)據(jù)的研究如火如荼。經(jīng)過一段時(shí)間的探索,“目前大數(shù)據(jù)領(lǐng)域的研究大致可以分為4個(gè)方向:大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)工程。而人們對于大數(shù)據(jù)技術(shù)和應(yīng)用兩個(gè)方面的關(guān)注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動(dòng) “大數(shù)據(jù)研究和發(fā)展計(jì)劃”的目標(biāo)所顯示的那樣,目前大數(shù)據(jù)的研究逐漸向縱深化方向發(fā)展,著重從大型復(fù)雜的數(shù)據(jù)中提取知識和觀點(diǎn),幫助企業(yè)實(shí)現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢”的轉(zhuǎn)化。

1.2 企業(yè)創(chuàng)新決策越來越依賴于數(shù)據(jù)分析。對于企業(yè)技術(shù)創(chuàng)新者而言,目前更多的企業(yè)高層越來越依靠基于數(shù)據(jù)分析的企業(yè)技術(shù)創(chuàng)新決策。靠傳統(tǒng)的經(jīng)驗(yàn)方法去決策往往是滯后的,因此,大數(shù)據(jù)分析方法作為先進(jìn)的定量分析方法,目前出現(xiàn)的一些先進(jìn)數(shù)據(jù)分析方法與技術(shù)勢必會對企業(yè)的運(yùn)行管理、生產(chǎn)業(yè)務(wù)流程、管理決策產(chǎn)生飛躍式的影響。大數(shù)據(jù)分析方法也成為企業(yè)檔案數(shù)據(jù)分析、技術(shù)創(chuàng)新決策的有效工具。

1.3 企業(yè)檔案為企業(yè)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)。對于一個(gè)企業(yè)而言,使用的數(shù)據(jù)資源必須具有真實(shí)性可靠性?!捌髽I(yè)檔案是在企業(yè)的各項(xiàng)活動(dòng)中直接形成并保存?zhèn)洳榈母鞣N文獻(xiàn)載體形式的歷史記錄”[2],企業(yè)檔案是企業(yè)在生產(chǎn)、經(jīng)營、管理等活動(dòng)中形成的全部有用數(shù)據(jù)的總和。除了發(fā)揮著憑證參考維護(hù)歷史真實(shí)面貌的作用之外,企業(yè)檔案更“是企業(yè)知識資產(chǎn)和信息資源的重要組成部分”[3],具有知識創(chuàng)新性、不可替代性,為企業(yè)技術(shù)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)?!疤貏e是在當(dāng)前大數(shù)據(jù)背景下,企業(yè)檔案數(shù)據(jù)資源的開發(fā)與建設(shè)對企業(yè)經(jīng)營決策的制定與適應(yīng)市場競爭環(huán)境起到關(guān)鍵性作用?!盵4]

在上述背景下,將大數(shù)據(jù)分析方法應(yīng)用在企業(yè)檔案管理中具有重要性意義:不僅拓展企業(yè)的管理決策理論,同時(shí)幫助企業(yè)運(yùn)用所擁有的檔案數(shù)據(jù)資源洞察市場環(huán)境,發(fā)現(xiàn)新的競爭對手,進(jìn)行自我總結(jié),做出科學(xué)決策,使企業(yè)緊緊抓住大數(shù)據(jù)時(shí)代帶來的市場機(jī)遇。

2 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的方式

大數(shù)據(jù)分析方法在企業(yè)檔案管理中的實(shí)現(xiàn)方式即是將大數(shù)據(jù)分析方法運(yùn)用在企業(yè)檔案信息分析挖掘上。它貫穿企業(yè)數(shù)據(jù)處理的整個(gè)過程,遵循數(shù)據(jù)生命周期,廣泛收集數(shù)據(jù)進(jìn)行存儲,并對數(shù)據(jù)進(jìn)行格式化預(yù)處理,采用數(shù)據(jù)分析模型,依托強(qiáng)大的運(yùn)行分析算法支撐數(shù)據(jù)平臺,發(fā)掘潛在價(jià)值和規(guī)律并進(jìn)行呈現(xiàn)的過程。常見的大數(shù)據(jù)分析方法“其相關(guān)內(nèi)容包括可視化分析、數(shù)據(jù)挖掘、預(yù)測分析、語義分析及數(shù)據(jù)質(zhì)量管理”[5]。

2.1 數(shù)據(jù)質(zhì)量管理提升企業(yè)檔案數(shù)據(jù)資源品質(zhì)。大數(shù)據(jù)時(shí)代企業(yè)檔案數(shù)據(jù)資源呈現(xiàn)出4V特點(diǎn),這使得企業(yè)檔案數(shù)據(jù)很容易出現(xiàn)不一致、不精確、不完整、過時(shí)等數(shù)據(jù)質(zhì)量問題?;跀?shù)據(jù)生命周期對企業(yè)檔案數(shù)據(jù)資源進(jìn)行數(shù)據(jù)質(zhì)量管理分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)使用三個(gè)階段。在數(shù)據(jù)預(yù)處理階段,通過ETL工具即數(shù)據(jù)經(jīng)過萃取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端這幾個(gè)預(yù)處理過程達(dá)到數(shù)據(jù)清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數(shù)據(jù)存儲與使用階段,針對目前企業(yè)檔案大數(shù)據(jù)呈現(xiàn)出4V的特點(diǎn),傳統(tǒng)關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)存儲與數(shù)據(jù)管理方面已經(jīng)難以勝任,非關(guān)系型數(shù)據(jù)庫以其高吞吐量、可拓展性、高并發(fā)讀寫、實(shí)時(shí)性等特性能夠滿足數(shù)據(jù)存儲與管理的要求。目前應(yīng)用最廣的是并行處理系統(tǒng)MapReduce和非關(guān)系型數(shù)據(jù)庫比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計(jì)算平臺系統(tǒng),將會大大有助于完成數(shù)據(jù)清洗、重復(fù)對象檢測、缺失數(shù)據(jù)處理、異常數(shù)據(jù)檢測、邏輯錯(cuò)誤檢測、不一致數(shù)據(jù)處理等數(shù)據(jù)質(zhì)量處理過程,從而保證企業(yè)檔案數(shù)據(jù)資源的數(shù)據(jù)質(zhì)量。

2.2 可視化分析提升企業(yè)檔案數(shù)據(jù)資源可理解性。

“大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)分析挖掘方法的同時(shí),利用支持信息可視化的用戶界面以及支持分析過程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力。”[6]那么企業(yè)檔案數(shù)據(jù)資源的可視化分析可以理解為借助可視化工具把企業(yè)檔案數(shù)據(jù)資源轉(zhuǎn)化成直觀、可視、交互形式(如表格、動(dòng)畫、聲音、文本、視頻、圖形等)的過程,便于企業(yè)經(jīng)營者的理解利用。

以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”)為例,該項(xiàng)目讓我們近距離了解到大數(shù)據(jù)可視化。它利用百度后臺每天數(shù)十億次的LBS定位獲得的數(shù)據(jù)進(jìn)行計(jì)算分析,全程展現(xiàn)中國人口遷徙軌跡,為政府部門科學(xué)決策提供科學(xué)依據(jù)。受該項(xiàng)目啟發(fā),企業(yè)可將擁有不同類型的檔案信息進(jìn)行可視化,比如進(jìn)行企業(yè)檔案的網(wǎng)絡(luò)數(shù)據(jù)可視化、時(shí)空數(shù)據(jù)可視化、時(shí)間序列數(shù)據(jù)可視化、多維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化等[7]。以文本數(shù)據(jù)可視化為例,目前典型的文本可視化技術(shù)標(biāo)簽云,可以將檔案文本中蘊(yùn)含的主題聚類、邏輯結(jié)構(gòu)、詞頻與重要度、動(dòng)態(tài)演化規(guī)律直觀展示出來,為企業(yè)決策提供依據(jù)。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時(shí)間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數(shù)據(jù)地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術(shù)都為企業(yè)檔案數(shù)據(jù)資源可視化提供了科學(xué)工具。

2.3 語義引擎實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的智能提取。大數(shù)據(jù)時(shí)代全球數(shù)據(jù)存儲量呈激增趨勢,傳統(tǒng)的基于人工分類目錄或關(guān)鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進(jìn)行簡單的關(guān)鍵詞匹配,用戶無法得到非常準(zhǔn)確的信息,檢索準(zhǔn)確率并不高,而且檢索結(jié)果相關(guān)度較低,檢索結(jié)果缺乏引導(dǎo)性。為提供給用戶高質(zhì)量的檢索結(jié)果,改善用戶搜索體驗(yàn),提高效率,實(shí)現(xiàn)智能提取,語義搜索引擎應(yīng)運(yùn)而生?!罢Z義引擎是隨著語義網(wǎng)的發(fā)展,采用語義網(wǎng)的語義推理技術(shù)實(shí)現(xiàn)語義搜索的語義搜索引擎?!盵8]它具備從語義理解的角度分析檢索者的檢索請求,能夠理解檢索者的真正意圖,實(shí)現(xiàn)信息智能提取。對語義分析可以采取自然語言處理方法進(jìn)行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語。目前存在基于本體的語義處理技術(shù),它以本體庫作為語義搜索引擎理解和運(yùn)用語義的基礎(chǔ)。對于企業(yè)而言,將語義引擎分析方法與協(xié)同過濾關(guān)聯(lián)規(guī)則相結(jié)合,可以挖掘用戶的需求,提供個(gè)性化的服務(wù)。比如亞馬遜公司通過對用戶檢索的語義進(jìn)行分析推理,結(jié)合協(xié)同過濾關(guān)聯(lián)規(guī)則,為用戶提供相近需求的產(chǎn)品,提升自己的經(jīng)濟(jì)效益。對于一份人事檔案而言,語義引擎也能分析出該份人事檔案中的某人的職務(wù)、級別,從中提取出姓名一職務(wù)一級別一時(shí)間等關(guān)鍵信息,提高檢索準(zhǔn)確率和效率,實(shí)現(xiàn)智能提取。

2.4 數(shù)據(jù)挖掘發(fā)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的隱性價(jià)值?!皵?shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)”[9]。簡而言之,數(shù)據(jù)挖掘就是企業(yè)從數(shù)據(jù)集中發(fā)現(xiàn)知識模式,根據(jù)功能一般分為預(yù)測性模式和描述性模式,細(xì)分主要有分類與回歸模型、聚類分析模型、關(guān)聯(lián)規(guī)則模型、時(shí)間序列模型、偏差檢測模型等。主要挖掘方法有神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法數(shù)據(jù)庫方法和統(tǒng)計(jì)方法等。

數(shù)據(jù)挖掘是大數(shù)據(jù)分析方法的核心。對于企業(yè)而言,數(shù)據(jù)挖掘的檔案數(shù)據(jù)資源應(yīng)該由兩部分組成:一是企業(yè)正常運(yùn)行管理過程中所形成的檔案數(shù)據(jù)資源,通過運(yùn)用分類、聚類、關(guān)聯(lián)規(guī)則等方法對企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)潛在模式,為企業(yè)技術(shù)創(chuàng)新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費(fèi)數(shù)據(jù)時(shí),發(fā)現(xiàn)每次季節(jié)性颶風(fēng)來臨之前,手電筒和蛋撻的數(shù)量全部增加。根據(jù)這一關(guān)聯(lián)發(fā)現(xiàn),沃爾瑪公司會在颶風(fēng)用品的旁邊放上蛋撻,提升了企業(yè)的經(jīng)濟(jì)效益;二是企業(yè)在運(yùn)行過程中遺存在互聯(lián)網(wǎng)上的數(shù)據(jù),通過網(wǎng)絡(luò)輿情及時(shí)跟蹤可以獲取市場最新動(dòng)態(tài),為企業(yè)調(diào)整服務(wù)模式、市場策略、降低風(fēng)險(xiǎn)提供依據(jù)。比如Farecast公司運(yùn)用數(shù)據(jù)挖掘,從網(wǎng)絡(luò)抓取數(shù)據(jù)來預(yù)測機(jī)票價(jià)格以及未來發(fā)展趨勢,幫助客戶把握最佳購買時(shí)機(jī),獲得較大成功。

2.5 趨勢預(yù)測分析實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的價(jià)值創(chuàng)造?!邦A(yù)測分析是利用統(tǒng)計(jì)、建模、數(shù)據(jù)挖掘工具對已有數(shù)據(jù)進(jìn)行研究以完成預(yù)測。”[10]預(yù)測分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來人工智能產(chǎn)生的Boos-ting?貝葉斯網(wǎng)絡(luò)法等;定量分析法一般從形成的歷史數(shù)據(jù)中發(fā)掘數(shù)據(jù)模型達(dá)到預(yù)測效果,如時(shí)間序列分析模型、分類與回歸分析模型等。

企業(yè)檔案數(shù)據(jù)資源預(yù)測分析是在企業(yè)檔案數(shù)據(jù)資源數(shù)據(jù)挖掘的基礎(chǔ)之上,發(fā)現(xiàn)適合模型,將企業(yè)檔案數(shù)據(jù)輸入該模型使得企業(yè)技術(shù)創(chuàng)新人員達(dá)到預(yù)測性的判斷效果,實(shí)現(xiàn)價(jià)值的創(chuàng)造。一個(gè)典型的例子即是市場預(yù)測問題,企業(yè)技術(shù)創(chuàng)新者可以根據(jù)檔案數(shù)據(jù)預(yù)測某件產(chǎn)品在未來六個(gè)月內(nèi)的銷售趨勢走向,進(jìn)而進(jìn)行生產(chǎn)、物流、營銷等活動(dòng)安排。具體來講企業(yè)可以通過數(shù)據(jù)時(shí)間序列分析模型預(yù)測產(chǎn)品銷售旺季和淡季顧客的需求量,從而制定針對獨(dú)特的營銷策略,減少生產(chǎn)和銷售的波動(dòng)性,獲得利潤和競爭優(yōu)勢。預(yù)測分析在大數(shù)據(jù)時(shí)代彰顯出企業(yè)檔案數(shù)據(jù)資源獨(dú)特的魅力。

3 大數(shù)據(jù)分析方法運(yùn)用于企業(yè)檔案管理中應(yīng)當(dāng)注意的問題

3.1 成本問題。大數(shù)據(jù)分析需要依靠分析工具和運(yùn)算時(shí)間,特別是在復(fù)雜的企業(yè)檔案數(shù)據(jù)資源中采用相關(guān)大數(shù)據(jù)分析工具的科技成本還是很高的,要以最少運(yùn)算成本獲得更有價(jià)值的數(shù)據(jù)內(nèi)容。合理選擇大數(shù)據(jù)分析工具不光可以節(jié)省運(yùn)算成本而且能夠更快速獲取盈利增長點(diǎn),同時(shí)在大數(shù)據(jù)分析和企業(yè)檔案數(shù)據(jù)資源的存儲成本方面也要適當(dāng)?shù)目刂圃诤侠淼姆秶鷥?nèi)。既要保證大數(shù)據(jù)分析質(zhì)量,又要降低企業(yè)檔案存儲成本是大數(shù)據(jù)分析方法運(yùn)用到企業(yè)檔案管理中的重要原則。

3.2 時(shí)效問題?!按髷?shù)據(jù)的動(dòng)態(tài)性強(qiáng),要求分析處理應(yīng)快速響應(yīng),在動(dòng)態(tài)變化的環(huán)境中快速完成分析過程,有些甚至必須實(shí)時(shí)分析,否則這些結(jié)果可能就是過時(shí)、無效的”。[11]由此可見,影響大數(shù)據(jù)分析的重要因素就是時(shí)效性問題?!按髷?shù)據(jù)數(shù)據(jù)分析的核心內(nèi)容之一是數(shù)據(jù)建模”,[12]數(shù)據(jù)分析模型要不斷的更新適應(yīng)數(shù)據(jù)的動(dòng)態(tài)變化。如果模型落后于數(shù)據(jù)的變化,那數(shù)據(jù)分析只能是失效的。同時(shí)由于經(jīng)濟(jì)環(huán)境、政治生態(tài)、社會文化等因素不斷變革,企業(yè)檔案數(shù)據(jù)的收集也會產(chǎn)生新的問題。只有不斷加強(qiáng)對這些數(shù)據(jù)的實(shí)時(shí)監(jiān)測和有效分析,才能更好的識別出數(shù)據(jù)變化中的細(xì)微之處,建立與之相適應(yīng)的數(shù)據(jù)分析新模型。

3.3 情感問題?!按髷?shù)據(jù)的另一個(gè)局限性在于它很難表現(xiàn)和描述用戶的感情?!贝髷?shù)據(jù)分析方法在處理企業(yè)檔案數(shù)據(jù)方面可以說如魚得水,大數(shù)據(jù)分析是一種科學(xué)的機(jī)器運(yùn)算方法,無法去實(shí)現(xiàn)人文價(jià)值提取,比如如何從企業(yè)檔案數(shù)據(jù)資源中提取企業(yè)文化,這更需要人的情感直覺去實(shí)現(xiàn),而嚴(yán)謹(jǐn)?shù)目茖W(xué)數(shù)據(jù)是無法實(shí)現(xiàn)的。因此,我們在熱衷于大數(shù)據(jù)分析方法的量化結(jié)果時(shí),同時(shí)也不要忽略在傳統(tǒng)企業(yè)檔案管理中的那份人文精神。

第5篇:數(shù)據(jù)分析的方法范文

我們在教學(xué)的過程中,也比較比較注重案例教學(xué)。例如,在講授神經(jīng)網(wǎng)絡(luò)時(shí),我們可以用上海證券交易所中股市中股票隨時(shí)間變化的數(shù)據(jù)為例,讓學(xué)生討論如何應(yīng)用神經(jīng)網(wǎng)絡(luò)對股票價(jià)格進(jìn)行預(yù)測。人工神經(jīng)網(wǎng)絡(luò)是一種模仿自然界動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,能夠較好地處理具有一定復(fù)雜性的數(shù)據(jù),在預(yù)測、擬合等方面取得了很好的應(yīng)用效果。讓學(xué)生采用神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)際數(shù)據(jù)分析和處理,可以增強(qiáng)他們學(xué)習(xí)的積極性,更主動(dòng)地投入到學(xué)習(xí)中去。我們也要求他們使用回歸分析的方法對股票價(jià)格進(jìn)行預(yù)測,然后和神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果進(jìn)行比較。通過這個(gè)過程,可以使學(xué)生們不但了解了神經(jīng)網(wǎng)絡(luò)與回歸分析算法的異同,加深他們對神經(jīng)網(wǎng)絡(luò)的認(rèn)識。

加強(qiáng)實(shí)驗(yàn)教學(xué),增強(qiáng)學(xué)生動(dòng)手能力

信息與計(jì)算科學(xué)專業(yè)是以信息領(lǐng)域?yàn)楸尘?,?shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計(jì)算機(jī),初步具備在信息與計(jì)算科學(xué)領(lǐng)域的某個(gè)方向上從事科學(xué)研究,解決實(shí)際問題,設(shè)計(jì)開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟(jì)管理部門,從事科研、教學(xué)和計(jì)算機(jī)應(yīng)用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計(jì)算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計(jì)算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計(jì)算科學(xué)專業(yè)的本科生不但需要掌握理論知識,還需要具有將所學(xué)知識用來解決實(shí)際問題的能力。數(shù)據(jù)挖掘作為一門應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運(yùn)用數(shù)據(jù)挖掘知識分析和解決實(shí)際問題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計(jì),以便在將來的就業(yè)中具有更好的適應(yīng)性,因此實(shí)驗(yàn)環(huán)節(jié)的教學(xué)有著其必要性。基于這些原因,我們在這門課中引入實(shí)驗(yàn)環(huán)節(jié),并將其納入考核要求。我們實(shí)驗(yàn)所用的基本軟件是SAS統(tǒng)計(jì)分析軟件。SAS軟件是一個(gè)集統(tǒng)計(jì)分析、報(bào)表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國際上主流的統(tǒng)計(jì)分析軟件之一。我們信息專業(yè)在大三時(shí)開設(shè)這門課程,之前已經(jīng)學(xué)過C語言和JAVA等程序設(shè)計(jì)方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們在平時(shí)的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計(jì)基礎(chǔ)知識先發(fā)給同學(xué)們,讓他們利用課后時(shí)間自己在個(gè)人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計(jì)方法,這樣可以在實(shí)驗(yàn)課上直接運(yùn)用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫。在實(shí)驗(yàn)課上,我們主要將要實(shí)驗(yàn)的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識和SAS軟件進(jìn)行編程實(shí)現(xiàn),并寫出實(shí)驗(yàn)分析和小結(jié)。另外,在實(shí)驗(yàn)中,我們也要求學(xué)生盡可能將一些實(shí)驗(yàn)結(jié)果用圖表的形式如崖底碎石圖等表示出來,以利于進(jìn)一步分析。對于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說在SAS軟件中進(jìn)行K-均值聚類用fastclus這個(gè)函數(shù)就可以了,但是學(xué)生對程序具體實(shí)現(xiàn)過程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫出來,就可以表明學(xué)生對所K-均值聚類算法也有了較清楚的認(rèn)識。另外,對于屬于數(shù)學(xué)建模協(xié)會的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識和數(shù)學(xué)建模中某些問題相結(jié)合起來,對于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識分析的問題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識對其進(jìn)行分析和求解,通過這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。

靈活的課后作業(yè)形式,提高學(xué)生的綜合能力

第6篇:數(shù)據(jù)分析的方法范文

關(guān)鍵詞:數(shù)據(jù)源分解 回歸測試 需求版本 數(shù)據(jù)實(shí)體

中圖分類號:TN967 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2016)12(a)-0096-02

吉林移動(dòng)的業(yè)務(wù)運(yùn)營支撐系統(tǒng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、內(nèi)部的關(guān)聯(lián)關(guān)系復(fù)雜。由于業(yè)務(wù)發(fā)展變化迅速,信息化系統(tǒng)也會做頻繁的版本變更,對系統(tǒng)變更的質(zhì)量保障至關(guān)重要。

對系統(tǒng)版本變更的交付測試驗(yàn)證,是系統(tǒng)質(zhì)量保障的重要手段,不僅僅要測試當(dāng)前變更的功能,還要分析當(dāng)前變更的功能有哪些關(guān)聯(lián)影響,對于被影響的業(yè)務(wù)、功能,要執(zhí)行業(yè)務(wù)回歸測試,以減少系統(tǒng)上線的質(zhì)量漏洞。

1 現(xiàn)有判定業(yè)務(wù)回歸測試范圍方法存在的缺點(diǎn)

目前業(yè)務(wù)回歸測試范圍的確定主要依賴于測試人員積累的經(jīng)驗(yàn),根據(jù)經(jīng)驗(yàn)判斷要做哪些相關(guān)業(yè)務(wù)、功能的回歸測試。這些經(jīng)驗(yàn)缺少基于可靠數(shù)據(jù)的量化分析。

通常系統(tǒng)版本上線時(shí)間要求都非常緊,不可能做全面的業(yè)務(wù)回歸測試,而業(yè)務(wù)回歸測試范圍確定不準(zhǔn)確,會導(dǎo)致質(zhì)量驗(yàn)證的漏洞,嚴(yán)重影響系統(tǒng)可靠性。

2 基于數(shù)據(jù)源分解判定業(yè)務(wù)回歸測試范圍的方案

該方案是建立回歸測試范圍數(shù)據(jù)分析模型,該模型包括:全業(yè)務(wù)數(shù)據(jù)源分析引擎、需求版本數(shù)據(jù)源識別引擎、回歸測試范圍數(shù)據(jù)源多元比對引擎,旨在提出一種基于數(shù)據(jù)源分解的可量化的業(yè)務(wù)回歸測試范圍分析模型。

2.1 全業(yè)務(wù)數(shù)據(jù)源分析引擎

其是將業(yè)務(wù)運(yùn)營支撐系統(tǒng)中所有的業(yè)務(wù)功能、源程序、數(shù)據(jù)結(jié)構(gòu)等,通過數(shù)據(jù)源之間的調(diào)用關(guān)系尋找它們的依賴關(guān)系,包括:

(1)將業(yè)務(wù)運(yùn)營支撐系統(tǒng)全業(yè)務(wù)數(shù)據(jù)源按數(shù)據(jù)源類型分類。(2)利用Java中的BufferedReade和FileReader進(jìn)行遞歸運(yùn)算遍歷業(yè)務(wù)運(yùn)營支撐系統(tǒng)全業(yè)務(wù)數(shù)據(jù)源,組建全業(yè)務(wù)數(shù)據(jù)源關(guān)聯(lián)關(guān)系模型,確定業(yè)務(wù)運(yùn)營支撐系統(tǒng)數(shù)據(jù)源的范圍邊界。(3)將遍歷后得到的關(guān)系結(jié)果存儲到數(shù)據(jù)庫中。

2.2 需求版本數(shù)據(jù)源識別引擎

主要通過需求版本重疊探測器、需求版本屬性識別器、需求版本規(guī)則識別器三方面。

(1)需求版本重疊探測器:判定需求版本是否與版本庫需求重疊提交,避免工作資源的浪費(fèi)。(2)需求版本屬性識別器:確定并記錄需求版本所對應(yīng)的各類數(shù)據(jù)源的修改點(diǎn)。(3)需求版本規(guī)則識別器:利用全業(yè)務(wù)數(shù)據(jù)源分析引擎解析需求版本所對應(yīng)數(shù)據(jù)源之間的依賴關(guān)系。

2.3 回歸測試范圍數(shù)據(jù)源多元比對引擎

采用ORACLE數(shù)據(jù)游標(biāo)指針技術(shù)作為源數(shù)據(jù)的比對方式。

3 主要技術(shù)實(shí)施方案描述

下面對基于數(shù)據(jù)源分解判定業(yè)務(wù)回歸測試范圍在業(yè)務(wù)運(yùn)營支撐系統(tǒng)的實(shí)際應(yīng)用中所采用的技術(shù)實(shí)施方案進(jìn)行描述,包括三個(gè)方面。

3.1 全業(yè)務(wù)數(shù)據(jù)源分析引擎描述

將業(yè)務(wù)運(yùn)營支撐系統(tǒng)的全業(yè)務(wù)數(shù)據(jù)源分為5類:業(yè)務(wù)功能、源程序、函數(shù)與結(jié)構(gòu)體、數(shù)據(jù)實(shí)體、實(shí)體字段,把全業(yè)務(wù)源數(shù)據(jù)分解為若干的部分。

利用Java中的BufferedReade和FileReader進(jìn)行遞歸運(yùn)算遍歷業(yè)務(wù)運(yùn)營支撐系統(tǒng)全業(yè)務(wù)數(shù)據(jù)源,組建全業(yè)務(wù)數(shù)據(jù)源關(guān)聯(lián)關(guān)系模型。利用Java程序編寫遞歸函數(shù),對現(xiàn)有業(yè)務(wù)運(yùn)營支撐系統(tǒng)全業(yè)務(wù)涉及的所有源數(shù)據(jù)進(jìn)行讀取。利用源數(shù)據(jù)分類及每個(gè)類別所特有的關(guān)鍵字對源數(shù)據(jù)進(jìn)行解析。將遍歷后得到的關(guān)系結(jié)果以多維變長數(shù)據(jù)形式存儲到數(shù)據(jù)庫中,作為技術(shù)數(shù)據(jù)保存。

3.2 需求版本數(shù)據(jù)源識別引擎描述

其包含需求版本重疊探測器、需求版本屬性識別器、需求版本規(guī)則識別器三方面,通過以下技術(shù)措施一并實(shí)現(xiàn)。

建立業(yè)務(wù)運(yùn)營支撐系統(tǒng)需求版本屬性識別器。確定并記錄需求版本所對應(yīng)的各類數(shù)據(jù)源的修改點(diǎn),包括軟件版本變更的內(nèi)容清單(變更的功能,變更的程序,變更的數(shù)據(jù)實(shí)體)。通過需求版本屬性識別器,將變更的數(shù)據(jù)源名稱入庫,并對該次需求版本變更的數(shù)據(jù)源通過全業(yè)務(wù)數(shù)據(jù)源分析引擎解析入庫。利用自動(dòng)化版本比對,得到修改點(diǎn)。將結(jié)果同樣以多維變長數(shù)據(jù)存儲到數(shù)據(jù)庫中,作為全業(yè)務(wù)數(shù)據(jù)源分析引擎結(jié)果比對的基礎(chǔ)數(shù)據(jù)。

3.3 回歸測試范圍數(shù)據(jù)源多元比對引擎描述

采用數(shù)據(jù)游標(biāo)指針技術(shù)對源數(shù)據(jù)進(jìn)行笛卡爾乘積運(yùn)算比對。確定全業(yè)務(wù)數(shù)據(jù)源與需求版本數(shù)據(jù)源比對范圍。包括:程序比對、函數(shù)比對、機(jī)構(gòu)體比對、關(guān)鍵字比對、數(shù)據(jù)實(shí)體比對、數(shù)據(jù)字段比對。利用數(shù)據(jù)庫技術(shù)將需求版本數(shù)據(jù)源識別引擎所分析的結(jié)果,逐一與全業(yè)務(wù)數(shù)據(jù)源分析引擎的全業(yè)務(wù)關(guān)聯(lián)關(guān)系進(jìn)行比對。一個(gè)系統(tǒng)功能與多個(gè)應(yīng)用程序/函數(shù)/數(shù)據(jù)實(shí)體相互對應(yīng),而多個(gè)應(yīng)用程序/函數(shù)/數(shù)據(jù)實(shí)體也同樣對應(yīng)一個(gè)或多個(gè)系統(tǒng)功能/應(yīng)用程序,這樣逐個(gè)數(shù)據(jù)源分解就會形成一個(gè)網(wǎng)狀結(jié)構(gòu),眾多的全業(yè)務(wù)數(shù)據(jù)源與需求版本數(shù)據(jù)源交織在一起,構(gòu)成了它們之間存在的必然關(guān)聯(lián),形成了基于數(shù)據(jù)源分解判定業(yè)務(wù)回歸測試模型的核心部分。這也正是這個(gè)技術(shù)專利的關(guān)鍵所在,隨意觸發(fā)一個(gè)需求版本的數(shù)據(jù)源,都可以透過這些關(guān)聯(lián)將與其密切關(guān)聯(lián)、受其影響的系統(tǒng)功能/應(yīng)用程序及數(shù)據(jù)實(shí)體輕易找到,從而保證了回歸測試的完整性及準(zhǔn)確性。

4 基于數(shù)據(jù)源分解判定業(yè)務(wù)回歸測試范圍的優(yōu)點(diǎn)

采用基于數(shù)據(jù)源分解判定業(yè)務(wù)回歸測試范圍的方案后,有效降低了軟件版本升級對原有系統(tǒng)的不確定性影,大幅提升了系統(tǒng)的可靠性和穩(wěn)定性。

4.1 業(yè)務(wù)回歸測試范圍分析有可靠的數(shù)據(jù)依據(jù)

通過數(shù)據(jù)源分解可以對系統(tǒng)全業(yè)務(wù)涉及的所有數(shù)據(jù)源進(jìn)行分析,保證了基礎(chǔ)數(shù)據(jù)的最大范圍,避免了數(shù)據(jù)源的遺漏,有效提高了業(yè)務(wù)回歸測試的覆蓋度,從而提高了對系統(tǒng)交付測試驗(yàn)證的質(zhì)量,減少了質(zhì)量漏洞,降低了需求版本上線風(fēng)險(xiǎn)。

4.2 業(yè)務(wù)回歸測試范圍分析效率的提升

現(xiàn)有技術(shù)方案采用人為經(jīng)驗(yàn)判斷及人工讀取代碼的方式進(jìn)行,而該方案采用的是計(jì)算機(jī)智能數(shù)據(jù)源分解自動(dòng)化處理的方式。一個(gè)經(jīng)驗(yàn)豐富的開發(fā)人員每分鐘編寫代碼約30行,讀取代碼約60行,而該發(fā)明采用計(jì)算機(jī)自動(dòng)分析每分鐘分析數(shù)量8 500行左右,是人工分析的140倍。該方案隨著硬件性能的提升,具備更大效能提升的空間。

4.3 業(yè)務(wù)回歸測試范圍分析知識可持續(xù)積累和復(fù)用

采用數(shù)據(jù)源分解的業(yè)務(wù)回歸測試范圍、測試方案管理可以有效地形成知識的積累和沉淀,并借此創(chuàng)建知識庫,有助于業(yè)務(wù)人員、測試人員水平的快速提高及知識傳遞。

參考文獻(xiàn)

[1] 王軼辰.軟件測試從入門到精通[M].電子工業(yè)出版社,2010.

第7篇:數(shù)據(jù)分析的方法范文

【關(guān)鍵詞】 數(shù)據(jù)挖掘; 財(cái)務(wù)分析; 神經(jīng)網(wǎng)絡(luò)

一、前言

數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的成果。數(shù)據(jù)挖掘(DM,DataMining)的概念產(chǎn)生于20世紀(jì)80年代末,在90年代獲得了長足的發(fā)展。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用到市場分析、政府管理、醫(yī)療衛(wèi)生、科學(xué)探索、金融、財(cái)經(jīng)領(lǐng)域中并取得了一定的實(shí)效。

財(cái)務(wù)數(shù)據(jù)挖掘是一種新的財(cái)務(wù)信息處理技術(shù),其主要特點(diǎn)是能對會計(jì)數(shù)據(jù)庫及其它業(yè)務(wù)數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析及其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。在企業(yè)的財(cái)務(wù)狀況分析中應(yīng)用數(shù)據(jù)挖掘技術(shù),報(bào)表使用者可以節(jié)省大量的時(shí)間和精力去關(guān)注更有用的信息,幫助報(bào)表使用者找出隱藏的、未知的、但對了解企業(yè)經(jīng)營狀況十分有用的信息。

二、應(yīng)用于財(cái)務(wù)分析的數(shù)據(jù)挖掘方法

現(xiàn)有研究中,應(yīng)用于財(cái)務(wù)分析的數(shù)據(jù)挖掘方法主要有以下幾種:

(一)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于財(cái)務(wù)危機(jī)預(yù)測和財(cái)務(wù)狀況評價(jià)兩方面。

1.財(cái)務(wù)危機(jī)預(yù)測

目前神經(jīng)網(wǎng)絡(luò)在財(cái)務(wù)危機(jī)預(yù)測的應(yīng)用中主要集中在模型的建立和優(yōu)化上。在模型建立方面,通過選取一定的樣本包括ST公司和非ST公司,選取其中一部分作為訓(xùn)練集,其余的作為測試集。先對訓(xùn)練集進(jìn)行歸一化處理,再運(yùn)用神經(jīng)網(wǎng)絡(luò)算法建立模型,為了驗(yàn)證模型的預(yù)測準(zhǔn)確率,用測試集檢驗(yàn)?zāi)P偷念A(yù)測結(jié)果。

在模型優(yōu)化方面,一方面不斷改進(jìn)指標(biāo)的選取,通過一定的統(tǒng)計(jì)方法客觀選取指標(biāo),降低主觀性,提高模型的預(yù)測準(zhǔn)確性;另一方面不斷改進(jìn)神經(jīng)網(wǎng)絡(luò)算法,把不同的技術(shù)引用到模型中從而不斷優(yōu)化模型。

2.財(cái)務(wù)狀況評價(jià)

神經(jīng)網(wǎng)絡(luò)運(yùn)用到企業(yè)財(cái)務(wù)狀況評價(jià)時(shí),首先都是建立系統(tǒng)的評價(jià)指標(biāo)體系,然后在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和算法研究的基礎(chǔ)上,通過樣本對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后得到穩(wěn)定的結(jié)構(gòu)和權(quán)值,從而建立模型。

(二)模糊集理論

目前有關(guān)模糊集理論在財(cái)務(wù)分析的應(yīng)用主要集中在模糊綜合評價(jià)法在企業(yè)財(cái)務(wù)狀況評價(jià)的應(yīng)用。在運(yùn)用模糊綜合評價(jià)法建立評價(jià)模型時(shí),首先要確定因素集,因素集為各種指標(biāo)體系的集合;其次要確定權(quán)重集,權(quán)重的確定主要有市場調(diào)查法和德爾菲法;再次要建立等級評價(jià)標(biāo)準(zhǔn),評價(jià)等級集是評價(jià)者對評價(jià)對象可能做出的各種評價(jià)結(jié)果所組成的集合;最后建立模糊評價(jià)矩陣,經(jīng)過運(yùn)算得到評價(jià)結(jié)果。

在運(yùn)用模糊集理論建立評價(jià)模型時(shí),一方面需要根據(jù)企業(yè)的具體情況建立因素集和權(quán)重系數(shù)矩陣,具有一定的客觀性;另一方面評價(jià)集以隸屬度的方式表示,使其評價(jià)結(jié)果留有余地。

(三)決策樹

決策樹在財(cái)務(wù)方面主要應(yīng)用于財(cái)務(wù)預(yù)警方面。利用決策樹進(jìn)行數(shù)據(jù)挖掘建模,首先需要進(jìn)行變量的指定,一般把上市公司是否“特別處理”為目標(biāo)變量,已選定的財(cái)務(wù)指標(biāo)為輸入變量;然后運(yùn)用軟件建立模型;最后要根據(jù)檢驗(yàn)樣本進(jìn)行檢驗(yàn)。

決策樹作為一種數(shù)據(jù)挖掘技術(shù)運(yùn)用到財(cái)務(wù)預(yù)警中具有較好的預(yù)測效果。目前,利用決策樹進(jìn)行財(cái)務(wù)預(yù)警處于起步階段,如何更好的應(yīng)用決策樹有很大的研究空間。但是決策樹的輸出變量只能有兩個(gè),只能簡單的預(yù)測評價(jià)企業(yè)財(cái)務(wù)狀況好或者不好。

(四)遺傳算法

現(xiàn)有的研究一般把遺傳算法和神經(jīng)網(wǎng)絡(luò)結(jié)合在一起,通過遺傳算法的全局尋優(yōu)能力,建立財(cái)務(wù)困境預(yù)測的遺傳神經(jīng)網(wǎng)絡(luò)模型,該模型利用遺傳算法對輸入變量進(jìn)行了優(yōu)化,比單純的神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測能力。

遺傳算法主要適用于數(shù)值優(yōu)化問題,在財(cái)務(wù)分析中主要運(yùn)用于具體的問題中,例如內(nèi)涵報(bào)酬率的分析和證券組合選擇分析,它作為一種解決數(shù)值優(yōu)化問題的算法,在數(shù)值優(yōu)化問題中有廣闊的應(yīng)用前景。

(五)粗糙集

粗糙集理論目前主要運(yùn)用在財(cái)務(wù)危機(jī)預(yù)測中。首先是財(cái)務(wù)指標(biāo)的篩選過程,通過計(jì)算條件屬性和決策屬性的依賴度,進(jìn)而確定各條件屬性相對于決策屬性的重要程度,并根據(jù)重要程度對其進(jìn)行條件屬性約簡;之后,確定篩選后進(jìn)入預(yù)測模型的財(cái)務(wù)指標(biāo)的權(quán)重,對財(cái)務(wù)指標(biāo)重要程度做歸一化處理后得到權(quán)重;最后,得到基于粗糙集理論的綜合預(yù)測模型,應(yīng)用預(yù)測模型計(jì)算對象的綜合預(yù)測值。通過實(shí)證分析可以看出與傳統(tǒng)判別模型進(jìn)行比較,基于粗糙集理論的模型預(yù)測效果更好。

(六)聚類分析

聚類分析主要是對事先不知道類別的數(shù)據(jù)進(jìn)行分類,目前對于聚類分析的研究集中到模糊聚類分析。

在對企業(yè)財(cái)務(wù)狀況進(jìn)行評價(jià)時(shí),大多是運(yùn)用模糊聚類分析方法,選取一定的財(cái)務(wù)狀況評價(jià)指標(biāo),建立模糊聚類分析模型,進(jìn)行實(shí)證分析,形成模糊聚類圖,再將具有財(cái)務(wù)狀況相似性的行業(yè)進(jìn)行歸類。

三、數(shù)據(jù)挖掘方法評析

從現(xiàn)有基于數(shù)據(jù)挖掘的財(cái)務(wù)分析方法可以看出,它們都是以財(cái)務(wù)報(bào)表為基礎(chǔ),因而存在以下問題:

(一)數(shù)據(jù)采集欠缺真實(shí)和滯后

企業(yè)為標(biāo)榜業(yè)績,常常粉飾財(cái)務(wù)報(bào)告、虛增利潤,使財(cái)務(wù)報(bào)告中的數(shù)據(jù)喪失了真實(shí)性,在此基礎(chǔ)上進(jìn)行的財(cái)務(wù)分析是不可靠的。此外,財(cái)務(wù)報(bào)告一般是半年報(bào)和年報(bào),半年報(bào)在半年度結(jié)束之后兩個(gè)月內(nèi)報(bào)出,年報(bào)在年度結(jié)束后四個(gè)月內(nèi)報(bào)出,缺乏及時(shí)的信息跟蹤和反饋控制,存在明顯的滯后性,在這個(gè)基礎(chǔ)上進(jìn)行財(cái)務(wù)狀況分析具有一定的局限性,從而影響分析的結(jié)果。

(二)數(shù)據(jù)挖掘范圍廣泛性不足且分析方法片面

現(xiàn)有的財(cái)務(wù)狀況分析在根據(jù)財(cái)務(wù)信息對企業(yè)財(cái)務(wù)狀況進(jìn)行定量的分析預(yù)測時(shí)缺乏非財(cái)務(wù)信息的輔助分析,使信息涵蓋范圍不夠廣泛。而且,現(xiàn)有的財(cái)務(wù)狀況分析方法都不能很好的把定性分析與定量分析相結(jié)合。

四、數(shù)據(jù)挖掘在財(cái)務(wù)分析應(yīng)用的改進(jìn)

(一)在數(shù)據(jù)采集方面

不再是以財(cái)務(wù)報(bào)表的資料為數(shù)據(jù)源,而是從企業(yè)中采集原始數(shù)據(jù),提高數(shù)據(jù)的可信度。當(dāng)然,會計(jì)信息數(shù)據(jù)也可以有多種表現(xiàn)形式,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫、文本形式的數(shù)據(jù),也可以是面向?qū)ο蟮臄?shù)據(jù)庫以及Web數(shù)據(jù)庫等。另外,利用XBRL和WEB挖掘等技術(shù)加入了非財(cái)務(wù)信息和外部信息。這樣,財(cái)務(wù)分析所需要的財(cái)務(wù)信息、非財(cái)務(wù)信息和外部信息可以分別從會計(jì)信息系統(tǒng)、管理信息系統(tǒng)和Internet采集。

實(shí)時(shí)數(shù)據(jù)庫的建立使實(shí)時(shí)數(shù)據(jù)挖掘成為可能,為企業(yè)財(cái)務(wù)狀況分析的準(zhǔn)確性提供了技術(shù)支持。實(shí)時(shí)數(shù)據(jù)庫是數(shù)據(jù)庫系統(tǒng)發(fā)展的一個(gè)分支,它適用于處理不斷更新的快速變化的數(shù)據(jù)及具有時(shí)間限制的事務(wù)。XBRL開始廣泛的應(yīng)用,將會促進(jìn)實(shí)時(shí)數(shù)據(jù)采集問題的實(shí)現(xiàn)。

(二)在數(shù)據(jù)挖掘過程中

應(yīng)綜合運(yùn)用數(shù)據(jù)挖掘的各種技術(shù),對凈化和轉(zhuǎn)換過后的數(shù)據(jù)集進(jìn)行挖掘。將非財(cái)務(wù)信息納入考察范圍,以擴(kuò)充信息的涵蓋范圍。

實(shí)際運(yùn)用中,定性分析和定量分析方法并不能截然分開。量的差異在一定程度上反映了質(zhì)的不同,由于量的分析結(jié)果比較簡潔、抽象,通常還要借助于定性的描述,說明其具體的含義;定性分析又是定量分析的基礎(chǔ),定量分析的量必須是同質(zhì)的。在需要時(shí),有些定性信息也要進(jìn)行二次量化,作為定量信息來處理,以提高其精確性。

【參考文獻(xiàn)】

[1] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004:131-148.

[2] 李建鋒.數(shù)據(jù)挖掘在公司財(cái)務(wù)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2005(2).

[3] 姚靠華,蔣艷輝.基于決策樹的財(cái)務(wù)預(yù)警[J].系統(tǒng)工程,2005(10):102-106.

[4] 林偉林,林有.數(shù)據(jù)挖掘在上市公司財(cái)務(wù)狀況分析中的應(yīng)用[J].市場周刊,2004(10).

第8篇:數(shù)據(jù)分析的方法范文

關(guān)鍵詞:經(jīng)典功率譜估計(jì);現(xiàn)代功率譜估計(jì);飛行試驗(yàn)

1 概述

當(dāng)飛機(jī)在閉環(huán)補(bǔ)償跟蹤任務(wù)中飛行時(shí),飛機(jī)飛行品質(zhì)的一種量度是它的穩(wěn)定裕度,因而將在不危及穩(wěn)定性的情況下可以進(jìn)行閉環(huán)跟蹤的最大頻率定義為頻寬。頻寬是衡量最大頻率的一個(gè)指標(biāo),它對高增益飛機(jī)特別有用,不論是對駕駛員操縱力和操縱位移的俯仰姿態(tài)響應(yīng)還是根據(jù)航向角或者橫向航跡角對座艙直接力空中輸入的開環(huán)頻率響應(yīng),它都可以在這個(gè)頻率條件下實(shí)現(xiàn)閉環(huán)跟蹤而不需要駕駛員提供有利的動(dòng)態(tài)補(bǔ)償且不對穩(wěn)定性構(gòu)成惡化[5]。因此,在飛行試驗(yàn)的數(shù)據(jù)分析中,獲取精準(zhǔn)的飛機(jī)響應(yīng)的頻域特性尤為重要,這就需要首先對操縱輸入信號進(jìn)行功率譜估計(jì),本文列出4種功率譜估計(jì)方法,并用這些方法對飛機(jī)的輸入激勵(lì)信號進(jìn)行譜估計(jì),以便得到適用行品質(zhì)頻域準(zhǔn)則評估的頻域特性。功率譜估計(jì)可分為經(jīng)典譜估計(jì)和現(xiàn)代譜估計(jì)。

2 經(jīng)典譜估計(jì)

功率譜密度是一種概論統(tǒng)計(jì)方法,是對隨機(jī)變量均方值的量度。平穩(wěn)信號的自相關(guān)函數(shù)的傅立葉變換稱為功率譜密度。實(shí)際中采用有限長的數(shù)據(jù)來估計(jì)隨機(jī)過程的功率譜密度[2、3]。

2.1 周期圖法

周期圖法是信號功率譜的一個(gè)有偏估計(jì),它對觀測到的有限長序列x(n)求其N點(diǎn)離散傅立葉變換XN(ej?棕),再取其模值的平方除以N,得到計(jì)算公式:

周期圖法是基本的功率譜估計(jì)方法,計(jì)算簡便,計(jì)算效率高,但是當(dāng)數(shù)據(jù)長度N過大時(shí),功率譜曲線起伏加劇,當(dāng)N過小,譜分辨率較差。

2.2 加權(quán)交疊平均法(Welch法)

Welch法是對隨機(jī)序列分段處理,使每一段部分重疊,然后對每一段數(shù)據(jù)用一個(gè)合適的窗函數(shù)進(jìn)行平滑處理,最后對各段譜求平均。這樣可以得到序列x(n)的功率譜估計(jì):

(n)是窗函數(shù)[1],由于各段數(shù)據(jù)的交疊,數(shù)據(jù)段數(shù)L增大,從而減小了方差,另外,通過選擇合適的窗函數(shù),也可使遺漏的頻譜減少,改進(jìn)了分辨率。因此這是一種把加窗處理和平均處理結(jié)合起來的方法,它能夠滿足譜估計(jì)對分辨率和方差的要求,但是如果信號數(shù)據(jù)過短,也會無法進(jìn)行觀測。

3 現(xiàn)代功率譜估計(jì)

現(xiàn)代功率譜估計(jì)分為參數(shù)模型法和非參數(shù)模型法。

3.1 參數(shù)模型法(AR模型的Burg法)

參數(shù)模型法是將數(shù)據(jù)建模成一個(gè)由白噪聲驅(qū)動(dòng)的線性系統(tǒng)輸出,并估計(jì)該系統(tǒng)的參數(shù)。最常用的線性系統(tǒng)模型是全極點(diǎn)模型,也就是一個(gè)濾波器,這樣的濾波器輸入白噪聲后的輸出是一個(gè)自回歸(設(shè)AR模型的沖擊響應(yīng)在方差?滓2的白噪聲序列作用下產(chǎn)生輸出,再由初值定理得到:

這就是AR模型的Yule-Walker方程。本文采用的是該方程的Burg法,即先估計(jì)反射系數(shù),然后利用Levinson遞推算法,用反射系數(shù)求AR參數(shù)。Burg法在信號長度較短時(shí)能夠獲得較高的分辨率,并且計(jì)算高效。

3.2 非參數(shù)模型法(多窗口法)

多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一組最優(yōu)濾波器計(jì)算估計(jì)值,這些最優(yōu)FIR濾波器是由一組離散扁平類球體序列(DPSS)得到的,除此之外,MTM法提供了一個(gè)時(shí)間-帶寬參數(shù),它能在估計(jì)方差和分辨率之間進(jìn)行平衡。因此,MTM法具有更大的自由度,在估計(jì)精度和估計(jì)波動(dòng)方面均有較好的效果,其增加的窗口也會使序列兩端丟失的信息大幅減少[7]。

4 實(shí)例分析

本文采用Matlab計(jì)算,輸入信號使用飛行試驗(yàn)中常用的掃頻和倍脈沖信號。通過Matlab中的譜估計(jì)函數(shù)方法[4、6],編寫程序?qū)o定的輸入信號分別進(jìn)行周期圖法、Welch法、Burg法和MTM法的譜估計(jì)并分析。估計(jì)結(jié)果如圖1、圖2所示:

從圖1、圖2可以看出:

(1)周期圖法得到的掃頻功率譜曲線起伏大,倍脈沖信號的頻譜分辨率低;(2)Welch法明顯改善了周期圖法的不足,方差性能得到很大的改善,只要窗函數(shù)選取適當(dāng),可減少頻譜泄露。圖中可見Welch法的譜估計(jì)曲線比較光滑,在飛行品質(zhì)關(guān)注的頻段頻譜分辨率高;(3)Burg法的曲線平滑性好,頻譜分辨率高,但是其譜峰窄而尖,在飛行品質(zhì)關(guān)注的低頻段頻譜并不理想,也就是不能在所需的頻段內(nèi)產(chǎn)生足夠的能量;(4)MTM法得到的結(jié)果介于周期圖法和Welch法之間,但是對于時(shí)間序列較長的信號,MTM法的功率譜曲線起伏較大,分辨率變低。

5 結(jié)束語

通過4種功率譜估計(jì)方法對飛機(jī)輸入激勵(lì)信號的譜估計(jì)分析,采用Welch法得到了更有效的輸入信號的譜估計(jì),得到的頻域特性能夠更好地進(jìn)行飛行品質(zhì)頻域準(zhǔn)則的評估,這對飛行品質(zhì)的等級界定提供了有效的依據(jù)。

參考文獻(xiàn)

[1]Mark B.Tischler,Robert K.Remple.Aircraft and Rotorcraft System Identification.AIAA,Inc,2006.8.

[2]楊曉明,晉玉劍,等.經(jīng)典功率譜估計(jì)Welch法的MATLAB仿真分析[J].電子測試,2011,7(7):101-104.

[3]王春d.基于MATLAB實(shí)現(xiàn)經(jīng)典功率譜估計(jì)[J].曲阜師范大學(xué)學(xué)報(bào),2011,4(2):59-62.

[4]鄧澤懷,劉波波,李彥良.常見的功率譜估計(jì)方法及其Matlab仿真[J].電子科技, 2014,2(27):50-52.

[5] GJB2874-97.電傳操縱系統(tǒng)飛機(jī)的飛行品質(zhì)[S].國防科學(xué)技術(shù)工業(yè)委員會,1997,12.

[6]楊高波,杜青松.MATLAB圖像/視頻處理應(yīng)用及實(shí)例[M].北京:電子工業(yè)出版社,2010,1.

第9篇:數(shù)據(jù)分析的方法范文

[關(guān)鍵詞]分布式存儲 大數(shù)據(jù) 平安城市 智能分析 告警 運(yùn)維 集群

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2016)04-0308-01

一、 運(yùn)維系統(tǒng)總體概述

運(yùn)維系統(tǒng)作為平安城市的重要一個(gè)環(huán)節(jié),主要就是對平安城市相關(guān)設(shè)備的監(jiān)控,實(shí)現(xiàn)對攝像頭的上下線、高度、暗度、清晰度、雪花、色偏、條紋、凍結(jié)、抖動(dòng)、遮擋的監(jiān)控;實(shí)現(xiàn)對機(jī)房設(shè)備(UPS,空調(diào),門禁,煙感,測漏,溫感)的實(shí)時(shí)監(jiān)控和告警的接受及處理;實(shí)現(xiàn)對服務(wù)器等設(shè)備的實(shí)時(shí)監(jiān)控和智能分析。然而系統(tǒng)每天接受告警和實(shí)時(shí)數(shù)據(jù)多達(dá)5萬條,可是高效的存儲和讀取數(shù)據(jù)已經(jīng)成為傳統(tǒng)數(shù)據(jù)庫的難點(diǎn)。所以本系統(tǒng)采用分布式存儲方法,實(shí)現(xiàn)數(shù)據(jù)的高效插入和讀取,大大優(yōu)化了用戶的體驗(yàn)效果。

二、 分布式存儲說明

傳統(tǒng)的數(shù)據(jù)存儲主要采用集中存儲,把所有的數(shù)據(jù)存儲在一個(gè)存儲服務(wù)器中,然而大量數(shù)據(jù)的集中,導(dǎo)致了系統(tǒng)性能的下降,可靠性和安全性也成為了焦點(diǎn)。

分布式存儲,就是通過集群,提高系統(tǒng)的可靠性、可用性和存取效率。簡單的說,就是將大量數(shù)據(jù)分別存儲在不同的設(shè)備上。分布式存儲采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷,利用位置服務(wù)器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。如圖1

三、 實(shí)現(xiàn)過程

運(yùn)維系統(tǒng)監(jiān)控?cái)?shù)據(jù)主要分兩種,設(shè)備告警數(shù)據(jù)和設(shè)備實(shí)時(shí)數(shù)據(jù)。實(shí)時(shí)數(shù)據(jù)主要是方便查看設(shè)備的當(dāng)前狀態(tài),并可以通過告警配置,系統(tǒng)經(jīng)過智能分析判斷設(shè)備是否出現(xiàn)故障,如果出現(xiàn)故障則產(chǎn)生告警;告警數(shù)據(jù)則是由設(shè)備自動(dòng)推送告警,并在運(yùn)維系統(tǒng)中加以處理。具體實(shí)現(xiàn)如下:

一、集群搭建,服務(wù)添加

建立由幾臺服務(wù)器并行的計(jì)算集群環(huán)境,并配置計(jì)算節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)服務(wù)器。配置其中1到2臺服務(wù)器為管理節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn),其他服務(wù)器為數(shù)據(jù)節(jié)點(diǎn)。安裝與集群環(huán)境版本匹配的數(shù)據(jù)訪問中間件,開發(fā)計(jì)算器安裝數(shù)據(jù)訪問中間件的客戶端,可以做可視化的數(shù)據(jù)操作。

二、設(shè)計(jì)運(yùn)維告警數(shù)據(jù)存儲結(jié)構(gòu),并建立索引

1、根據(jù)告警的處理和設(shè)備性質(zhì),告警設(shè)置的字段主要有:“報(bào)警名稱”、“報(bào)警級別”、“報(bào)警來源”、“報(bào)警種類”、“報(bào)警時(shí)間”、“設(shè)備名稱”、“設(shè)備類型”、“處理狀態(tài)”、“處理時(shí)間”等存儲字段。

2、索引的建立?!皥?bào)警級別”、“報(bào)警種類”、“設(shè)備名稱”、“設(shè)備類型”、“處理狀態(tài)”,這四個(gè)字段為最常用查詢字段,所以由這4個(gè)字段建立分布式可變索引??勺兯饕梢噪S著數(shù)據(jù)插入自動(dòng)更新索引數(shù)據(jù),數(shù)據(jù)通過LSM樹的數(shù)據(jù)結(jié)構(gòu)存儲在分布式數(shù)據(jù)庫。結(jié)構(gòu)例如:1001+1001002+“服務(wù)器001”。

由于分布式存儲數(shù)據(jù)對設(shè)備名稱的模糊查詢效率較低,于是針對設(shè)備名稱建立的分布式索引。將設(shè)備名稱的分布式索引存儲在集群中的分布式文件系統(tǒng)中。例如:設(shè)備名稱:服務(wù)器001,在分布式索引中建立的索引是:“服、服務(wù)、服務(wù)器、服務(wù)器0、服務(wù)器00、服務(wù)器001、務(wù)、務(wù)器、務(wù)器0、務(wù)器00、務(wù)器001、器、器0、器00、器001、0、00、001、01 1 ” 。

3、分布式索引。生產(chǎn)環(huán)境下,由多臺服務(wù)器組成的分布式集群使用的是分布式文件系統(tǒng)。如果將索引文件建立在一臺服務(wù)器上,則不能體現(xiàn)設(shè)備名稱的分布式處理。為了保證整個(gè)查詢過程的高效性,同樣需要把索引文件分布式的存儲在整個(gè)集群中。

用戶在輸入一個(gè)字符之后,即可通過分布式索引文件的查詢返回包含該字符的10個(gè)設(shè)備名稱。返回設(shè)備名稱之后,系統(tǒng)根據(jù)最相似的設(shè)備名稱進(jìn)行全字段匹配查詢,從而提高整體的查詢速度。

三、設(shè)計(jì)運(yùn)維系統(tǒng)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)存儲結(jié)構(gòu),并建立索引

1、根據(jù)實(shí)時(shí)監(jiān)控的需要,實(shí)時(shí)數(shù)據(jù)字段主要有:“機(jī)房ID”、“設(shè)備ID”、“監(jiān)控時(shí)間”以及各種設(shè)備參數(shù)字段。

2、索引的建立。由于實(shí)時(shí)監(jiān)控查詢相對簡單,直接建立“機(jī)房ID”、“設(shè)備ID”索引就可以滿足用戶的需求了,在這里面就不在多做闡述。

四、接入各設(shè)備信息數(shù)據(jù)

經(jīng)過數(shù)據(jù)合法性和業(yè)務(wù)處理,數(shù)據(jù)通過中間件入庫,自動(dòng)更新索引表,同時(shí)更新設(shè)備名稱的分布式索引。

五、數(shù)據(jù)的讀取和業(yè)務(wù)處理

程序查詢條件包含對索引的字段進(jìn)行查詢,可在100毫秒之內(nèi)返回相應(yīng)數(shù)據(jù)。如圖2

參考文獻(xiàn)

[1] 《大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》 楊傳輝.

[2] 《大型分布式網(wǎng)站架構(gòu)設(shè)計(jì)與實(shí)踐》 陳康賢.