公務(wù)員期刊網(wǎng) 論文中心 正文

軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。

軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

摘要:隨著科學(xué)技術(shù)的高速發(fā)展,人們的生活行為、個(gè)人喜好、出行軌跡甚至個(gè)人社交都能通過一連串復(fù)雜的數(shù)據(jù)來顯示。強(qiáng)大的數(shù)據(jù)網(wǎng)絡(luò)對人們的工作生活及科技發(fā)展產(chǎn)生了重要影響。因此,如何在龐大的數(shù)據(jù)網(wǎng)絡(luò)中找到有價(jià)值的、有需要的數(shù)據(jù),成為了數(shù)據(jù)信息技術(shù)的一個(gè)研究方向。數(shù)據(jù)挖掘技術(shù)在一定程度上解決了這個(gè)問題。文章結(jié)合數(shù)據(jù)挖掘的內(nèi)涵,分析數(shù)據(jù)挖掘技術(shù)在軟件工程中的作用,提出一些應(yīng)用方法,旨在對我國軟件工程和科技發(fā)展提供參考。

關(guān)鍵詞:數(shù)據(jù)挖掘;軟件工程;應(yīng)用分析

引言

每個(gè)數(shù)據(jù)背后都豐富的含義,不同數(shù)據(jù)之間也有著復(fù)雜的聯(lián)系,不加以利用的數(shù)據(jù)只是單純的數(shù)學(xué)符。數(shù)據(jù)挖掘技術(shù)能幫助企業(yè)更好的利用數(shù)據(jù),進(jìn)行工作計(jì)劃、工作調(diào)整等。目前數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用在于軟件工程和科技生產(chǎn)當(dāng)中,為人們的生產(chǎn)生活提供了便利。

1數(shù)據(jù)挖掘基本含義概述

數(shù)據(jù)挖掘技術(shù)是一項(xiàng)關(guān)于數(shù)據(jù)采集、數(shù)據(jù)選擇、數(shù)據(jù)存儲的科學(xué)技術(shù),主要與現(xiàn)代信息技術(shù)相結(jié)合。相比于傳統(tǒng)數(shù)據(jù)技術(shù),數(shù)據(jù)挖掘技術(shù)更加快捷、高效和便利。雖然數(shù)據(jù)挖掘技術(shù)具有如此豐富的功能,但是受經(jīng)濟(jì)條件和科學(xué)水平等條件的限制,目前我國大多數(shù)企業(yè)仍然采用傳統(tǒng)的數(shù)據(jù)信息技術(shù),導(dǎo)致數(shù)據(jù)挖掘技術(shù)的應(yīng)用普及度較低。傳統(tǒng)的數(shù)據(jù)技術(shù)在數(shù)據(jù)處理過程中要花費(fèi)大量的時(shí)間和人力,而且對使用人員自身素質(zhì)要求很高。同時(shí),傳統(tǒng)數(shù)據(jù)技術(shù)的使用范圍也相對狹隘。數(shù)據(jù)挖掘技術(shù)過程是一個(gè)對數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換和評價(jià)的過程,將“數(shù)據(jù)理解”最終轉(zhuǎn)化為“商業(yè)理解”。具體挖掘過程如下圖1所示:圖1傳統(tǒng)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘技術(shù)能有效提高軟件工程中數(shù)據(jù)處理工作的效率,并提高準(zhǔn)確性,減少失誤的出現(xiàn)。對于企業(yè)來說,數(shù)據(jù)挖掘技術(shù)能幫助企業(yè)全面提高業(yè)務(wù)數(shù)據(jù)的處理水平,為企業(yè)做出決策和工作計(jì)劃提供有效參考。一般的軟件工程應(yīng)用數(shù)據(jù)挖掘技術(shù)過程中,先針對要處理的商業(yè)問題進(jìn)行大量、真實(shí)的企業(yè)商業(yè)數(shù)據(jù)資料準(zhǔn)備,然后通過數(shù)學(xué)手段對商業(yè)數(shù)據(jù)進(jìn)行數(shù)字建模,更好的進(jìn)行數(shù)據(jù)理解。最后將需要處理的商業(yè)問題與建模結(jié)果相對比,得出數(shù)據(jù)評價(jià),從而得到處理商業(yè)問題的答案。因?yàn)閿?shù)字模型不受時(shí)間、空間等條件限制,且具有完整科學(xué)的數(shù)學(xué)理論作為基礎(chǔ),所以能保障商業(yè)數(shù)據(jù)處理的效率和正確性。為了保障數(shù)學(xué)建模的結(jié)果能應(yīng)用到實(shí)際工作當(dāng)中,在進(jìn)行數(shù)學(xué)建模之前,工作人員可以將數(shù)據(jù)進(jìn)行處理母的二次處理,提高數(shù)據(jù)結(jié)果的針對性和可行性。在我國大數(shù)據(jù)的背景下,一般的數(shù)據(jù)挖掘技術(shù)的流程更為復(fù)雜和全面,具體流程如下圖2所示:

2軟件工程應(yīng)用數(shù)據(jù)挖掘的基本作用

(1)增強(qiáng)數(shù)據(jù)信息理解。每個(gè)人對于一條信息都有不同的理解,如果通過人力來進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)理解,不僅消耗時(shí)間、增加成本,而且問題結(jié)果受個(gè)人主觀意識影響極大,不具備一定權(quán)威性。數(shù)據(jù)挖掘技術(shù)能很好的解決這一問題。數(shù)據(jù)挖掘技術(shù)在先進(jìn)的科學(xué)信息技術(shù)的作為基礎(chǔ)的條件上,針對不同數(shù)據(jù)分析目的,將數(shù)據(jù)進(jìn)行科學(xué)分類和目標(biāo)細(xì)化,從而提高數(shù)據(jù)結(jié)果的準(zhǔn)確性和權(quán)威性。在軟件工程應(yīng)用中,數(shù)據(jù)挖掘技術(shù)將采集到的廣泛、龐大的數(shù)據(jù)進(jìn)行資源整合,形成完整的查詢和管理體系。企業(yè)可以通過這樣的管理體系,方便快速的查詢到所需要的信息,增強(qiáng)對數(shù)據(jù)信息的理解。(2)提升數(shù)據(jù)處理質(zhì)量。隨著科學(xué)技術(shù)水平的不斷提高,數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)功能也越來越專業(yè)化,尤其是在數(shù)據(jù)運(yùn)算速度和準(zhǔn)確程度方面。數(shù)據(jù)挖掘技術(shù)能幫助企業(yè)進(jìn)行大規(guī)模的數(shù)據(jù)計(jì)算。在短時(shí)間內(nèi),數(shù)據(jù)挖掘技術(shù)能將混亂數(shù)據(jù)和無效數(shù)據(jù)進(jìn)行多次篩選和處理,保障數(shù)據(jù)處理的質(zhì)量。與傳統(tǒng)數(shù)據(jù)技術(shù)相比,數(shù)據(jù)挖掘技術(shù)在更大的程度能避免數(shù)據(jù)丟失,減少對企業(yè)的損失。(3)提高數(shù)據(jù)利用率。數(shù)據(jù)挖掘技術(shù)能幫助軟件工程企業(yè)提高數(shù)據(jù)利用率。針對混亂無序和看似無用的數(shù)據(jù)信息,數(shù)據(jù)挖掘技術(shù)從多個(gè)角度對數(shù)據(jù)重新進(jìn)行分類和整理,得出數(shù)據(jù)結(jié)果。企業(yè)可以將數(shù)據(jù)結(jié)果直接應(yīng)用到實(shí)際工作中,根據(jù)實(shí)踐效果選擇合適的數(shù)據(jù),提高數(shù)據(jù)的利用效率。這種方法使企業(yè)可以通過數(shù)據(jù)挖掘技術(shù)獲取更多的策略選擇,充分利用數(shù)據(jù)作用。其次,數(shù)據(jù)挖掘技術(shù)將抽象的企業(yè)數(shù)據(jù)變成可以理解的信息資源,這種轉(zhuǎn)換對企業(yè)數(shù)據(jù)分析及商業(yè)決策產(chǎn)生了極大的影響。不僅縮短了商業(yè)數(shù)據(jù)應(yīng)用的運(yùn)算時(shí)間,而且使數(shù)據(jù)變得更加真實(shí)、有效。

3數(shù)據(jù)挖掘在軟件工程中的實(shí)際應(yīng)用探討

(1)挖掘結(jié)構(gòu)。數(shù)據(jù)的挖掘結(jié)構(gòu)能在企業(yè)軟件運(yùn)行、軟件維護(hù)和軟件優(yōu)化中得到廣泛應(yīng)用。企業(yè)可以根據(jù)實(shí)際需要,進(jìn)行數(shù)據(jù)挖掘的代碼克隆,即將部分代碼進(jìn)行直接復(fù)制。需要注意的是,復(fù)制代碼的過程要符合軟件工程的規(guī)范和標(biāo)準(zhǔn)。在復(fù)制代碼的基礎(chǔ)上,企業(yè)可以對代碼流程進(jìn)行改進(jìn)和創(chuàng)新,完善系統(tǒng)維護(hù)和運(yùn)行。目前常見的克隆代碼的方法有結(jié)構(gòu)程序、度量程序、對比文本和標(biāo)識符比較等。根據(jù)實(shí)際需求可以采用不同的代碼克隆方式。(2)項(xiàng)目管理。在具體的數(shù)據(jù)挖掘技術(shù)應(yīng)用中,軟件工程企業(yè)可以針對組織關(guān)系和版本控制數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。組織關(guān)系數(shù)據(jù)雖然相對繁瑣,但有利于軟件工程企業(yè)進(jìn)行企業(yè)和項(xiàng)目的管理,梳理組織系統(tǒng)和組織管理,保障資源調(diào)配和應(yīng)用的系統(tǒng)性和有效性。而版本控制數(shù)據(jù)是指數(shù)據(jù)挖掘技術(shù)中對數(shù)據(jù)進(jìn)行控制和調(diào)整變化的數(shù)據(jù)部分。通過對這方面數(shù)據(jù)的應(yīng)用,能更好的控制企業(yè)信息,出現(xiàn)混亂的流程和問題時(shí)能及時(shí)調(diào)整,提高軟件運(yùn)行的穩(wěn)定性。根據(jù)這一特點(diǎn),企業(yè)還能將數(shù)據(jù)挖掘應(yīng)用到對問題進(jìn)行提前預(yù)警和及時(shí)解決的過程中去,全面提高項(xiàng)目管理質(zhì)量。(3)開發(fā)應(yīng)用。軟件工程的開發(fā)應(yīng)用是指針對不同項(xiàng)目目標(biāo),研發(fā)出符合不同用戶需求的創(chuàng)新軟件產(chǎn)品,是一個(gè)復(fù)雜、繁瑣且應(yīng)用廣泛的過程。這個(gè)過程中需要大量的項(xiàng)目數(shù)據(jù)和項(xiàng)目指標(biāo)作為依據(jù)。數(shù)據(jù)挖掘技術(shù)將大量的數(shù)據(jù)進(jìn)行整合、分類、傳遞和儲存后,輸出高質(zhì)量和高價(jià)值的數(shù)據(jù),能幫助縮短軟件開發(fā)時(shí)間,提高軟件處理效率。其次,軟件產(chǎn)品在設(shè)計(jì)與應(yīng)用過程中,要根據(jù)不同的客戶需求進(jìn)行產(chǎn)品功能劃分。(4)故障檢測。通過對軟件產(chǎn)品的執(zhí)行情況進(jìn)行監(jiān)控,數(shù)據(jù)挖掘技術(shù)能應(yīng)用到軟件工程產(chǎn)品故障檢測當(dāng)中。數(shù)據(jù)挖掘技術(shù)對出現(xiàn)問題的進(jìn)行分析和檢測后,幫助企業(yè)解決軟件工程故障,優(yōu)化產(chǎn)品結(jié)構(gòu)和流程,保障相關(guān)工作的正常進(jìn)行。除了軟件產(chǎn)品,數(shù)據(jù)挖掘技術(shù)還能對網(wǎng)絡(luò)客戶端軟件進(jìn)行故障檢測。通過對網(wǎng)絡(luò)客戶端軟件的實(shí)時(shí)記錄,幫助技術(shù)人員監(jiān)控網(wǎng)絡(luò)情況、解決軟件漏洞,及時(shí)更新軟件補(bǔ)丁。

4數(shù)據(jù)挖掘技術(shù)在軟件工程中的主要應(yīng)用方法

(1)關(guān)聯(lián)法。關(guān)聯(lián)法是指著重關(guān)注兩個(gè)事物之間內(nèi)在和外在聯(lián)系的研究方法。根據(jù)數(shù)據(jù)挖掘技術(shù),常被應(yīng)用到數(shù)據(jù)處理和數(shù)學(xué)采集當(dāng)中。關(guān)聯(lián)法的使用中要體現(xiàn)在相關(guān)關(guān)聯(lián)和有趣關(guān)聯(lián)的應(yīng)用。在實(shí)際應(yīng)用過程中,相關(guān)人員要注意發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)與軟件工程之間的關(guān)系,包括數(shù)據(jù)屬性中的支持度與置信度,通過關(guān)鍵指標(biāo)之間的關(guān)系幫助數(shù)據(jù)挖掘技術(shù)與軟件工程的融合。(2)分類法。軟件工程關(guān)于數(shù)據(jù)挖掘技術(shù)應(yīng)用的分類法就是對于可用于分類符號預(yù)測的分類,是一種具體的執(zhí)行動作。分類法在實(shí)際應(yīng)用過程中,要與相應(yīng)的分析基礎(chǔ)模型相結(jié)合,而且分析模型也要有相關(guān)應(yīng)用基礎(chǔ)。分析基礎(chǔ)模式也就是相對于分類法的建構(gòu)模型。目前,在軟件工程領(lǐng)域中,分類法的具體類型包括:決策樹法、K-最臨近分類法、貝葉斯法、神經(jīng)網(wǎng)絡(luò)分類法、支持向量機(jī)法等。其中決策樹中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝,因此要注意一下信息增益的計(jì)算公式,并深入理解它。其中的n代表有n個(gè)分類類別(比如假設(shè)是2類問題,那么n=2)。分別計(jì)算這2類樣本在總樣本中出現(xiàn)的概率p1和p2,這樣就可以計(jì)算出未選中屬性分枝前的信息熵。現(xiàn)在選中一個(gè)屬性xi用來進(jìn)行分枝,此時(shí)分枝規(guī)則是:如果xi=vx的話,將樣本分到樹的一個(gè)分支;如果不相等則進(jìn)入另一個(gè)分支。很顯然,分支中的樣本很有可能包括2個(gè)類別,分別計(jì)算這2個(gè)分支的熵H1和H2,計(jì)算出分枝后的總信息熵H’=p1H1+p2H2.,則此時(shí)的信息增益H=H-H’。以信息增益為原則,把所有的屬性都測試一邊,選擇一個(gè)使增益最大的屬性作為本次分枝屬性。決策樹的優(yōu)點(diǎn):計(jì)算量簡單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征;缺點(diǎn):容易過擬合(后續(xù)出現(xiàn)了隨機(jī)森林,減小了過擬合現(xiàn)象)。(3)聚類法。在數(shù)據(jù)挖掘技術(shù)中,聚類法是將數(shù)據(jù)對象根據(jù)相應(yīng)的要求和標(biāo)準(zhǔn),劃分成更加細(xì)致的不同種類和性質(zhì)的過程。聚類法的分類原則是,相同類型或性質(zhì)的信息數(shù)據(jù)之間必須仍然保持較高的相似程度,不同類型和性質(zhì)的信息數(shù)據(jù)在過程中也要使差異性不變。聚類法目前在信息技術(shù)和數(shù)據(jù)處理領(lǐng)域中得到廣泛利用。信息獨(dú)立分析特點(diǎn)幫助軟件工程進(jìn)行關(guān)于商品和運(yùn)行過程的欺詐檢測,有效保護(hù)運(yùn)行過程的安全性和有效性,提高信息結(jié)果反饋的準(zhǔn)確率。具體的數(shù)據(jù)挖掘算法如下圖3所示:除了上述的三種應(yīng)用方法外,還有粗糙集法、模糊集法、遺傳算法等。其中粗糙集法是一種針對數(shù)據(jù)中含義不清晰、條件不完備和目的不準(zhǔn)確的部分進(jìn)行綜合處理的方法。這種方法能幫助企業(yè)在信息挖掘過程中,使信息更加簡化、集中,有效建立數(shù)學(xué)模型。

5結(jié)語

數(shù)據(jù)挖掘技術(shù)在現(xiàn)代科技發(fā)展中發(fā)揮了重要作用。不僅能保障軟件工程企業(yè)的設(shè)備運(yùn)行的安全性和準(zhǔn)確性,還能促進(jìn)軟件產(chǎn)品的優(yōu)化進(jìn)程,幫助更好的為客戶服務(wù)。因此,企業(yè)可以在實(shí)際工作中用數(shù)據(jù)挖掘技術(shù)代替?zhèn)鹘y(tǒng)的信息處理技術(shù),憑借其優(yōu)異的數(shù)據(jù)處理能力和數(shù)據(jù)分析能力,降低企業(yè)科技研發(fā)成本和維護(hù)成本,保障企業(yè)的發(fā)展。

參考文獻(xiàn):

[1]張小軍,任帥,申丹丹.淺析4G環(huán)境下數(shù)據(jù)挖掘在移動通信網(wǎng)絡(luò)優(yōu)化中的運(yùn)用[J].電子技術(shù)與軟件工程,2014(08):208-209.

[2]李濤,曾春秋,周武柏,周綺鳳,鄭理.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(04):57-80.

[3]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)知識,2016(02):60-68.

[4]阮弘毅.軟件工程數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[J].數(shù)碼世界,2018(02):126.

[5]黃斌,許舒人,蒲衛(wèi).基于MapReduce的數(shù)據(jù)挖掘平臺設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,1(2):152-153.

作者:黃俊 單位:中國航發(fā)貴州紅林航空動力控制科技有限公司

相關(guān)熱門標(biāo)簽