公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)的應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)的應(yīng)用范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)的應(yīng)用

摘要:互聯(lián)網(wǎng)技術(shù)發(fā)展非常驚人,大量的數(shù)據(jù)產(chǎn)生。在云計(jì)算高速發(fā)展的今天,大數(shù)據(jù)結(jié)合數(shù)據(jù)庫(kù)集群技術(shù),提升了數(shù)據(jù)處理的效率。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫(kù)集群技術(shù);分布集群

一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用

目前,許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng),如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn),分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一,基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群,每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開(kāi)始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開(kāi)始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行,第一個(gè)過(guò)程是查找模板規(guī)則,第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中,分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性,它旨在增加獲得高支持模板的可能性。與沒(méi)有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應(yīng)用

在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào),描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開(kāi)始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個(gè)起始節(jié)點(diǎn)開(kāi)始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動(dòng),直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列,將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí),重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí),閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85,因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個(gè)集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過(guò)程,這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程,對(duì)初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過(guò)程,僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術(shù)的應(yīng)用

大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語(yǔ)言翻譯成一個(gè)低級(jí)的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會(huì)產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計(jì)算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語(yǔ)言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個(gè)良好的優(yōu)化代碼,有必要直接在低級(jí)匯編語(yǔ)言上編寫代碼。為了簡(jiǎn)化編寫程序的任務(wù),可以在某個(gè)處理器上使用面向代碼生成器。使用一個(gè)專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語(yǔ)言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級(jí)匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語(yǔ)言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計(jì)算中,當(dāng)兩個(gè)計(jì)算操作在不同的操作單元上執(zhí)行時(shí),才能在一個(gè)dsp核心的vliw命令中并行執(zhí)行兩個(gè)計(jì)算操作。根據(jù)運(yùn)算執(zhí)行單元的不同,計(jì)算運(yùn)算可分為op1和op2兩種類型。屬于不同組使得在一個(gè)命令中執(zhí)行兩個(gè)操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識(shí),標(biāo)記“2”分別表示第二種類型。如果兩個(gè)操作具有不同的類型并且沒(méi)有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過(guò)在一個(gè)核心中存在多個(gè)操作單元來(lái)保證的。在大數(shù)據(jù)計(jì)算和分析中,如果有足夠多的通用寄存器來(lái)執(zhí)行這兩個(gè)操作,并且它們可以并行執(zhí)行,代碼就會(huì)并行化,提升數(shù)據(jù)計(jì)算的效率。

四、結(jié)語(yǔ)

如今,計(jì)算機(jī)技術(shù)發(fā)展非常迅速,大數(shù)據(jù)得到廣泛應(yīng)用。在海量數(shù)據(jù)產(chǎn)生后,應(yīng)該結(jié)合數(shù)據(jù)庫(kù)管理相關(guān)技術(shù),提升數(shù)據(jù)管理的效率。

參考文獻(xiàn)

[1]胡世昆.分布式數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(01):153.

[2]賈鑫.探析分布式數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)中的應(yīng)用[J].計(jì)算機(jī)產(chǎn)品與流通,2017(12):3-4.

[3]陳雪.分布式數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)中的應(yīng)用[J].科技傳播,2016,8(12):108+120.

作者:袁霞 單位:廣安職業(yè)技術(shù)學(xué)院