公務(wù)員期刊網(wǎng) 精選范文 大數(shù)據(jù)技術(shù)范文

大數(shù)據(jù)技術(shù)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數(shù)據(jù)技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。

大數(shù)據(jù)技術(shù)

第1篇:大數(shù)據(jù)技術(shù)范文

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2015)04-0222-01

1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計,到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經(jīng)到來。一方面,云計算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。

如果運用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計,儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。

數(shù)據(jù)挖掘是借助IT手段對經(jīng)營決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數(shù)據(jù)集中識別有效的、可實用的信息,并運用這些信息做出決策。

2 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學(xué)科知識,并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現(xiàn)對數(shù)據(jù)挖掘技術(shù)進行如下幾種分類:

2.1 按挖掘的數(shù)據(jù)庫類型分類

利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因為數(shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應(yīng)用場景的不同來進行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關(guān)系型、對象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。

2.2 按挖掘的知識類型分類

這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測及離群點分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過對其概念描述和聚類分類、預(yù)測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。

2.3 按所用的技術(shù)類型分類

數(shù)據(jù)挖掘的時候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時用戶在對數(shù)據(jù)進行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。

2.4 按應(yīng)用分類

根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來進行分類,包括財經(jīng)行業(yè)、交通運輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應(yīng)用場景,此時就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。

3 數(shù)據(jù)挖掘中常用的方法

目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對這四種算法進行一一解釋說明。

遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機理發(fā)展而來,是一種隨機搜索的算法,利用仿生學(xué)的原理來對數(shù)據(jù)知識進行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點從而在數(shù)據(jù)挖掘中得到了應(yīng)用。

決策樹算法:在對模型的預(yù)測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。

粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準(zhǔn)確的知識進行類別同時進行類別刻畫。

神經(jīng)網(wǎng)絡(luò)算法:在對模型的預(yù)測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關(guān)重要,同時這種技術(shù)方法也是順應(yīng)當(dāng)今時代的潮流必須推廣使用的方法。同時,該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。

參考文獻

[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(01):146-169.

第2篇:大數(shù)據(jù)技術(shù)范文

關(guān)鍵詞:大數(shù)據(jù) Hadoop Spark Spark 流

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2015)09-0000-00

大數(shù)據(jù)遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),它以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務(wù)[1]。然而面對龐大的數(shù)據(jù)來獲得有價值的信息是一個巨大的挑戰(zhàn)。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應(yīng)用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學(xué)習(xí)和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術(shù)較好地解決了這些問題。

1 Spark技術(shù)架構(gòu)

1.1 Spark設(shè)計思想

Spark是一種基于HDFS的并行計算架構(gòu)。主要思想是通過一種新的作業(yè)和數(shù)據(jù)容錯方式來減少磁盤和網(wǎng)絡(luò)的I/O開銷 其核心技術(shù)是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲計算機中的只讀數(shù)據(jù)集合,這個數(shù)據(jù)集合可以在分區(qū)對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質(zhì)中,相反,一個RDD的處理進程包含了如何從可靠的數(shù)據(jù)存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務(wù)節(jié)點失敗,總可以進行重建[3]。

1.2 Spark系統(tǒng)架構(gòu)

與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內(nèi)存計算模型,使得用戶可以通過編程將數(shù)據(jù)讀取到集群的內(nèi)存當(dāng)中,這樣可以快速在內(nèi)存中對數(shù)據(jù)集進行多次迭代,支持復(fù)雜的數(shù)據(jù)挖掘算法和圖計算算法使用Scala語言開發(fā),以Mesos作為底層的調(diào)度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結(jié)果寫回HDFS或S3,是Hadoop和Amazon云計算生態(tài)圈的一部分,項目的core部分代碼只有63個Scala文件,執(zhí)行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關(guān)系型數(shù)據(jù)庫系統(tǒng)(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。

2 Spark運行模式

2.1 Spark任務(wù)調(diào)度方式

Spark的運行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調(diào)度驅(qū)動程序,負(fù)責(zé)應(yīng)用程序的資源分配,期間分別創(chuàng)建作業(yè)調(diào)度和任務(wù)調(diào)度兩級模塊。作業(yè)調(diào)度模塊是基于階段的高層調(diào)度模塊,每個Spark 作業(yè)計算通常有多個階段,每個階段分解為一組任務(wù)集,以任務(wù)組的形式提交給底層任務(wù)調(diào)度模塊來具體執(zhí)行實際計算任務(wù),任務(wù)調(diào)度模塊負(fù)責(zé)啟動實際任務(wù),監(jiān)控和匯報任務(wù)運行情況。如果分配任務(wù)成功,SparkContext會將應(yīng)用程序代碼給指定的執(zhí)行者完成一個或多個任務(wù)[4]。

2.2 Spark運行模式類型

Spark的運行模式,歸納起來有六種。

(1)Local[M]。該模式使用 LocalBackend 調(diào)用TaskSchedulerImpl 實現(xiàn)。LocalBackend 響應(yīng)Scheduler的receiveOffers請求,根據(jù)可用CPU Core的設(shè)定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務(wù)列表。

(2)Standalone。該模式使用SparkDeploySchedulerBackend調(diào)用TaskSchedulerImpl來實現(xiàn) ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現(xiàn)的粗粒度的資源調(diào)度類,在整個Spark Job運行期間,監(jiān)聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態(tài)更新,響應(yīng)Scheduler請求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務(wù)流程調(diào)度。

(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現(xiàn)的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。

(4)Mesos。該模式主要根據(jù)顆粒度大小來區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現(xiàn)MScheduler接口,注冊到Mesos資源調(diào)度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務(wù)交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現(xiàn)了MScheduler接口,完成Mesos資源調(diào)度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執(zhí)行命令來啟動MesosExecutorBackend,直接執(zhí)行對應(yīng)的任務(wù)。

(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應(yīng)用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據(jù)Client傳遞過來的參數(shù),Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務(wù)調(diào)度流程跟其它Cluster模式類似,不再述說。

(6)Yarn-client。該模式的SparkContext運行在本地,適用于應(yīng)用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調(diào)用客戶端包遠程啟動一個作業(yè)作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負(fù)責(zé)啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數(shù)據(jù)傳遞,后面的任務(wù)調(diào)度流程跟其它模式類似。

3 Spark應(yīng)用現(xiàn)狀及發(fā)展

目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機器學(xué)習(xí)、NoSQL查詢等方面的技術(shù),并且是Apache頂級項目。雖然Spark對內(nèi)存要求較高,推出時間較短未經(jīng)過實踐考驗,但伴隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐步成熟,繼Hadoop之后,Spark技術(shù)以集大成的無可比擬的優(yōu)勢,發(fā)展迅速,將成為替代Hadoop的下一代云計算、大數(shù)據(jù)核心技術(shù)??梢灶A(yù)計2015年下半年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。

參考文獻

[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.

[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.

[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.

[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.

第3篇:大數(shù)據(jù)技術(shù)范文

關(guān)鍵詞:大數(shù)據(jù)時代;數(shù)據(jù)挖掘技術(shù);應(yīng)用

大數(shù)據(jù)是對全球的數(shù)據(jù)量較大的一個概括,且每年的數(shù)據(jù)增長速度較快。而數(shù)據(jù)挖掘,主要是從多種模糊而又隨機、大量而又復(fù)雜且不規(guī)則的數(shù)據(jù)中,獲得有用的信息知識,從數(shù)據(jù)庫中抽絲剝繭、轉(zhuǎn)換分析,從而掌握其潛在價值與規(guī)律。所以大數(shù)據(jù)時代下的數(shù)據(jù)處理技術(shù)要求更高,要想確保數(shù)據(jù)處理成效得到提升,就必須切實加強數(shù)據(jù)挖掘技術(shù)教學(xué)工作的開展,才能更好地促進數(shù)據(jù)處理職能的轉(zhuǎn)變,提高數(shù)據(jù)處理效率,優(yōu)化學(xué)生的學(xué)習(xí)成效。以下就大數(shù)據(jù)時代下的數(shù)據(jù)挖掘技術(shù)教學(xué)做出如下分析。

1大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)教學(xué)方法分析

數(shù)據(jù)挖掘的過程實際就是對數(shù)據(jù)進行分析和處理,所以其基礎(chǔ)就在于數(shù)據(jù)的分析方法。要想確保分析方法的科學(xué)性,就必須確保所采用算法的科學(xué)性和可靠性,獲取數(shù)據(jù)潛在規(guī)律,并采取多元化的分析方法促進問題的解決和優(yōu)化。以下就幾種常見的數(shù)據(jù)分析教學(xué)方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數(shù)據(jù)信息予以集中,并對集中后的數(shù)據(jù)實施分類整理和編輯處理,從而確保所形成的數(shù)據(jù)源具有特征一致、表現(xiàn)相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數(shù)據(jù)信息處理。二是關(guān)聯(lián)法,由于不同數(shù)據(jù)間存在的關(guān)聯(lián)性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預(yù)先結(jié)合信息關(guān)聯(lián)的表現(xiàn),對數(shù)據(jù)關(guān)聯(lián)管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務(wù)較為復(fù)雜的信息處理工作之中。三是特征法,由于數(shù)據(jù)資源的應(yīng)用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術(shù),將具有相同特征的數(shù)據(jù)進行集中。例如采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)時,主要是對大批量復(fù)雜的數(shù)據(jù)分析,對非常復(fù)雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結(jié)合生物進化的原理,對信息數(shù)據(jù)的成長過程進行虛擬和假設(shè),從而組建出半虛擬、半真實的信息資源。再如可視化技術(shù)則是為數(shù)據(jù)挖掘提供輔助,采取多種方式對數(shù)據(jù)的挖掘進行指導(dǎo)和表達[1]。

2大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)教學(xué)要點的分析

2.1數(shù)據(jù)挖掘技術(shù)流程分析

在數(shù)據(jù)挖掘教學(xué)過程中,其流程主要是以下幾點:首先做好數(shù)據(jù)準(zhǔn)備工作,主要是在挖掘數(shù)據(jù)之前,就引導(dǎo)學(xué)生對目標(biāo)數(shù)據(jù)進行準(zhǔn)確的定位,在尋找和挖掘數(shù)據(jù)之前,必須知道所需數(shù)據(jù)類型,才能避免數(shù)據(jù)挖掘的盲目性。在數(shù)據(jù)準(zhǔn)備時,應(yīng)根據(jù)系統(tǒng)的提示進行操作,在數(shù)據(jù)庫中輸入檢索條件和目標(biāo),對數(shù)據(jù)信息資源進行分類和清理,以及編輯和預(yù)處理。其次是在數(shù)據(jù)挖掘過程中,由于目標(biāo)數(shù)據(jù)信息已經(jīng)被預(yù)處理,所以就需要在挖掘處理過程中將其高效正確的應(yīng)用到管理機制之中,因而數(shù)據(jù)挖掘的過程十分重要,所以必須加強對其的處理。例如在數(shù)據(jù)挖掘中,引導(dǎo)學(xué)生結(jié)合數(shù)據(jù)挖掘目標(biāo)要求,針對性的選取科學(xué)而又合適的計算和分析方法,對數(shù)據(jù)信息特征與應(yīng)用價值等進行尋找和歸納。當(dāng)然,也可以結(jié)合程序應(yīng)用的需要,對數(shù)據(jù)區(qū)域進行固定,并在固定的數(shù)據(jù)區(qū)域內(nèi)分類的挖掘數(shù)據(jù),從而得到更具深度和內(nèi)涵以及價值的數(shù)據(jù)信息資源,并就挖掘到的數(shù)據(jù)結(jié)果進行分析和解釋,從結(jié)果中將具有使用價值和意義的規(guī)律進行提取,并還原成便于理解的數(shù)據(jù)語言。最后是切實加強管理和計算等專業(yè)知識的應(yīng)用,將數(shù)據(jù)挖掘技術(shù)實施中進行的總結(jié)和提取所獲得的數(shù)據(jù)信息與評估結(jié)果在現(xiàn)實之中應(yīng)用,從而對某個思想、決策是否正確和科學(xué)進行判斷,最終體現(xiàn)出數(shù)據(jù)挖掘及時的應(yīng)用價值,在激發(fā)學(xué)生學(xué)習(xí)興趣的同時促進教學(xué)成效的提升。

2.2挖掘后的數(shù)據(jù)信息資源分析

數(shù)據(jù)信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術(shù)環(huán)節(jié)下的數(shù)據(jù)挖掘技術(shù)隨著限定條件的變化,而將數(shù)據(jù)挖掘信息應(yīng)用于技術(shù)管理和決策管理之中,從而更好地彰顯數(shù)據(jù)在經(jīng)濟活動中的物質(zhì)性質(zhì)與價值變化趨勢,并結(jié)合數(shù)據(jù)變化特點和具體的表現(xiàn)規(guī)律,從而將數(shù)據(jù)信息的基本要素、質(zhì)量特點、管理要求等展示出來,所以其表現(xiàn)的形式十分豐富。因而在數(shù)據(jù)挖掘之后的信息在職能范圍和表現(xiàn)形式方式均得到了豐富和拓展,而這也在一定程度上體現(xiàn)了網(wǎng)絡(luò)擬定目標(biāo)服務(wù)具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的創(chuàng)新和發(fā)展,從而更好地滿足當(dāng)前大數(shù)據(jù)時代對信息進行數(shù)據(jù)化的處理,并對不同種類業(yè)務(wù)進行整合和優(yōu)化,從而促進數(shù)據(jù)挖掘技術(shù)服務(wù)的一體化水平。

2.3大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術(shù)的應(yīng)用必須注重信息失真的控制

數(shù)據(jù)挖掘技術(shù)的信息主要是源于大數(shù)據(jù)和社會,所以在當(dāng)前數(shù)據(jù)挖掘技術(shù)需求不斷加大的今天,為了更好地促進所挖掘數(shù)據(jù)信息的真實性,促進其個性化職能的發(fā)揮,必須在大數(shù)據(jù)背景下注重信息失真的控制,切實做好數(shù)據(jù)挖掘技術(shù)管理的各項工作。這就需要引導(dǎo)學(xué)生考慮如何確保數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)背景下的職能得到有效的發(fā)揮,盡可能地促進數(shù)據(jù)挖掘技術(shù)信息資源的升級和轉(zhuǎn)型,以大數(shù)據(jù)背景為載體,促進整個業(yè)務(wù)和技術(shù)操作流程的一體化,從而更好地將所有數(shù)據(jù)資源的消耗和變化以及管理的科學(xué)性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數(shù)據(jù)資源的消耗效益進行評價,最終促進業(yè)務(wù)流程的優(yōu)化,并結(jié)合大數(shù)據(jù)背景對數(shù)據(jù)挖掘技術(shù)的職能進行拓展,促進其外部信息與內(nèi)部信息的合作,對數(shù)據(jù)挖掘技術(shù)信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。

3數(shù)據(jù)挖掘技術(shù)在不同行業(yè)中的應(yīng)用實踐

學(xué)習(xí)的最終目的是為了更好的應(yīng)用,隨著時代的發(fā)展,數(shù)據(jù)挖掘技術(shù)將在越來越多的行業(yè)中得以應(yīng)用。這就需要高校教師引導(dǎo)學(xué)生結(jié)合實際需要強化對其的應(yīng)用。例如在市場營銷行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用這主要是因為數(shù)據(jù)挖掘能有效的解析消費者的消費行為和消費習(xí)慣,從而利用其將銷售方式改進和優(yōu)化,最終促進產(chǎn)品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,其目的就在于對產(chǎn)品質(zhì)量進行檢驗。引導(dǎo)學(xué)生深入某企業(yè)實際,對所制造產(chǎn)品的數(shù)據(jù)進行研究,從而找出其存在的規(guī)則,并對其生產(chǎn)流程進行分析之后,對其生產(chǎn)的過程進行分析,從而更好地對生產(chǎn)質(zhì)量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產(chǎn)數(shù)據(jù)進行篩選,從而得出有用的數(shù)據(jù)和知識,再采取決策樹算法進行統(tǒng)計決策,并從中選取正確決策,從而更好地對產(chǎn)品在市場中的流行程度,決定生產(chǎn)和轉(zhuǎn)型的方向。再如在教育行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,主要是為了更好地對學(xué)習(xí)情況、教學(xué)評估和心里動向等數(shù)據(jù)進行分類和篩選,從而為學(xué)校的教學(xué)改革提供參考和支持。比如為了更好地對教學(xué)質(zhì)量進行評估,就需要對教學(xué)質(zhì)量有關(guān)項目進行整合與存儲,從而更好地促進其對教學(xué)質(zhì)量的評估,而這一過程中,就需要采取數(shù)據(jù)挖掘技術(shù)對有關(guān)教學(xué)項目中的數(shù)據(jù)進行挖掘和處理,促進其應(yīng)用成效的提升[3]。

4結(jié)語

綜上所述,在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各行各業(yè)中得到了廣泛的應(yīng)用,所以為了更好地滿足應(yīng)用的需要,在實際教學(xué)工作中,我們必須引導(dǎo)學(xué)生切實加強對其特點的分析,并結(jié)合實際需要,切實注重數(shù)據(jù)挖掘技術(shù)的應(yīng)用,才能促進其應(yīng)用成效的提升,最終達到學(xué)以致用的目的。

作者:何智文 鄧倫丹 單位:南昌大學(xué)科學(xué)技術(shù)學(xué)院

參考文獻:

[1]李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報,2014,03:45-47.

第4篇:大數(shù)據(jù)技術(shù)范文

關(guān)鍵詞:大數(shù)據(jù) ORACLE 壓縮技術(shù)

中圖分類號:TP3 文獻標(biāo)識碼:A 文章編號:1671-7597(2013)11-0000-00

近兩年來,大數(shù)據(jù)(big data)概念越來越引人矚目,它被用來描述和定義在當(dāng)前信息爆炸時代所產(chǎn)生的海量數(shù)據(jù)和與其相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)時代對人類對海量數(shù)據(jù)的駕馭能力提出前所未有的挑戰(zhàn)。如何管理這些迅速膨脹的海量數(shù)據(jù),也成為每個數(shù)據(jù)庫廠商必須面對的問題。本文介紹的是ORACLE的表/表空間壓縮技術(shù),這是ORACLE數(shù)據(jù)庫在大數(shù)據(jù)環(huán)境下極為實用的一個屬性。隨著企業(yè)數(shù)據(jù)的爆炸性增長,很多決策支持系統(tǒng)和數(shù)據(jù)倉庫對磁盤空間的需求也在急劇增長。目前很多大中型企業(yè)里,TB級甚至PB級的數(shù)據(jù)倉庫已經(jīng)越來越普遍。Oracle從9iR2 開始,提供一種表/表空間壓縮技術(shù),用以減少磁盤開銷,節(jié)約存儲空間,并在某些情況下獲得查詢性能的提高。

1 Oracle的壓縮技術(shù)

Oracle的壓縮技術(shù)實際上從8i就出現(xiàn)了,提供簡單的索引壓縮;到9ir2時,可以進行表級別的壓縮,但只能對批量裝載操作(比如直接路徑裝載,CTAS等)涉及的數(shù)據(jù)進行壓縮,普通的DML操作的數(shù)據(jù)則無法壓縮。Oracle 10g增加了對LOB的壓縮,但并未解決壓縮的寫操作問題;從Oracle 11g開始,使用了"基于數(shù)據(jù)塊的批次壓縮技術(shù)",也就是說數(shù)據(jù)的壓縮并不在執(zhí)行DML語句時即時發(fā)生,當(dāng)一個數(shù)據(jù)塊開始寫入數(shù)據(jù)時,插入的數(shù)據(jù)并不被立即壓縮,這個時候?qū)π阅苁菦]有影響的,對數(shù)據(jù)塊的壓縮動作發(fā)生在數(shù)據(jù)塊即將被寫滿時,這樣可以保證大部分DML語句的效率,從而真正支持了各種DML語句也能夠用于OLTP環(huán)境(insert,update等)。

2 常用的壓縮命令

下面列舉一些常用的壓縮命令。

2.1 表級別的使用

可以在建表時指定壓縮屬性,也可修改已有表的壓縮屬性。

create table tab1 compress as select * from user_tables;

create table tab2(cust_idnumber,cust_name varchar2(200))compress;

alter table tab3 move compress;-- 修改現(xiàn)有表為壓縮表

alter table tab3 move nocompress;-- 解壓已經(jīng)壓縮的表

如果要對分區(qū)表的不同分區(qū)設(shè)置壓縮屬性,我們可以在創(chuàng)建分區(qū)表時設(shè)置,也可等到需要對某個分區(qū)進行壓縮時再設(shè)置。

Create table test(cust_id number,cust_name varchar2(200)) partition by range(cust_id)

partition P1 values less than (10000) compress,

partition P2 values less than (20000) compress,

partition PMAX values less than (maxvalue) );--

該命令表示P1和P2為壓縮屬性,PMAX則沒有設(shè)置壓縮屬性。

Alter table test modify partition PMAX compress;--

該命令表示將PMAX分區(qū)設(shè)置為壓縮屬性。

2.2 表空間級別的使用

可以在建表空間時指定壓縮屬性,也可將現(xiàn)有表空間轉(zhuǎn)換為壓縮表空間。和其他存儲參數(shù)一樣,COMPRESS屬性也具備一些繼承特性。當(dāng)在一個COMPRESS屬性的表空間中創(chuàng)建一個新表時,這個新表從該表空間繼承COMPRESS屬性。需要注意的是,該屬性只針對在該表空間建立的表,通過"alter table tab1 move tablespace test"方式移到該表空間的普通表和在該表空間用默認(rèn)方式建立的索引,都不具備壓縮屬性。

create tablespace ETL datafile '/oracle/data03/oradata/stkhxf/test01.dbf' SIZE 500M default compress;--創(chuàng)建表壓縮空間

alter tablespace ETL default compress;-- 將非壓縮表空間轉(zhuǎn)換為壓縮表空間

alter tablespace ETL default nocompress;--取消表空間的壓縮

2.3 索引的使用

除了表可以壓縮之外,索引也同樣可以壓縮,當(dāng)索引鍵值的重復(fù)率很高時,可以考慮壓縮索引。注意,如果是主鍵索引或惟一約束索引,則無需壓縮。

我們可以在建索引時進行指定:create index IDX_1 on tset(cust_id)compress.

也可以將現(xiàn)有索引轉(zhuǎn)換為壓縮屬性:alter index IDX_2 rebuild compress.

2.4 通過數(shù)據(jù)字典查看對象是否被壓縮

select owner,table_name,compression from dba_tables ;--查看表

select table_owner,table_name,partition_name,compression from dba_tab_partitions; --查看分區(qū)表

select owner,tablespace_name,def_tab_compression from dba_tablespaces;--查看表空間

select owner,index_name,compression from dba_indexes; --查看索引

大部分情況下,使用壓縮技術(shù)對數(shù)據(jù)庫性能提升是有利的。Orecle采用智能算法的壓縮技術(shù)盡量降低寫操作的負(fù)載,被壓縮的數(shù)據(jù)可以存貯在更少的數(shù)據(jù)塊中,這樣就降低了磁盤空間使用。對一個壓縮屬性的表或索引的全表掃描和索引區(qū)間掃描所需要讀取的數(shù)據(jù)塊更少,減少了磁盤IO,查詢可以更快完成。其次,由于需要處理的數(shù)據(jù)塊減少,CPU搜索和處理數(shù)據(jù)塊的時間會降低,同時需要讀入內(nèi)存的數(shù)據(jù)塊也減少了,內(nèi)存的資源消耗也隨之降低。再次,由于數(shù)據(jù)壓縮和解壓是Oracle內(nèi)部的行為,外部網(wǎng)絡(luò)可以僅傳輸被壓縮的數(shù)據(jù)塊,這樣也有效降低了網(wǎng)絡(luò)負(fù)載。

3 結(jié)束語

從Oracle11g開始,沒有什么是不可壓縮的。Oracle數(shù)據(jù)庫提供的高級壓縮技術(shù)可以壓縮所有類型的數(shù)據(jù)--無論是規(guī)范的結(jié)構(gòu)化數(shù)據(jù)(數(shù)字、字符)、非結(jié)構(gòu)化數(shù)據(jù)(文檔、電子表格、XML 和其他文件)還是備份數(shù)據(jù)。不僅降低了所有數(shù)據(jù)類型的磁盤空間需求,還提高了應(yīng)用程序性能,增強了內(nèi)存和網(wǎng)絡(luò)效率。在這個大數(shù)據(jù)時代,對使用Oracle數(shù)據(jù)庫的企業(yè)的DBA和開發(fā)人員來說,了解并掌握Oracle針對海量數(shù)據(jù)的數(shù)據(jù)壓縮技術(shù),是一件極其迫切而重要的需求。

第5篇:大數(shù)據(jù)技術(shù)范文

賞花燈是元宵節(jié)的重要習(xí)俗。游人如織的燈會現(xiàn)場哪個燈最受歡迎?人流量太大會不會影響市民賞燈拍照?這些問題在今年的貴陽市觀山湖燈會上都得以輕松解決。貴州移動創(chuàng)新運用大數(shù)據(jù)技術(shù)導(dǎo)航,引導(dǎo)廣大市民科學(xué)安排觀燈路線,輕松賞燈。

面對噴薄而來的大數(shù)據(jù)發(fā)展浪潮,貴州移動努力思考如何抓住大數(shù)據(jù)帶來的機遇,讓大數(shù)據(jù)技術(shù)為“我”所用。如今,貴州移動已與大數(shù)據(jù)“激情相擁”,迸發(fā)火花。

一方風(fēng)生水起的熱土

2014年3月1日,在北京召開的“貴州?北京大數(shù)據(jù)產(chǎn)業(yè)發(fā)展推介會”上,貴州向世界發(fā)聲――憑借獨特的環(huán)境和資源優(yōu)勢,打造具有戰(zhàn)略地位的國家西部大數(shù)據(jù)聚集區(qū)和國家云計算產(chǎn)業(yè)的高地。

貴州發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的信心和魄力成就了不一樣的“貴州速度”,這一點與“快人一步”引領(lǐng)行業(yè)發(fā)展的中國移動高度契合。中國移動作為全球最大的基礎(chǔ)電信運營商,擁有骨干網(wǎng)絡(luò)和國際帶寬出口,具備雄厚的資金儲備及強大的基礎(chǔ)設(shè)施建設(shè)能力,在IDC數(shù)據(jù)中心領(lǐng)域建設(shè)上擁有先發(fā)優(yōu)勢。中國移動將IDC數(shù)據(jù)中心作為解決大數(shù)據(jù)領(lǐng)域中“數(shù)據(jù)放哪兒”這個大難題的重要途徑,對IDC數(shù)據(jù)中心的分布有著完整的戰(zhàn)略規(guī)劃。

在貴州境內(nèi),中國移動自2007年開始建設(shè)數(shù)據(jù)中心以來,先后在貴州金陽(現(xiàn)貴陽市觀山湖區(qū))、貴州花溪和貴州貴安分別建設(shè)三個數(shù)據(jù)中心節(jié)點,形成了以金陽數(shù)據(jù)中心、花溪數(shù)據(jù)中心和中國移動(貴州)大數(shù)據(jù)中心(即貴安數(shù)據(jù)中心)為核心的鏈狀布局,進一步強化了數(shù)據(jù)的安全與穩(wěn)定性。

其中,2015年底投產(chǎn)的中國移動(貴州)大數(shù)據(jù)中心投資超過20億元,占地約275畝,機房有效面積19萬平方米,可實現(xiàn)裝機容量2.1萬架,工程分三期進行。目前,一期工程已經(jīng)基本完工,4.6萬平米(約6個半標(biāo)準(zhǔn)足球場大?。┭b機容量3000架,陸續(xù)有國家部委、省內(nèi)廳局、大型移動互聯(lián)網(wǎng)企業(yè)等單位入駐或準(zhǔn)備入駐。

三場華麗驚艷的亮相

2015年,中國移動(貴州)大數(shù)據(jù)中心全面入駐貴州貴安新區(qū),在貴州省政府的統(tǒng)一組織下,相繼赴北京、深圳、上海等地進行招商推介?!罢鸷?!”參觀了中國移動(貴州)大數(shù)據(jù)中心展區(qū)后,眾多企業(yè)“大佬”紛紛發(fā)出感嘆并給予極高評價。

中國移動(貴州)大數(shù)據(jù)中心憑借更優(yōu)質(zhì)的網(wǎng)絡(luò)、更周到的服務(wù)、更安全的保障、更專業(yè)的團隊、更豐富的產(chǎn)品、更海量的用戶和更低廉的成本七大優(yōu)勢在推介會上驚艷全場。該中心以國際一流的Tire4為標(biāo)準(zhǔn),以規(guī)?;?、集約化、標(biāo)準(zhǔn)化和綠色節(jié)能環(huán)保的建設(shè)運營理念,為企業(yè)提供IDC存儲、云計算等7大類服務(wù),并提供現(xiàn)代化的辦公附屬樓,監(jiān)控調(diào)度、10000O的倉儲中心等完善的配套服務(wù),是立足西南、輻射全國、面向全球的新一代數(shù)據(jù)中心。

根據(jù)客戶對機房環(huán)境的不同要求,中國移動(貴州)大數(shù)據(jù)中心可為客戶提供三重尊享定制化服務(wù):整體機樓級定制服務(wù);專用機房級定制服務(wù);機柜級定制服務(wù)。專屬團隊全程監(jiān)控,提供7X24小時售前、售中、售后的殿堂級服務(wù)。以歷年國家安全考核中始終保持第一的信心和信譽,提供高性能、高穩(wěn)定、高可靠的信息安全保護。

決定大數(shù)據(jù)中心運營成本和服務(wù)價格的關(guān)鍵因素在于其能耗。不滿足于地緣環(huán)境帶來的低能耗優(yōu)勢,中國移動(貴州)大數(shù)據(jù)中心在節(jié)能技術(shù)上煞費苦心,勇敢挑戰(zhàn)1.3及以下的PUE(數(shù)據(jù)中心總設(shè)備能耗)值。在貴州,超過95%的時間,室外常溫水即可滿足數(shù)據(jù)中心機房設(shè)備降溫,不需再額外輔助降溫。中國移動(貴州)大數(shù)據(jù)中心采用水循環(huán)散熱模式,將冷媒帶出的熱量,通過熱交換管和室外低溫水池進行熱交換,以達到散熱目的,極大地降低了數(shù)據(jù)中心運營成本。

在推介會現(xiàn)場,中國移動貴州公司總經(jīng)理羋大偉剛分析完8億客戶資源可能產(chǎn)生的經(jīng)濟價值,臺下的眾多企業(yè)負(fù)責(zé)人便“騷動”起來,“大數(shù)據(jù)來了,我們的轉(zhuǎn)型不能再等了”。

云計算實現(xiàn)大數(shù)據(jù)導(dǎo)航

2009年起,貴州移動就對云計算進行探索,建設(shè)并運營了貴州省內(nèi)第一個公有云,由此開始面向省內(nèi)外各類客戶,在主機托管、云服務(wù)和大數(shù)據(jù)分析三個層面開展與大數(shù)據(jù)相關(guān)的業(yè)務(wù)和合作,先后在“互聯(lián)網(wǎng)+健康”“互聯(lián)網(wǎng)+教育”“互聯(lián)網(wǎng)+智慧園區(qū)”“互聯(lián)網(wǎng)+智慧媒體”“互聯(lián)網(wǎng)+金融”等領(lǐng)域取得重大突破和成績,成為回答大數(shù)據(jù)是“什么”和“干什么”的成功案例。

貴州移動“互聯(lián)網(wǎng)+智慧園區(qū)”立足于對區(qū)域大數(shù)據(jù)的挖掘,研發(fā)區(qū)域人群流動熱力圖、商業(yè)最優(yōu)選址模型、國際(國內(nèi))流動性分析,旅游景區(qū)人群分析等應(yīng)用。通過熱力圖,可以在最短時間內(nèi),以最簡單的方式,發(fā)現(xiàn)區(qū)域人群密度的變化情況,甚至可以知道人群遷移路線,有效預(yù)測未來一段時間區(qū)域人群的變化,甚至可以發(fā)現(xiàn)突然出現(xiàn)的高密人群聚集點。

在今年的貴陽市觀山湖燈會上,貴州移動結(jié)合燈會現(xiàn)場情況采用了大數(shù)據(jù)人群熱力地圖抓取技術(shù),抓取燈會現(xiàn)場周邊移動基站的現(xiàn)場手機信號源,通過精準(zhǔn)計算,實時將燈會現(xiàn)場總?cè)藬?shù),各出入口人數(shù),甚至每一盞燈前的觀燈人數(shù)精準(zhǔn)的統(tǒng)計反映到監(jiān)控平臺。用戶可以通過客戶端及時掌握現(xiàn)場情況并合理安排自己的賞燈路線。燈會人流量監(jiān)控系統(tǒng)是貴州移動運用現(xiàn)有的數(shù)據(jù)資源,提供的一個集數(shù)據(jù)采集、處理、展示于一體的人流量監(jiān)控及預(yù)警服務(wù)平臺,這些數(shù)據(jù)不僅為游客提供了及時的向?qū)?,還為管理部門應(yīng)對突發(fā)事件及游客引流,提供了全方位的信息支撐。

“大數(shù)據(jù)”服務(wù)惠民生

作為發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的先鋒,在“大數(shù)據(jù)”惠民方面,貴州移動做了許多積極的探索。

在新農(nóng)合信息化項目啟動前,貴州超過30%的縣、35%的鄉(xiāng)(鎮(zhèn))、近70%以上村醫(yī)療單位的基本醫(yī)療管理和新農(nóng)合報補管理還停留在紙面作業(yè)階段。為此,貴州移動聯(lián)合貴州省衛(wèi)計委共同開發(fā)了貴州新型農(nóng)村合作醫(yī)療信息系統(tǒng),目前已經(jīng)穩(wěn)定運行超過6年,為全省3000多萬農(nóng)民、5000多個醫(yī)療機構(gòu)和網(wǎng)點積累了疾病診療信息、用藥信息、報補信息等數(shù)以億計的數(shù)據(jù)。實現(xiàn)了貴州山區(qū)居民便捷就診、即時報補、異地報補,實現(xiàn)了農(nóng)合資金的信息化監(jiān)管,解決了精確扶貧(醫(yī)療)、智能審核、一鍵清算等難題。隨著數(shù)據(jù)的不斷積累,貴州移動可以通過貴州新型農(nóng)村合作醫(yī)療信息系統(tǒng)了解到在特定條件下,區(qū)域疾病的變化趨勢,為衛(wèi)生管理部門對醫(yī)藥衛(wèi)生資源的配比決策提供最有效的支持。

已經(jīng)讀五年級的吳江和妹妹跟著年邁的爺爺奶奶一起生活,父母在深圳打工,每隔兩年才回家過一次年。“看到同學(xué)和爸爸媽媽在一起時就特別的羨慕,也覺得很孤單?,F(xiàn)在有大數(shù)據(jù)每天將收集到的信息通過網(wǎng)絡(luò)視頻反饋給他們,拉近了和爸爸媽媽的距離,感覺他們就在身邊?!边@是貴州移動將留守兒童問題作為“互聯(lián)網(wǎng)+教育”的實踐方向,取得以“留守兒童大數(shù)據(jù)關(guān)愛系統(tǒng)”為代表的實踐成果。

安全監(jiān)管用之有道

貴州移動設(shè)立了專職的“網(wǎng)絡(luò)和信息安全中心”,并連續(xù)幾年在國家相關(guān)部門的信息安全檢查和評比中獲得好成績。

以貴州移動大數(shù)據(jù)服務(wù)2016年貴陽市觀山湖元宵燈會為例,從數(shù)據(jù)和信息的安全保障要求入手,對本次燈會大數(shù)據(jù)信息進行了嚴(yán)格的脫敏數(shù)據(jù)稽核,剔出可能涉及的個人信息以及其他與本次燈會無關(guān)信息。簡言之,所采集的數(shù)據(jù)是數(shù)據(jù)的聚合,不是個體的隱私數(shù)據(jù),這些聚合的數(shù)據(jù)只服務(wù)于燈會,而不會用作他用。

第6篇:大數(shù)據(jù)技術(shù)范文

一、大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)是一種新型技術(shù),其應(yīng)用領(lǐng)域比價廣泛,并且取得一定的成績。大數(shù)據(jù)技術(shù)在實際的應(yīng)用過程中,根據(jù)各個領(lǐng)域的需要,大數(shù)據(jù)技術(shù)也不斷在更新,以適合現(xiàn)代社會發(fā)展的需要。大數(shù)據(jù)技術(shù)主要用數(shù)據(jù)挖掘、數(shù)據(jù)分析領(lǐng)域中,能對數(shù)據(jù)進行科學(xué)整理、處理、提高數(shù)據(jù)的利用效率,互聯(lián)網(wǎng)+時代,各個領(lǐng)域工作基本都離不開網(wǎng)絡(luò),網(wǎng)絡(luò)時代數(shù)據(jù)量增多,如何科學(xué)有效的進行數(shù)據(jù)處理,提高數(shù)據(jù)的利用效率,這是需要解決的問題,大數(shù)據(jù)技術(shù)的產(chǎn)生,對數(shù)據(jù)的處理起到重要作用。

二、大數(shù)據(jù)技術(shù)應(yīng)用前景

大數(shù)據(jù)技術(shù)是一種新型技術(shù),具有廣泛的應(yīng)用前景,尤其在數(shù)據(jù)分析領(lǐng)域中,對提高數(shù)據(jù)的利用效率起到重要作用。大數(shù)據(jù)技術(shù)的進一步發(fā)展應(yīng)用,對科技的交叉融合發(fā)展也有著促進意義??萍冀徊嫒诤鲜乾F(xiàn)代科技發(fā)展的需要,現(xiàn)在很多問題利用一種技術(shù)不能實現(xiàn),需要多種技術(shù)結(jié)合使用,促進科技水平進一步提升,符合現(xiàn)代科技發(fā)展的需要??萍既瞬攀瞧髽I(yè)發(fā)展的重要因素,尤其企業(yè)發(fā)展需要應(yīng)用型高級技術(shù)人才,在互聯(lián)網(wǎng)+時代,大數(shù)據(jù)技術(shù)方面的人才尤其缺乏,這也是大數(shù)據(jù)技術(shù)具有廣泛的應(yīng)用前景重要因素。

現(xiàn)在各個行業(yè)在發(fā)展的過程中都需要復(fù)合型的高級技術(shù)人才,大數(shù)據(jù)技術(shù)的實際應(yīng)用對促進其它行業(yè)的發(fā)展起到重要作用,大數(shù)據(jù)技術(shù)具有良好的應(yīng)用前景,對現(xiàn)代實際的應(yīng)用型思想起到重要作用。大數(shù)據(jù)技術(shù)在其它行業(yè)中的應(yīng)用提供了技術(shù)支持作用,大數(shù)據(jù)技術(shù)對促進其它行業(yè)的技術(shù)更新與改革起到重要作用,大數(shù)據(jù)技術(shù)在實際應(yīng)用過程中根據(jù)其它行業(yè)發(fā)展的需要,需要在技術(shù)上不斷更新,優(yōu)化環(huán)境,完善其職能,為企業(yè)行業(yè)發(fā)展提供技術(shù)保障。大數(shù)據(jù)技術(shù)在實際的應(yīng)用過程提升,符合大數(shù)據(jù)技術(shù)的發(fā)展需要。大數(shù)據(jù)技術(shù)在具體的應(yīng)用過程中,根據(jù)各個領(lǐng)域的需要,大數(shù)據(jù)技術(shù)需要不斷完善技術(shù),以適合現(xiàn)代各個行業(yè)發(fā)展的需要,大數(shù)據(jù)技術(shù)能為其發(fā)展提供技術(shù)支持。

三、大數(shù)據(jù)技術(shù)在高校非計算機專業(yè)中的應(yīng)用進行

(一)大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用

電子商務(wù)在互聯(lián)網(wǎng)+背景下得到快速發(fā)展,為高校電子商務(wù)專業(yè)的發(fā)展提供了機遇和挑戰(zhàn),電子商務(wù)專業(yè)在大數(shù)據(jù)技術(shù)作用下需要積極進行教學(xué)改革,以適合現(xiàn)代電子商務(wù)專業(yè)發(fā)展的需要,電子商務(wù)專業(yè)課程體系構(gòu)建需要符合現(xiàn)代電子商務(wù)產(chǎn)業(yè)發(fā)展的需要。在電子商務(wù)體系內(nèi)發(fā)揮大數(shù)據(jù)的優(yōu)勢,能有效建立完整的商務(wù)監(jiān)督體系,企業(yè)決策機制以及運作模式也要依托大數(shù)據(jù)技術(shù)的信息處理功能。電子商務(wù)產(chǎn)業(yè)的職業(yè)崗位能力涉及到大數(shù)據(jù)知識,電子商務(wù)專業(yè)在課程構(gòu)建的過程中需要把大數(shù)據(jù)相關(guān)知識納入課程體系中,能為學(xué)生職業(yè)崗位能力提升起到保障作用。大數(shù)據(jù)技術(shù)的實際應(yīng)用對提升電子商務(wù)專業(yè)建設(shè),教學(xué)模式改革,教學(xué)內(nèi)容整合,教學(xué)手段提升等都起到重要保障作用。

(二)大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用

大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用,對促進會計行業(yè)改革,高校會計專業(yè)教學(xué)改革都起到重要作用,同時完善會計專業(yè)人才培養(yǎng)方案,對提升學(xué)生職業(yè)技能起到重要作用。會計的職業(yè)崗位能力涉及到海量數(shù)據(jù),會計信息化時代大數(shù)據(jù)技術(shù)的應(yīng)用對提高會計的工作職能起到重要作用,符合現(xiàn)代大數(shù)據(jù)技術(shù)的應(yīng)用需要。大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用,尤其在會計信息系統(tǒng)建設(shè)中的應(yīng)用,對提高數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)處理能力的提升起到重要作用,會計行業(yè)涉及到數(shù)據(jù)很多,數(shù)據(jù)的種類、數(shù)據(jù)的形式都是多樣化,利用大數(shù)據(jù)技術(shù)處理數(shù)據(jù)比傳統(tǒng)的方式大大提高了工作效率,為會計行業(yè)的改革起到重要的技術(shù)支持作用,符合現(xiàn)代會計領(lǐng)域中的應(yīng)用需求??傊?,大數(shù)據(jù)技術(shù)在非計算機專業(yè)中的應(yīng)用對促進其教學(xué)改革起到技術(shù)支持作用,大數(shù)據(jù)技術(shù)是一種新型技術(shù),其具有廣泛的應(yīng)用,大數(shù)據(jù)技術(shù)在高校非計算機專業(yè)中的應(yīng)用是專業(yè)發(fā)展的需要,也是社會發(fā)展對高校專業(yè)改革提出了新要求。大數(shù)據(jù)技術(shù)尤其在數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)處理等方面起到重要作用,適合互聯(lián)網(wǎng)+時代,高校非計算機專業(yè)發(fā)展的需要。

【計算機碩士論文參考文獻】

[1]我國大數(shù)據(jù)應(yīng)用現(xiàn)狀與發(fā)展趨勢分析[J].李亭亭,趙英豪.電子商務(wù).2016(06).

[2]探討大數(shù)據(jù)技術(shù)在疾病防控上的應(yīng)用[J].黃文莉.電子技術(shù)與軟件工程.2016(06).

[3]基于CitespaceⅢ的大數(shù)據(jù)研究的可視化分析[J].姜俊鋒,丁香乾,侯瑞春,曲麗君.計算機與數(shù)字工程.2016(02).

第7篇:大數(shù)據(jù)技術(shù)范文

關(guān)鍵詞:計算機軟件;實際應(yīng)用;大數(shù)據(jù)時代

一、計算機軟件技術(shù)的基礎(chǔ)理論與發(fā)展歷程

隨著改革開放的到來,我國計算機軟件技術(shù)得到了國家大力扶持,短短的幾十年中,技術(shù)不斷改革創(chuàng)新,使得這項技術(shù)發(fā)展前景十分廣闊。在不斷完善技術(shù)理論體系的基礎(chǔ)上,技術(shù)概念與技術(shù)層面都得到了充分的優(yōu)化。云時代的來臨、大數(shù)據(jù)的發(fā)展都在不斷影響現(xiàn)代人的日常生活,得到了越來越多人的重視。同時社會上也涌現(xiàn)了更多的專業(yè)人員和人才來處理各項數(shù)據(jù)以及管理數(shù)據(jù)庫。人們已經(jīng)離不開沒有互聯(lián)網(wǎng)的生活。不可否認(rèn),互聯(lián)網(wǎng)已經(jīng)成為二十一世紀(jì)新型技術(shù)的重要產(chǎn)物,作為世界的主流技術(shù),互聯(lián)網(wǎng)得到了越來越多人的關(guān)注,用戶量每年都在翻倍增長。互聯(lián)網(wǎng)運用在經(jīng)濟發(fā)展過程中,推動了經(jīng)濟的持續(xù)增長,與此同時,隨著用戶數(shù)量的不斷增長,大量的數(shù)據(jù)也在此過程中得以收集和保存。有研究數(shù)據(jù)顯示,一年需要處理的數(shù)據(jù)已經(jīng)是一個龐大的數(shù)字,需要用億T來計量,如此龐大的數(shù)據(jù)預(yù)示著需要更專業(yè)的人才以及更高效的技術(shù)來統(tǒng)計和處理這些海量數(shù)據(jù)。由于在某些特定情況下無法使用數(shù)據(jù)收集及管理的相關(guān)技術(shù),為了使決策力、發(fā)現(xiàn)力以及流程優(yōu)化力得以保障,大數(shù)據(jù)技術(shù)應(yīng)運而生,在大數(shù)據(jù)的背景下,海量數(shù)據(jù)的發(fā)展前景也更為廣闊光明。數(shù)據(jù)運用的關(guān)鍵構(gòu)成部分包括數(shù)據(jù)獲取、數(shù)據(jù)生成周期和數(shù)據(jù)處理等,為了培養(yǎng)更加多的優(yōu)秀技術(shù)人才來處理如此龐大的大數(shù)據(jù),計算機軟件技術(shù)也應(yīng)隨之大大提升來符合更為嚴(yán)格的要求來配合技術(shù)人員的使用。

二、大數(shù)據(jù)時代下的計算機軟件技術(shù)

(一)大數(shù)據(jù)背景下的計算機軟件技術(shù)問題

人無完人,人都會犯錯,計算機也是如此,計算機的精準(zhǔn)性并不是絕對的,在對數(shù)據(jù)進行計算和分析時也會產(chǎn)生一定的偏差。隨著人們對完美的追求和對試驗的精準(zhǔn)要求,任何一點由于計算機技術(shù)導(dǎo)致的誤差都是對計算機的一個否定,這也是不合格的象征,并且也意味著計算機迎來了全新的挑戰(zhàn)與機遇。雖說計算機沒有生命,但其智慧有時甚至高于人類,人類專業(yè)技能與計算機軟件技術(shù)是共同發(fā)展的,彼此相互學(xué)習(xí)共同進步,由于人類的專業(yè)水平的提高,計算機軟件技術(shù)也在不斷進步和提升,例如在國際圍棋大賽中“AlphaGo”最終戰(zhàn)勝了圍棋冠軍李世石,足以證明人類的技術(shù)已經(jīng)可以達到“超越人類本身”這樣的狀態(tài)。在發(fā)展過程中計算機技術(shù)由于運作,影響了很多因素的正常運轉(zhuǎn),為了實現(xiàn)各部分共同和諧工作,計算機面臨攻擊和整改。在大數(shù)據(jù)時代的大背景下,數(shù)據(jù)的種類和數(shù)量不斷增加和變得繁瑣,信息安全問題成了首要數(shù)據(jù)問題,計算機的短暫崩潰、存儲功能的失靈都可能造成大量數(shù)據(jù)的流失與泄露。黑客和病毒對我們來說并不陌生,如果說計算機是生命體,那么黑客就是入侵的抗原,需要人為研究出的“反入侵”抗體來消滅。而隨著科研人員技術(shù)水平的不斷提升,病毒也在進化,病毒對“反入侵”程序產(chǎn)生了抗體,而人類的技術(shù)也隨之精進,就像狼捉羊,可以提升羊的奔跑速度一樣,科研人員切實著手,提高了數(shù)據(jù)的安全性。

(二)大數(shù)據(jù)時代下計算機軟件技術(shù)的實際應(yīng)用

1.信息安全技術(shù)

信息安全問題已然成為一大民生問題,每個人在傳輸文件或數(shù)據(jù)時都會存在這樣一個心理:信息會不會被竊取。為了解決這個問題,維護個人與企業(yè)的利益,提高生產(chǎn)發(fā)展效率,讓大數(shù)據(jù)的有利部分更加突出,運用計算機軟件技術(shù)可以大大減少信息被竊取的幾率,提高數(shù)據(jù)信息的安全性。

2.云儲存

現(xiàn)如今的文件數(shù)據(jù)越來越大,手機內(nèi)存也從最初的8G上限增加到上限512G,互聯(lián)網(wǎng)與計算機結(jié)合創(chuàng)新出一種“云儲存”技術(shù),可以高效的解決內(nèi)存不夠這個問題。云技術(shù)將文件整體化為“目錄”形式儲存進云盤中,當(dāng)我們需要尋找云盤中的某一文件時,只需要將“目錄”整體下載下來即可使用,真正實現(xiàn)了隨時隨地隨身“文件夾”。計算機軟件技術(shù)的人性化為人們?nèi)粘I钐峁┝烁嗟乇憬莘?wù),高效的實現(xiàn)數(shù)據(jù)文件的管理與存儲。

3.虛擬化

實踐總有成功和失敗,失敗意味著犧牲和資源的浪費,為了規(guī)避這個問題,計算機軟件創(chuàng)新出了模擬技術(shù),通過對現(xiàn)有物質(zhì)和條件進行分析和預(yù)判,結(jié)合數(shù)據(jù)庫的數(shù)據(jù)資料,制定出接下來的發(fā)展軌道和計劃,并且隨著計算機技術(shù)的不斷發(fā)展,實驗誤差在逐漸降低,甚至可以達到零誤差。無論是城市規(guī)劃還是科研實驗,通過使用計算機軟件技術(shù)不僅可以節(jié)省大量時間,只需要通過計算機試驗便可得到想要的結(jié)果,還可以節(jié)省大部分資源,避免浪費。

第8篇:大數(shù)據(jù)技術(shù)范文

【關(guān)鍵詞】大數(shù)據(jù) 疾病防控

被喻為"未來的新石油"的大數(shù)據(jù),正成為繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一熱點《華爾街日報》將大數(shù)據(jù)時代、智能化生產(chǎn)和無線網(wǎng)絡(luò)革命稱為引領(lǐng)未來繁榮的三大技術(shù)變革。大數(shù)據(jù)技術(shù)已經(jīng)開始應(yīng)用到各行各業(yè)。在給人類社會帶來海量信息和巨大變革的同時,大數(shù)據(jù)技術(shù)在疾病防控上的應(yīng)用引起了人們越來越大的興趣。

1 大數(shù)據(jù)的定義

從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。

大數(shù)據(jù)的特點有四個層面:

(1)數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;

(2)數(shù)據(jù)類型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。

(3)處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。

(4)高價值,只要合理利用數(shù)據(jù)并對其進行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”――Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。

大數(shù)據(jù),其影響除了經(jīng)濟方面的,它同時也能在政治、文化、衛(wèi)生等方面產(chǎn)生深遠的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。數(shù)據(jù)有了,但如何駕馭這些海量數(shù)據(jù),將它們應(yīng)用于疾病防控工作方面,挖掘數(shù)據(jù)的核心價值,這就是我們疾控人員研究的方向。

1.1 大數(shù)據(jù)技術(shù)應(yīng)用的必要性

傳統(tǒng)疾病預(yù)防控制的方式最大的不足在于實時性上,但疾病的防控?fù)尩木褪菚r間。如果能在疾病流行前即預(yù)測到疾病的發(fā)展態(tài)勢,加強對疾病的預(yù)防,就能達到最大限度保障群眾健康的目的?,F(xiàn)在,利用大數(shù)據(jù)技術(shù)對疾病傳播進行更先進的監(jiān)控與控制成為了可能。

1.2 大數(shù)據(jù)技術(shù)應(yīng)用實例

(1)谷歌已在疾病預(yù)測防控上已經(jīng)走出先例,那么我們先來看下谷歌的谷歌流感趨勢(Google Flu Trends,GFT)的工作成果,從中窺視疾病預(yù)防控制的大數(shù)據(jù)未來。

2008年,谷歌上線“谷歌流感趨勢”項目,該項目開始預(yù)測流感傳播。

2009年在美國的H1N1爆發(fā)幾周前,谷歌成功預(yù)測了H1N1在全美的傳播范圍,具體到了州還有特定地區(qū),判斷非常及時,令美國公共衛(wèi)生機構(gòu)以及全美大為震驚,疾控中心通常只能在流感爆發(fā)一兩周之后才可以做到,而谷歌的及時性讓全美側(cè)目。

這是真正第一次利用搜索引擎大數(shù)據(jù)對疾病控制的預(yù)測嘗試,谷歌因此也獲得巨大殊榮。

(2)2014年4月2日,清華大學(xué)在京宣布,該校將聯(lián)合國內(nèi)醫(yī)療設(shè)備生產(chǎn)企業(yè)啟動基于大數(shù)據(jù)的公共衛(wèi)生項目國民“健康云數(shù)據(jù)”計劃,預(yù)計3年內(nèi)完成數(shù)據(jù)平臺建設(shè),并為遠程健康管理、疾病預(yù)防等提供支撐。這也是大數(shù)據(jù)技術(shù)服務(wù)于公共衛(wèi)生領(lǐng)域的個案,這個項目將有效提升疾病早期預(yù)防等服務(wù)的針對性。通過對大規(guī)模數(shù)據(jù)的整理分析,可以在疾病早期防控和阻斷疾病產(chǎn)生根源方面產(chǎn)生更積極的作用。

2 大數(shù)據(jù)在疾病防控的應(yīng)用方向

2.1 提前確定一定規(guī)模的未知疾病,為疫情控制爭取時間

無論傳統(tǒng)檢測還是歷史數(shù)據(jù)統(tǒng)計都是無法監(jiān)測到任何沒有臨床癥狀的病例的,這些經(jīng)驗在醫(yī)院的臨床經(jīng)驗中都為0。但大數(shù)據(jù)卻可以做到這件事,通過醫(yī)院的共享信息、疾病監(jiān)測系統(tǒng)網(wǎng)絡(luò)報告數(shù)據(jù)以及各類網(wǎng)絡(luò)監(jiān)控引擎指定地區(qū)的用戶的頻繁搜索關(guān)鍵詞,可以檢測到某個地區(qū)已經(jīng)出現(xiàn)了諸如不明原因的肺炎,某地餐館讓多少人出現(xiàn)嘔吐腹瀉等異常狀況……然后再通過與疾病控制中心的病毒庫中的病毒分析,尋找吻合的病毒,進行比對分析然后將其找出,為判斷疾病贏取時間。換句話說,有了大數(shù)據(jù)后,疾病預(yù)防可以真正在第一時間內(nèi)去判斷出疫情的病毒源,進而為控制爭取時間。當(dāng)前的科技下,疫情的發(fā)生是誰也無法控制的,我們目前唯一能夠控制的就是及時制止其傳播的范圍,而大數(shù)據(jù)則是目前唯一的也是最佳的途徑。

2.2 判斷人員流向,控制疫情

在疫情發(fā)生后,雖然國家可以第一時間控制住當(dāng)?shù)匾咔?,但是人員流動則是無法控制的。現(xiàn)在利用網(wǎng)絡(luò)技術(shù)可以做到,比如A地突然爆發(fā)了傳染病,而此時根據(jù)大數(shù)據(jù)的監(jiān)控就能監(jiān)測到傳染源區(qū)人員的主要流向地是B地與C地,于是疾控中心就拿出對應(yīng)的醫(yī)療技術(shù)和對應(yīng)的治療藥品以及疫苗來防治,第一時間趕到B地與C地,將一切藥物準(zhǔn)備就緒并為當(dāng)?shù)厝私臃N疫苗,這樣一來就減少了盲目的廣撒網(wǎng)式的全面布局情況,通過網(wǎng)絡(luò)技術(shù)上提供的人員流動數(shù)據(jù),讓控制疫情在效率上大幅度提升。

2.3 治療藥物和疫苗的迅速研發(fā)

在疫情發(fā)生后最重要的事情就是研發(fā)對應(yīng)藥物,傳統(tǒng)的做法是一個小范圍的研發(fā),然后用傳統(tǒng)的交流方式,但是有了大數(shù)據(jù)就不可同日而語。在病人的治療中,所有藥物的使用數(shù)據(jù)以及用戶的病情數(shù)據(jù)都將全部聯(lián)網(wǎng),當(dāng)機器檢測到發(fā)現(xiàn)某種藥物(通過讀取錄入的藥物數(shù)據(jù))對病人的病情(通過讀取錄入病人健康的關(guān)鍵指數(shù)后的數(shù)據(jù))有部分效果后,將會迅速納入研發(fā)的決策范圍,為研發(fā)部門提供有用參考,為研發(fā)對抗疫情的藥物以及預(yù)防疫情的疫苗,提供全網(wǎng)的大數(shù)據(jù)的支持。

2.4 建立疾病防控監(jiān)測預(yù)警預(yù)報機制

未來通過大數(shù)據(jù)技術(shù)在疾病防控的預(yù)警預(yù)報應(yīng)用方面,不僅僅只是有關(guān)部門的決策者能夠收到,而是全民都享有的福利,從而保障更多人的安全。比如當(dāng)你去出差時,網(wǎng)絡(luò)會在你的手機上提前通知你,你將要去的地區(qū)有食品安全問題,再比如第一時間通知你,你所在的地區(qū)有流感地區(qū)的人群大量流入,讓你及時做好預(yù)防工作以及接種疫苗等等。

3 面臨的困難和挑戰(zhàn)

谷歌雖然在09年的預(yù)測上做出了漂亮的成績,但是在2013年的2月谷歌流感趨勢被媒體大量批評,原因就在于其數(shù)據(jù)總是偏高于真實的流感數(shù)據(jù)。

谷歌出錯的原因有很多,比如谷歌的搜索算法調(diào)整會間接影響到用戶習(xí)慣,再比如谷歌的推薦搜索以及相關(guān)性推薦也會影響用戶的搜索結(jié)果,此外搜索某個關(guān)鍵詞的用戶也不一定是患病用戶,再加上運營商的地理位置判斷等問題,使得谷歌出現(xiàn)算法過度擬合的情況,將噪聲當(dāng)成了信號,導(dǎo)致其結(jié)果的不準(zhǔn)確性。

4 對策與建議

大數(shù)據(jù)是云計算的具體化,且正在成為一個國家最重要的國家社會資源,對大數(shù)據(jù)的獲取和利用能力正成為軟硬兼?zhèn)涞恼鎸嵙ΑR虼?,對于大?shù)據(jù)在疾病預(yù)防控制上應(yīng)用的研究可以由政府為主導(dǎo),搭建基于云計算的安全、可靠、準(zhǔn)確大數(shù)據(jù)平臺,再引入社會力量建設(shè)各類疾病預(yù)防控制專業(yè)信息服務(wù)平臺,面向公眾提供疾病預(yù)防專業(yè)、權(quán)威咨訊。

困難從從,但機會與挑戰(zhàn)并存,我們要加快大數(shù)據(jù)技術(shù)研究,將其應(yīng)用于疾病防控,最大限度地保障人民的身體健康。

參考文獻

[1]馬家奇.公共衛(wèi)生大數(shù)據(jù)應(yīng)用[J].中國衛(wèi)生管理信息雜志,2014(04).

[2]于石成.大數(shù)據(jù)視角下的衛(wèi)生統(tǒng)計工作[J].醫(yī)學(xué)信息學(xué)雜志,2013(10).

[3]高漢松,基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺[J].醫(yī)學(xué)信息學(xué)雜志,2013(05).

[4]于石成.全球疾病負(fù)擔(dān)研究-大數(shù)據(jù)分析應(yīng)用實例[J].醫(yī)學(xué)信息學(xué)雜志,2013(09).

第9篇:大數(shù)據(jù)技術(shù)范文

作為中國最大的瓶裝水生產(chǎn)商,農(nóng)夫山泉股份有限公司(簡稱農(nóng)夫山泉)的IT應(yīng)用系統(tǒng)中,每天都要產(chǎn)生大量的數(shù)據(jù)。在認(rèn)識到這些數(shù)據(jù)的巨大潛在價值后,農(nóng)夫山泉想要對這些海量數(shù)據(jù)進行分析,來為企業(yè)的運營和業(yè)務(wù)等提供決策支持。但由于數(shù)據(jù)量太大,農(nóng)夫山泉股份有限公司在對這些數(shù)據(jù)進行分析時,遇到了一些挑戰(zhàn)。例如,農(nóng)夫山泉每次結(jié)賬前都需要做運費對賬,運費計算涉及的層面非常廣,里面的邏輯計算十分復(fù)雜。系統(tǒng)通常需要24小時來運行這個運費報表,有時候甚至生成不了這張報表。這樣的速度導(dǎo)致農(nóng)夫山泉每個月財務(wù)結(jié)算都要推遲一天。

不過,在實施了SAP HANA系統(tǒng)后,現(xiàn)在這張運費報表只需要37秒就可以生成,和之前相比,運算速度提高了2335倍。

傳統(tǒng)數(shù)據(jù)庫技術(shù)的瓶頸

這一堪稱奇跡的進步背后,正是內(nèi)存計算技術(shù)發(fā)揮了至關(guān)重要的作用。顧名思義,內(nèi)存計算技術(shù),實質(zhì)上就是CPU直接從內(nèi)存而非硬盤上讀取數(shù)據(jù),并對數(shù)據(jù)進行計算、分析?!斑@項技術(shù)是對傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實現(xiàn)商務(wù)智能中海量數(shù)據(jù)分析和實施數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。”SAP公司全球數(shù)據(jù)庫解決方案亞太區(qū)技術(shù)總監(jiān)盧東明說道。

事實上,作為數(shù)據(jù)庫領(lǐng)域一項創(chuàng)新的技術(shù),內(nèi)存計算的出現(xiàn),對于數(shù)據(jù)庫市場帶來了巨大的沖擊。在盧東明看來,過去20年,數(shù)據(jù)庫技術(shù)的發(fā)展其實陷入了瓶頸之中。由于少數(shù)數(shù)據(jù)庫廠商對市場的絕對壟斷,導(dǎo)致它們疏于數(shù)據(jù)庫技術(shù)方面的創(chuàng)新。

但在處理傳統(tǒng)的在線交易處理(OLTP)應(yīng)用時,這種創(chuàng)新瓶頸的問題并沒有得到完全的體現(xiàn)。因為,OLTP系統(tǒng)主要是對發(fā)生的業(yè)務(wù)進行實時記錄,處理的主要是大量簡單、小規(guī)模、同時發(fā)生的交易。因此,對于數(shù)據(jù)挖掘和分析的需求并不是很大。

但隨著大數(shù)據(jù)的出現(xiàn),企業(yè)對于在線分析處理(OLAP)應(yīng)用的需求越來越強烈,也就是說,企業(yè)對于海量數(shù)據(jù)的挖掘和分析越來越重視,而且,更為關(guān)鍵的是:他們需要實時的分析和挖掘。

在這種情況下,傳統(tǒng)數(shù)據(jù)庫技術(shù)的瓶頸被放大:由于傳統(tǒng)的數(shù)據(jù)庫技術(shù)是將數(shù)據(jù)存儲在硬盤上,需要進行計算和分析時,再將數(shù)據(jù)從硬盤調(diào)用到內(nèi)存中。在處理海量數(shù)據(jù)時,這種方式無疑會耗費大量的時間,很難做到實時計算。

速度成為最大優(yōu)勢

而內(nèi)存計算技術(shù),則是將需要分析的數(shù)據(jù)全部存儲在內(nèi)存之中,并在內(nèi)存中進行大量的數(shù)據(jù)分析和計算。這樣,對于海量數(shù)據(jù)的分析速度將得到大大的提升。

舉一個例子:如果過去裝修一個房子,需要到現(xiàn)場去測量,然后回去準(zhǔn)備所需的材料打造成家具。HANA的理念是無需再移動數(shù)據(jù)。也就是說,可以就地取材,就在數(shù)據(jù)所在位置開始測量、開始建造。

顯然,這樣的優(yōu)勢是更靈活、反應(yīng)更快。因此,內(nèi)存計算非常適合處理海量的數(shù)據(jù),以及需要實時獲得結(jié)果的數(shù)據(jù)。比如可以將一個企業(yè)近十年幾乎所有的財務(wù)、營銷、市場等各方面的數(shù)據(jù)一次性地保存在內(nèi)存里,并在此基礎(chǔ)上進行數(shù)據(jù)的分析。當(dāng)企業(yè)需要做快速的賬務(wù)分析,或要對市場進行分析時,內(nèi)存計算就能夠快速的按照需求完成。

通過上述的分析,不難看到內(nèi)存計算技術(shù)的最大優(yōu)勢:速度。這一點,對于大數(shù)據(jù)應(yīng)用顯然十分關(guān)鍵。比如,在銀行業(yè),大數(shù)據(jù)可以應(yīng)用與信用卡防盜、防欺詐等方面。但如果數(shù)據(jù)的分析處理時間需要一兩天甚至一周,那么對于銀行而言,顯然已經(jīng)沒有什么意義。他們需要的是系統(tǒng)能夠?qū)?shù)據(jù)進行實時的處理和分析,為銀行的相關(guān)工作人員提供實時的告警。

“內(nèi)存計算技術(shù)在大數(shù)據(jù)時代將會有十分廣闊的應(yīng)用空間。采用內(nèi)存計算技術(shù),企業(yè)的海量數(shù)據(jù)處理能力將會得到幾倍甚至幾十倍的提高,也就意味著企業(yè)業(yè)務(wù)響應(yīng)速度的大幅提升,這種提升所帶來的價值是顯而易見的?!北R東明分析道。“因為,在很多行業(yè),如果一直能夠比競爭對手快一點,那無疑就會在市場上取得明顯的競爭優(yōu)勢?!?/p>

此外,內(nèi)存計算還可以模擬一些數(shù)據(jù)分析的結(jié)果,實現(xiàn)對市場未來發(fā)展的預(yù)測。例如,可以幫助用戶在事情沒發(fā)生前假設(shè)各種場景,然后進行分析,以預(yù)測將要發(fā)生的事情。

SAP的HANA是內(nèi)存計算技術(shù)應(yīng)用的典型代表。通過采用內(nèi)存計算技術(shù),HANA在大數(shù)據(jù)領(lǐng)域表現(xiàn)搶眼。

文章開頭提到的農(nóng)夫山泉,是SAP內(nèi)存計算技術(shù)在中國的第一個客戶,在應(yīng)用HANA之后,農(nóng)夫山泉所有的銷售數(shù)據(jù)都加載在HANA中,進行分析和計算,而且,其分析和計算在幾秒鐘內(nèi)就可以完成。“在它原來的平臺之上,不可能把所有的歷史數(shù)據(jù)完全加載計算。如果非要計算也可以,但分析的周期可能是以年為單位。”盧東明說。在盧東明看來,隨著大數(shù)據(jù)應(yīng)用的普及,內(nèi)存計算技術(shù)的應(yīng)用空間將會越來越廣泛,甚至有可能改變數(shù)據(jù)庫市場的“游戲規(guī)則?!?/p>

當(dāng)然,內(nèi)存計算技術(shù)也并非完美。例如,在內(nèi)存增大的情況下,散熱問題如何處理?此外,目前大部分病毒都是針對內(nèi)存展開攻擊,如果未來內(nèi)存計算技術(shù)大量普及,那么信息安全又該如何保證?

不過,隨著內(nèi)存計算技術(shù)的發(fā)展,相信這些難題都將會被逐步解決。而其在海量數(shù)據(jù)處理和分析方面的優(yōu)勢,將會隨著其與更多行業(yè)應(yīng)用的結(jié)合,被進一步放大。

來自于用戶端的狀況也表明,內(nèi)存計算將成為未來一個主流的方向。Gartner稱,在2012年,10%的大型和中型組織在一些容量的數(shù)據(jù)中采取了內(nèi)存計算。到2015年,這一數(shù)字將會增長到35%?!皟?nèi)存計算市場將在未來兩年實現(xiàn)大幅增長,”Gartner副總裁兼分析師Massimo Pezzini說:“我們每一天都發(fā)現(xiàn)更多的人采用內(nèi)存計算”。