公務員期刊網(wǎng) 精選范文 統(tǒng)計數(shù)據(jù)分析范文

統(tǒng)計數(shù)據(jù)分析精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統(tǒng)計數(shù)據(jù)分析主題范文,僅供參考,歡迎閱讀并收藏。

統(tǒng)計數(shù)據(jù)分析

第1篇:統(tǒng)計數(shù)據(jù)分析范文

伴隨著課程改革的實施,如何提升實際教學效果和學生的學科素養(yǎng)、優(yōu)化教育流程、有效的傳授知識內(nèi)容、合理的訓練學科能力、恰當?shù)膫魇谒枷敕椒ǔ蔀榱艘粋€重要的課題?!敖獭迸c“學”之間的相輔相成,對實際學情的理解和分析,因材施教,適時調(diào)整策略并進行針對性教學,是實現(xiàn)學科知識、學科能力和學科方法目標的必經(jīng)之途。把握教育教學的有效性與長效性,促進學生的多元化發(fā)展、培養(yǎng)創(chuàng)新意識,塑造高素質人才則是教育教學的必然之由。

關鍵詞:計量數(shù)據(jù) 歷史知識結構 歷史學科能力 歷史學科素養(yǎng) 教學策略

中圖分類號:G630

引言:

對于高三教育教學和備考復習而言,如何有效的講授知識內(nèi)容結構、如何合理的訓練學科能力、如何恰當?shù)膫魇谒枷敕椒?、如何培養(yǎng)和提升學科素養(yǎng)是一個多解的命題。要實現(xiàn)這四個角度的教學目標,切實培養(yǎng)學生的學科素質,促進學生的多元化和全面性發(fā)展,優(yōu)化教育效果,提升教學的有效性,那么實事求是的理解學情、科學規(guī)范的訓練、及時調(diào)整教師“教”與學生“學”之間的差距,是一個不得不面對的技術問題。

在下文中,筆者不揣淺陋,擬就如何有效利用計量統(tǒng)計數(shù)據(jù)分析學情和調(diào)整教學策略的話題略呈管見,希冀能拋磚引玉,敬請方家指正。

維度一:科學規(guī)范的命制試題

沒有教育科學就沒有科學的教育,沒有規(guī)范的學科訓練就沒有規(guī)范的學科思維。規(guī)范的訓練可以通過多種途徑來實現(xiàn),比如課堂教學、研究型學習、史料研讀及遺址考察等,但是最簡單而且教學中使用最多的還是試題測試??茖W的試題、科學的測試、科學的訓練對學生的歷史學科能力訓練和歷史學科規(guī)范及學科素養(yǎng)的提高是非常有幫助的。

命制科學規(guī)范的試題可以建構一個計量統(tǒng)計的模型,以分析學情和調(diào)整教學策略,能更好的實現(xiàn)教學目標。

如何才能命制一套較為科學和規(guī)范的試題?這不僅需要了解測量技術的相關問題,還需較為深厚的歷史學科專業(yè)知識,除此之外,教育經(jīng)驗和教材的熟悉度也是很重要的一個因素。

一般來講,一套試題從結構上需要體現(xiàn)以下幾個考察的方向:學科基本知識、學科基本能力、學科素養(yǎng)的體現(xiàn)。而學科方法則是溝通上述三個角度的橋梁。

從歷史學科基本知識角度講:內(nèi)容應該包含高考考察的七個結構模塊,即古代中國、近代中國、現(xiàn)代中國、古希臘羅馬、近代世界、現(xiàn)代世界及選修模塊。從歷史學科能力角度講:文科綜合能力“考試大綱”將歷史學科的高考考核目標表述為獲取和解讀信息、調(diào)動和運用知識、描述和闡釋事物、論證和探討問題四個能力要求①。具體來講包括再認再現(xiàn)歷史知識、重構歷史時序、獲取有效歷史信息、理解分析歷史事物、運用歷史方法論證、評價歷史問題。歷史學科素養(yǎng)則是如何應運歷史知識發(fā)現(xiàn)新問題、研究新問題、解決新問題的靈活體現(xiàn),是創(chuàng)新意識培養(yǎng)的必然內(nèi)核。培養(yǎng)素養(yǎng)“要關注知識的消化,關注它是不是發(fā)生了有益于吸收、轉化為有益于生命的酶化”。②“把死知識變活,把活知識變靈”③是知識酶化的主要目的。

規(guī)范的命制試題后,設計測試的雙向細目表,建立一個完整的測評模型后便可指導解決實際教學中有效利用計量統(tǒng)計數(shù)據(jù)分析學情和調(diào)整教策略的問題了。

下文,筆者擬就操作中的實例來講述具體過程,以期拋磚引玉。在模型樣本選取上,將本年級文科班分成程度好和程度一般兩類。以較好的為參照系,在程度一般的學生中進行測評和策略檢驗,找出規(guī)律并進行驗證。

維度二:利用分數(shù)段分布的統(tǒng)計數(shù)據(jù)分析學情以調(diào)整策略

下圖為分數(shù)段數(shù)據(jù),來源于分組中程度一般的學生。測試后將數(shù)據(jù)做出統(tǒng)計,結合數(shù)據(jù)分析學情,調(diào)整策略,矯正教學。

分數(shù)段分布數(shù)據(jù)可知如下學情:分數(shù)段的分布百分比可確定學生的層次、明晰學生是屬于基本史實掌握不牢固的“知識型不足”,還是史學能力不到位的“技能型不足”;確定教學中重能力還是抓基礎的后續(xù)教學重心、調(diào)整教學內(nèi)容的難易度與深淺度。

上圖所示,中間分數(shù)段的學生人數(shù)較多,反映出大多學生對于基礎知識和主干知識的記憶和理解比較好,可繼續(xù)加強和保持效果,確保不出現(xiàn)知識型問題。但非主干知識掌握不牢,如:課本小字部分(即自學內(nèi)容)、非重點內(nèi)容。

高分段人數(shù)較少,反映出技能型不足的問題。表現(xiàn)為運用歷史方法論證、評價歷史問題能力不足和邏輯思辨能力、史學理論方面存在欠缺。通過試卷作答細化分析發(fā)現(xiàn)語言閱讀能力和理解能力不足及規(guī)范答題能力欠缺。

根據(jù)學生的情況和數(shù)據(jù)分析采取如下策略:為了能提高高分段人數(shù)比重,調(diào)整教學難度和深度,通過課本知識的延伸與拓展,擴大學生的知識容量和理論儲備,關注史學研究的新成果,以專題講座的形式講解技能與方法,以提升學生表現(xiàn)出來的能力欠缺。指導和訓練答題技巧,訓練其在作答過程中語言簡明、清晰、嚴密、要點化、序號化的能力。

在下階段訓練跟蹤并在同一模型與難度下測試,如圖所示:

數(shù)據(jù)統(tǒng)計后,發(fā)現(xiàn)效果較明顯。中間分數(shù)段的學生人數(shù)百分比穩(wěn)中有升,高分段人數(shù)明顯增多,運用歷史方法論證、評價歷史問題能力和邏輯思辨能力、史學理論方面存在欠缺等技能型不足的問題得到修正。

維度三:利用能力結構得分統(tǒng)計數(shù)據(jù)分析學情以調(diào)整策略

、針對此問題調(diào)整策略,借鑒語文方法,訓練學生語言能力,如找準關鍵詞、對有效信息的提煉和概括、歷史要素與關鍵詞的關系,題干限定語的查找等。訓練學生的邏輯分析能力,提高學生對歷史名詞內(nèi)涵與外延的準確理解度,強化學生的邏輯思考習慣,訓練其推理、判斷、論證的能力。系統(tǒng)講授歷史學科方法與理論,如歷史唯物論、辯證法、現(xiàn)代化史觀、全球史觀、文明史觀、社會史觀、生態(tài)史觀;樹立學生結合時代特征分析歷史的思維、史論結合及生產(chǎn)力標準等論證和評價歷史的方法。對學生數(shù)據(jù)進行統(tǒng)計與分析,進行逐個訓練與指導。

在下階段訓練跟蹤并在同一模型與難度下測試,數(shù)據(jù)統(tǒng)計后,發(fā)現(xiàn)效果較明顯。如上圖所示,樣本學生中獲取有效歷史信息和運用歷史方法論證、評價歷史問題兩個方面的不足得到修正,進步明顯。

維度四:利用知識結構統(tǒng)計數(shù)據(jù)分析學情以調(diào)整策略

知識結構的統(tǒng)計分析,可知道學生哪些知識掌握的不到位,以便及時查漏補缺。由于知識模塊范圍太大,在具體分析的時候可以結合雙向細目表及各小題得分率仔細分析,準確找到薄弱環(huán)節(jié),再結合能力結構統(tǒng)計數(shù)據(jù),分析是知識型問題還是能力型問題,以便更好的掌握學情。

上圖所示,樣本學生在“古代中國史”和“現(xiàn)代中國史”兩個方面存在不足。針對此問題,查找薄弱環(huán)節(jié),詳盡分析,調(diào)整應對策略,對相關知識進行補充和加強,如古代經(jīng)濟,古代科技等。理清中國古代史的時代特點及線索和發(fā)展脈絡,按通史時序梳理知識?,F(xiàn)代中國史教學中注重時政與歷史的關聯(lián),補充中國現(xiàn)代史中文化、教育、科技等相關內(nèi)容。利用對世界史的知識優(yōu)勢,將中國史與世界史交叉起來,通過中外關聯(lián)與對比,來加深理解。對基礎知識進行再強化,加深知識的理解程度與深刻性。

在下階段訓練跟蹤并在同一模型與難度下測試,數(shù)據(jù)統(tǒng)計后,發(fā)現(xiàn)效果較明顯。如上圖所示,樣本學生中“古代中國史”和 “現(xiàn)代中國史”兩個方面的不足得到修正,進步明顯,超過了參照系的學生。

五:結語:

課程改革實施下如何提升教學效果和學生的學科素養(yǎng),優(yōu)化教育流程,有效傳授知識、合理訓練學科能力、恰當傳授思想方法,培養(yǎng)學生的學科規(guī)范和學科素養(yǎng)、傳授技巧和思維方法、挖掘和熟練教材、夯實主干知識的根基、關注史學研究動態(tài)、滲透史學研究的理論和方法、廣泛學習和借鑒、科學的訓練、多元的思考、重視培養(yǎng)學生能力和史學素質可能是一個必須面對的話題?!敖獭迸c“學”之間的相輔相成,對實際學情的理解和分析,因材施教,適時調(diào)整策略并進行針對性教學,是實現(xiàn)學科知識、學科能力和學科方法目標的必經(jīng)之途。把握教育教學的有效性與長效性,促進學生的多元化發(fā)展、培養(yǎng)創(chuàng)新意識,塑造高素質人才則是教育教學的必然之由。

引注:

①《2013年文科?課程標準實驗版?考試說明(考試大綱)》

第2篇:統(tǒng)計數(shù)據(jù)分析范文

由于廣藥是當初多家企業(yè)組成集團公司,在各企業(yè)中都存在各自的系統(tǒng)。這就決定了它們產(chǎn)生的營運數(shù)據(jù)的不同。為了提高企業(yè)的整體管理水平、適應社會能力和競爭能力,高效快捷地進行數(shù)據(jù)分析處理和預測建立一套用來“了解和掌握市場信息和企業(yè)內(nèi)部的變化情況和根據(jù)市場的變化迅速調(diào)整優(yōu)化企業(yè)的產(chǎn)品結構和市場策略”的系統(tǒng)就非常重要。

系統(tǒng)目標

幫助企業(yè)對內(nèi)部和外部的營運數(shù)據(jù)進行收集、歸納、量化,并提供多種數(shù)據(jù)分析、數(shù)據(jù)挖掘工具,輔助企業(yè)管理者進行科學分析預測,提高企業(yè)的數(shù)量化管理水平、提高的市場競爭力。主要功能有:關鍵指標分析系統(tǒng)、財務分析系統(tǒng)、銷售分析系統(tǒng)、生產(chǎn)計劃和庫存分析系統(tǒng)、預測分析系統(tǒng)及多元統(tǒng)計分析系統(tǒng)。

體現(xiàn)價值

實現(xiàn)了關鍵性分析數(shù)據(jù)的集中存儲、管理和共享

廣藥以往用于關鍵性經(jīng)營指標分析的數(shù)據(jù)由于存放在不同平臺的業(yè)務系統(tǒng)數(shù)據(jù)庫中,沒有統(tǒng)一的管理和規(guī)劃,幾乎沒有通用性和和兼容性,很難實現(xiàn)總部的管理利用,只能由人工進行統(tǒng)計和計算,時間的延誤和計算的誤差無法避免,分析準確性較差。在廣藥數(shù)據(jù)分析系統(tǒng)的實施與使用后,由系統(tǒng)自動從不同的業(yè)務系統(tǒng)平臺定期收集所需相關數(shù)據(jù),存儲于數(shù)據(jù)庫中,實現(xiàn)了數(shù)據(jù)的集中存儲、管理和共享。

日常經(jīng)營統(tǒng)計數(shù)據(jù)的靈活獲取

以往,要獲得不同分析角度不同側重點的可靠性指標需要進行大量重復工作,難度較大,很難做到及時準確,同時,分析角度稍有變化現(xiàn)有的數(shù)據(jù)可能就無法再次利用。在使用廣藥數(shù)據(jù)分析系統(tǒng)后,系統(tǒng)提供的多視角分析和數(shù)據(jù)挖掘功能使用戶多角度靈活分析其產(chǎn)品可靠性指標的需求得到充分滿足。同時,通過對分析角度之間任的意組合、對分析角度任意層次間的靈活鉆取和對分析結果的切片等操作,保證了靈活、高效地獲取所需的可靠性指標信息。

使得管理者可以從復雜的觀察工作中抽身而出

以往是管理者想知道目前企業(yè)經(jīng)營狀況,須叫有關人員統(tǒng)計大量報表,讓后管理者再從報表中查找問題。上了廣藥數(shù)據(jù)分析系統(tǒng)后,只要通過設定企業(yè)日常關注的一些重要指標及這些指標異常的參數(shù),每天本模塊會自動檢查這些指標,發(fā)現(xiàn)問題即時提示。這樣管理者每天只需打開電腦,指標告警模塊會提示目前企業(yè)共有有幾個異常,如果沒異常,管理者可騰出時間處理別的事情;如發(fā)現(xiàn)異常,告警模塊會指導管理者迅速找到問題的所在。

對客戶進行信用管理

以往對客戶僅是人為的管理,人的主觀因素較多,造成上一筆款還沒付就向他提供又一筆貨或向一個小客戶提供一大筆貨等等情況,而且有些客戶在集團的一家企業(yè)中是長期欠款,而在集團的另一家企業(yè)中還能得到提貨。對于以上的情況,在使用廣藥數(shù)據(jù)分析系統(tǒng)后就再也沒有發(fā)生過。

用戶評價

廣藥集團應用廣藥數(shù)據(jù)分析系統(tǒng)后,應收款周轉天數(shù)由70天下降到50天,對于提高企業(yè)的整體管理水平和科學決策水平起到了積極的作用。

第3篇:統(tǒng)計數(shù)據(jù)分析范文

關鍵詞:大數(shù)據(jù);統(tǒng)計學;數(shù)據(jù)分析;抽樣理論;理論

重構隨著信息科學技術的高速度發(fā)展,當代獲取和儲存數(shù)據(jù)信息的能力不斷增強而成本不斷下降,這為大數(shù)據(jù)的應用提供了必要的技術環(huán)境和可能.應用大數(shù)據(jù)技術的優(yōu)勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數(shù)據(jù)信息.近年來,專家學者有關大數(shù)據(jù)技術問題進行了大量的研究工作[1],很多領域也都受到了大數(shù)據(jù)分析的影響.這個時代將大數(shù)據(jù)稱為未來的石油,它必將對這個時代和未來的社會經(jīng)濟以及科學技術的發(fā)展產(chǎn)生深遠的意義和影響.目前對于大數(shù)據(jù)概念,主要是從數(shù)據(jù)來源和數(shù)據(jù)的處理工具與處理難度方面考慮,但國內(nèi)外專家學者各有各的觀點,并沒有給出一致的精確定義.麥肯錫全球數(shù)據(jù)分析研究所指出大數(shù)據(jù)是數(shù)據(jù)集的大小超越了典型數(shù)據(jù)庫工具集合、存儲、管理和分析能力的數(shù)據(jù)集,大數(shù)據(jù)被Gartner定義為極端信息管理和處理一個或多個維度的傳統(tǒng)信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規(guī)?!笔荊B級數(shù)據(jù),“海量”是TB級數(shù)據(jù),而“大數(shù)據(jù)”是PB及其以上級別數(shù)據(jù)[2].

一些研究學者把大數(shù)據(jù)特征進行概括,稱其具有數(shù)據(jù)規(guī)模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調(diào)大數(shù)據(jù)區(qū)別于其他概念的最重要特征是快速動態(tài)變化的數(shù)據(jù)和形成流式數(shù)據(jù).大數(shù)據(jù)技術發(fā)展所面臨的問題是數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)分析、數(shù)據(jù)顯示和數(shù)據(jù)安全等.大數(shù)據(jù)的數(shù)據(jù)量大、多樣性、復雜性及實時性等特點,使得數(shù)據(jù)存儲環(huán)境有了很大變化[45],而大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機存儲的數(shù)據(jù),這些問題無疑增加了數(shù)據(jù)處理和整合的困難.數(shù)據(jù)分析是大數(shù)據(jù)處理的核心過程,同時它也給傳統(tǒng)統(tǒng)計學帶來了巨大的挑戰(zhàn)[6].產(chǎn)生大數(shù)據(jù)的數(shù)據(jù)源通常情況下具有高速度性和實時性,所以要求數(shù)據(jù)處理和分析系統(tǒng)也要有快速度和實時性特點,而傳統(tǒng)統(tǒng)計分析方法通常不具備快速和實時等特點.基于大數(shù)據(jù)的特點,傳統(tǒng)的數(shù)據(jù)統(tǒng)計理論已經(jīng)不能適應大數(shù)據(jù)分析與研究的范疇,傳統(tǒng)統(tǒng)計學面臨著巨大的機遇與挑戰(zhàn),然而為了適應大數(shù)據(jù)這一新的研究對象,傳統(tǒng)統(tǒng)計學必須進行改進,以繼續(xù)和更好的服務于人類.目前國內(nèi)外將大數(shù)據(jù)和統(tǒng)計學相結合的研究文獻并不多.本文對大數(shù)據(jù)時代這一特定環(huán)境背景,統(tǒng)計學的抽樣理論和總體理論的存在價值、統(tǒng)計方法的重構及統(tǒng)計結果的評價標準的重建等問題進行分析與研究.

1傳統(tǒng)意義下的統(tǒng)計學

廣泛的統(tǒng)計學包括三個類型的統(tǒng)計方法:①處理大量隨機現(xiàn)象的統(tǒng)計方法,比如概率論與數(shù)理統(tǒng)計方法.②處理非隨機非概率的描述統(tǒng)計方法,如指數(shù)編制、社會調(diào)查等方法.③處理和特定學科相關聯(lián)的特殊方法,如經(jīng)濟統(tǒng)計方法、環(huán)境科學統(tǒng)計方法等[7].受收集、處理數(shù)據(jù)的工具和能力的限制,人們幾乎不可能收集到全部的數(shù)據(jù)信息,因此傳統(tǒng)的統(tǒng)計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數(shù)據(jù),但從實際角度出發(fā),因所需成本過大,也會放棄搜集全部數(shù)據(jù).然而,選擇最佳的抽樣方法和統(tǒng)計分析方法,也只能最大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數(shù)據(jù)特征也只是總體大量特征中的一小部分,更多的其他特征尚待發(fā)掘.總之,傳統(tǒng)統(tǒng)計學是建立在抽樣理論基礎上,以點帶面的統(tǒng)計分析方法,強調(diào)因果關系的統(tǒng)計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數(shù)據(jù)從而探索數(shù)據(jù)內(nèi)部存在規(guī)律的一門科學.

2統(tǒng)計學是大數(shù)據(jù)分析的核心

數(shù)的產(chǎn)生基于三個要素,分別是數(shù)、量和計量單位.在用數(shù)來表示事物的特征并采用了科學的計量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù),即有根據(jù)的數(shù).科學數(shù)據(jù)是基于科學設計,通過使用觀察和測量獲得的數(shù)據(jù),認知自然現(xiàn)象和社會現(xiàn)象的變化規(guī)律,或者用來檢驗已經(jīng)存在的理論假設,由此得到了具有實際意義和理論意義的數(shù)據(jù).從數(shù)據(jù)中獲得科學數(shù)據(jù)的理論,即統(tǒng)計學理論.科學數(shù)據(jù)是通過統(tǒng)計學理論獲得的,而統(tǒng)計學理論是為獲得科學數(shù)據(jù)而產(chǎn)生的一門科學.若說數(shù)據(jù)是傳達事物特征的精確語言,進行科學研究的必備條件,認知世界的重要工具,那么大數(shù)據(jù)分析就是讓數(shù)據(jù)最大限度地發(fā)揮功能,充分表達并有效滿足不同需求的基本要求.基于統(tǒng)計學的發(fā)展史及在數(shù)據(jù)分析中的作用,完成將數(shù)據(jù)轉化為知識、挖掘數(shù)據(jù)內(nèi)在規(guī)律、通過數(shù)據(jù)發(fā)現(xiàn)并解決實際問題、預測可能發(fā)生的結果等是研究大數(shù)據(jù)的任務,而這必然離不開統(tǒng)計學.以大數(shù)據(jù)為研究對象,通過數(shù)據(jù)挖掘、提取、分析等手段探索現(xiàn)象內(nèi)在本質的數(shù)據(jù)科學必須在繼承或改進統(tǒng)計學理論的基礎上產(chǎn)生.

統(tǒng)計數(shù)據(jù)的發(fā)展變化經(jīng)歷了一系列過程,從只能收集到少量的數(shù)據(jù)到盡量多地收集數(shù)據(jù),到科學利用樣本數(shù)據(jù),再到綜合利用各類數(shù)據(jù),以至于發(fā)展到今天的選擇使用大數(shù)據(jù)的過程.而統(tǒng)計分析為了適應數(shù)據(jù)可觀察集的不斷增大,也經(jīng)歷了相應的各個不同階段,產(chǎn)生了統(tǒng)計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數(shù)據(jù)量以指數(shù)速度的不斷增長,統(tǒng)計學圍繞如何搜集、整理和分析數(shù)據(jù)而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現(xiàn)在進入了大數(shù)據(jù)時代,統(tǒng)計學依舊是數(shù)據(jù)分析的靈魂,大數(shù)據(jù)分析是數(shù)據(jù)科學賦予統(tǒng)計學的新任務.對于統(tǒng)計學而言,來自新時代的數(shù)據(jù)科學挑戰(zhàn)有可能促使新思想、新方法和新技術產(chǎn)生,這一挑戰(zhàn)也意味著對于統(tǒng)計學理論將面臨巨大的機遇.

3統(tǒng)計學在大數(shù)據(jù)時代下必須改革

傳統(tǒng)統(tǒng)計學是通過對總體進行抽樣來搜索數(shù)據(jù),對樣本數(shù)據(jù)進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統(tǒng)計結果的評判標準都是離不開樣本的抽取,完全不能適應大數(shù)據(jù)的4V特點,所以統(tǒng)計學為適應大數(shù)據(jù)技術的發(fā)展,必須進行改革.從學科發(fā)展角度出發(fā),大數(shù)據(jù)對海量數(shù)據(jù)進行存儲、整合、處理和分析,可以看成是一種新的數(shù)據(jù)分析方法.數(shù)據(jù)關系的內(nèi)在本質決定了大數(shù)據(jù)和統(tǒng)計學之間必然存在聯(lián)系,大數(shù)據(jù)對統(tǒng)計學的發(fā)展提出了挑戰(zhàn),體現(xiàn)在大樣本標準的調(diào)整、樣本選取標準和形式的重新確定、統(tǒng)計軟件有待升級和開發(fā)及實質性統(tǒng)計方法的大數(shù)據(jù)化.但是也提供了一個機遇,體現(xiàn)在統(tǒng)計質量的提高、統(tǒng)計成本的下降、統(tǒng)計學作用領域的擴大、統(tǒng)計學科體系的延伸以及統(tǒng)計學家地位的提升[7].

3.1大數(shù)據(jù)時代抽樣和總體理論存在價值

傳統(tǒng)統(tǒng)計學中的樣本數(shù)據(jù)來自總體,而總體是客觀存在的全體,可以通過觀測到的或經(jīng)過抽樣而得到的數(shù)據(jù)來認知總體.但是在大數(shù)據(jù)時代,不再是隨機樣本,而是全部的數(shù)據(jù),還需要假定一個看不見摸不著的總體嗎?如果將大數(shù)據(jù)看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統(tǒng)統(tǒng)計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數(shù)據(jù)的復雜程度.但實際上很難做得到,大數(shù)據(jù)涵蓋多學科領域、多源、混合的數(shù)據(jù),各學科之間的數(shù)據(jù)融合,學科邊界模糊,各范疇的數(shù)據(jù)集互相重疊,合成一體,而且大數(shù)據(jù)涉及到各種數(shù)據(jù)類型.因此想要通過抽樣而使數(shù)據(jù)量達到傳統(tǒng)統(tǒng)計學的統(tǒng)計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數(shù)據(jù)和非結構數(shù)據(jù)交織在一起,系統(tǒng)首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數(shù)據(jù)信息來自于同一個地址的數(shù)據(jù)源,等等,傳統(tǒng)的統(tǒng)計學是無法做到的.在大數(shù)據(jù)時代下,是否需要打破傳統(tǒng)意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數(shù)據(jù)時代下,傳統(tǒng)統(tǒng)計學面臨改進的首要問題.

3.2統(tǒng)計方法在大數(shù)據(jù)時代下的重構問題

在大數(shù)據(jù)時代下,傳統(tǒng)的高維度表達、結構描述和群體行為分析方法已經(jīng)不能精確表達大數(shù)據(jù)在異構性、交互性、時效性、突發(fā)性等方面的特點,傳統(tǒng)的“假設-模型-檢驗”的統(tǒng)計方法受到了質疑,而且從“數(shù)據(jù)”到“數(shù)據(jù)”的統(tǒng)計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數(shù)據(jù)噪聲、篩選有價值的數(shù)據(jù)、整合不同類型的數(shù)據(jù)、快速對數(shù)據(jù)做出分析并得出分析結果等一系列問題都有待于研究.大數(shù)據(jù)分析涉及到三個維度,即時間維度、空間維度和數(shù)據(jù)本身的維度,怎樣才能全面、深入地分析大數(shù)據(jù)的復雜性與特性,掌握大數(shù)據(jù)的不確定性,構建高效的大數(shù)據(jù)計算模型,變成了大數(shù)據(jù)分析的突破口.科學數(shù)據(jù)的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數(shù)據(jù)的統(tǒng)計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發(fā)展過程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數(shù)據(jù)時代的到來統(tǒng)計學理論必須要進行不斷的完善和發(fā)展,以適應呈指數(shù)增長的數(shù)據(jù)量的大數(shù)據(jù)分析的需要.

3.3如何構建大數(shù)據(jù)時代下統(tǒng)計結果的評價標準框架

大數(shù)據(jù)時代下,統(tǒng)計分析評價的標準又該如何變化?傳統(tǒng)統(tǒng)計分析的評價標準有兩個方面,一是可靠性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.可靠性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.可靠性評價有時表現(xiàn)為置信水平,有時表現(xiàn)為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統(tǒng)計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數(shù)據(jù)在一定程度上是全體數(shù)據(jù),因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、可靠性問題怎么確定?依據(jù)是什么?有效性評價指的是真實性,即為誤差的大小,它與準確性、精確性有關.通常準確性是指觀察值與真實值的吻合程度,一般是無法衡量的,而精確性用抽樣分布的標準差來衡量.顯然,精確性是針對樣本數(shù)據(jù)而言的,也就是說樣本數(shù)據(jù)有精確性問題,同時也有準確性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數(shù)據(jù)中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數(shù)情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數(shù)據(jù)的全體數(shù)據(jù)而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的真實性只表現(xiàn)為準確性.但是由于大數(shù)據(jù)特有的種種特性,使得大數(shù)據(jù)的非抽樣誤差很難進行防范、控制,也很難對其進行準確性評價.總之,對于大數(shù)據(jù)分析來說,有些統(tǒng)計分析理論是否還有意義,確切說有哪些統(tǒng)計學中的理論可以適用于大數(shù)據(jù)分析,而哪些統(tǒng)計學中的理論需要改進,哪些統(tǒng)計學中的理論已不再適用于大數(shù)據(jù)統(tǒng)計研究,等等,都有待于研究.所以大數(shù)據(jù)時代的統(tǒng)計學必是在繼承中求改進,改進中求發(fā)展,重構適應大數(shù)據(jù)時代的新統(tǒng)計學理論.

4結論

來自于社會各種數(shù)據(jù)源的數(shù)據(jù)量呈指數(shù)增長,大數(shù)據(jù)對社會發(fā)展的推動力呈指數(shù)效應,大數(shù)據(jù)已是生命活動的主要承載者.一個新事物的出現(xiàn),必然導致傳統(tǒng)觀念和傳統(tǒng)技術的變革.對傳統(tǒng)統(tǒng)計學來說,大數(shù)據(jù)時代的到來無疑是一個挑戰(zhàn),雖然傳統(tǒng)統(tǒng)計學必須做出改變,但是占據(jù)主導地位的依然會是統(tǒng)計學,它會引領人類合理分析利用大數(shù)據(jù)資源.大數(shù)據(jù)給統(tǒng)計學帶來了機遇和挑戰(zhàn),統(tǒng)計學家們應該積極學習新事物,適應新環(huán)境,努力為大數(shù)據(jù)時代創(chuàng)造出新的統(tǒng)計方法,擴大統(tǒng)計學的應用范圍.

參考文獻:

[1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應用模型[J]沈陽大學學報(自然科學版),2015,27(4):296300.

[3]卞友江.“大數(shù)據(jù)”概念考辨[J].新聞研究導刊,2013,35(5):2528.

[5]靳小龍,王元卓,程學旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術,2013(6):3543.

[6]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析:Rdbms與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.

[7]游士兵,張佩,姚雪梅.大數(shù)據(jù)對統(tǒng)計學的挑戰(zhàn)和機遇[J].珞珈管理評論,2013(2):165171.

[8]李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014,31(1):1017.

第4篇:統(tǒng)計數(shù)據(jù)分析范文

關鍵詞:計算機;統(tǒng)計;數(shù)據(jù)信息

中圖分類號:F22文獻標志碼:A文章編號:1673-291X(2009)17-0250-02

在計算機“醫(yī)院信息系統(tǒng)”網(wǎng)絡工程實行以來,基層醫(yī)院醫(yī)務統(tǒng)計工作者用得最多的兩個模塊是“醫(yī)務統(tǒng)計”和“數(shù)據(jù)上報”?!搬t(yī)務統(tǒng)計”模塊是“醫(yī)院信息系統(tǒng)”中為醫(yī)務統(tǒng)計部門設計的醫(yī)務統(tǒng)計系統(tǒng),該系統(tǒng)分三大模塊,即日統(tǒng)計模塊、月統(tǒng)計模塊和年統(tǒng)計模塊;“數(shù)據(jù)上報”模塊是“綜合統(tǒng)計信息服務系統(tǒng)”內(nèi)容之一,該模塊充分利用“醫(yī)院信息系統(tǒng)”工程各網(wǎng)絡站運轉工程中產(chǎn)生的數(shù)據(jù)資源進行核查和上報。在醫(yī)院統(tǒng)計工作中,對大量數(shù)據(jù)的整理分析的基礎正是源于“醫(yī)務統(tǒng)計”、“數(shù)據(jù)上報”所提供的數(shù)據(jù),我們更可以依次為醫(yī)院管理層提供可供參考的有價數(shù)據(jù),為醫(yī)院的今后發(fā)展作出貢獻。

醫(yī)院醫(yī)務統(tǒng)計工作除了要收集、統(tǒng)計各類資料,監(jiān)測、分析客觀描述與分析本單位醫(yī)院管理工作情況,介紹先進經(jīng)驗,提出存在問題,提出科學管理的可靠的數(shù)據(jù)依據(jù)與合理建議,向醫(yī)院各級提供依據(jù)和進行統(tǒng)計分析外,還有一個十分重要的工作就是完成規(guī)定的院內(nèi)統(tǒng)計和各類報表。要想即時、準確、規(guī)范地做好各類報表工作,作為統(tǒng)計工作者必須支持保證“醫(yī)院信息統(tǒng)計”工程中的“醫(yī)務統(tǒng)計”模塊和“數(shù)據(jù)上報”模塊的完整性,筆者認為,可以從以下幾個方面著手:

1.堅持每日做好對各醫(yī)療部門日志報表的監(jiān)測工作

這是工作中必須要做好的,運用“醫(yī)療統(tǒng)計”子系統(tǒng),在規(guī)定的時間內(nèi)做好后臺統(tǒng)計工作,對每天的日志報表進行調(diào)整。與之相關的其他模塊有:住院登記、門診掛號、病案編目和各科室的護士站以及醫(yī)技科室,其中,尤為重要、需要區(qū)別處理的是門診醫(yī)生工作日報的出診和復診新、舊病例必須在統(tǒng)計員的監(jiān)督下保持一致性,對于疾病名稱的填寫要實事求是,不要漏報以造成不必要的數(shù)據(jù)流失。同時,對每天可能發(fā)生數(shù)據(jù)變化的部門進行及時溝通,補充統(tǒng)計資料使得統(tǒng)計工作做到及時、準確、完整。

2.每日做好對各醫(yī)療部門日志報表的整理、分析工作

這項工作首先要錄入當日所收集報表信息。錄入前統(tǒng)計室對流動日報每天都要做到三查:一查病人數(shù),按各科系核對入院、出院、死亡、轉科人數(shù);二查編碼,即醫(yī)療體系編碼、科室編碼和醫(yī)師編碼;三查分類,即病種分類和類別分類是否正確,以備計算輸出報表時查對。

3.做好對每個出院病人的病案編目工作

出院病人信息錄入,這項工作與各個醫(yī)生工作站、護士工作站、門診住院登記、住院收費系統(tǒng)、病案編目系統(tǒng)等發(fā)生聯(lián)系,也就是說以上這些工作質量的好壞,直接影響到數(shù)據(jù)的質量。首先,門診住院登記錄入首頁基本信息,項目應完整;其次,護士工作站應按時、按規(guī)定做好病人出院的工作,在這里特別要注意的是對出院、撤銷出院、轉科等要特別慎重,往往就是日報、月報出錯的主要原因;再次,各醫(yī)生工作站按規(guī)定要求,錄入填寫好各項首頁內(nèi)容,注意應完整、準確。

住院收費處做好收費結賬統(tǒng)計工作后,由病案室再出院三日內(nèi)進行病案編目工作,完成全部病案首頁編目工作后,同時,對已經(jīng)編目的病案進行核對、檢查。

統(tǒng)計人員應對每天的病案編目情況進行檢查,隨時檢出超三日歸檔的病歷,按時進行病案編目工作。

4 .做好輔助科室及門急診、手術等綜合數(shù)據(jù)錄入工作

為了能在“醫(yī)務統(tǒng)計”和“綜合查詢”模塊中能夠準確看到每天醫(yī)技工作情況,各個醫(yī)技科室對每天產(chǎn)生的醫(yī)技工作情況進行數(shù)據(jù)錄入(在“綜合統(tǒng)計服務系統(tǒng)”中“病案統(tǒng)計查詢”系統(tǒng)可以進行查看)。統(tǒng)計人員進行數(shù)據(jù)核準,同時,在“上報數(shù)據(jù)”系統(tǒng)中進行基本情況、護理情況、醫(yī)技情況等數(shù)據(jù)錄入工作。

5 嚴格進行數(shù)據(jù)核查及核對病歷首頁

“數(shù)據(jù)上報”系統(tǒng)的數(shù)據(jù)內(nèi)容來自兩個途徑,一個是通過手工錄入實現(xiàn)數(shù)據(jù)上報,另一部分是通過網(wǎng)絡采集實現(xiàn)數(shù)據(jù)上報。各類數(shù)據(jù)上報必須對通過網(wǎng)絡采集實現(xiàn)上報的數(shù)據(jù)進行核查,對數(shù)據(jù)上報系統(tǒng)中病案首頁單項或全項進行核對,對上報首頁數(shù)據(jù)進行逐項檢查,找出數(shù)據(jù)出錯源頭并進行修改。這里值得強調(diào)的是,首先,注意各個數(shù)據(jù)項目間的邏輯關系;其次,為規(guī)范數(shù)據(jù)統(tǒng)一數(shù)據(jù)上報,使用“數(shù)據(jù)上報”前,必須與“醫(yī)院信息統(tǒng)計系統(tǒng)”工程所使用字典的項目、名稱一致,費用分類字典必須按四版常規(guī)要求設置;再次,搶救次數(shù)及搶救成功判定,分清一次、二次搶救成功的概念及搶救無效失敗和慢性消耗性疾病臨終搶救的概念;再有病案室出院病案是否按時歸檔入機,編碼是否符合編碼原則;最后,分清主要診斷、第一診斷、最后診斷的概念,正確選擇和確定主要診斷。

核對病歷首頁,病歷是統(tǒng)計數(shù)據(jù)的基礎,而病歷首頁是統(tǒng)計工作最重要的信息員。保證錄入首頁的數(shù)據(jù)質量十分重要。質量不高會給日后工作帶來無法補救的損失。在首頁錄入計算機之前,由統(tǒng)計室再填寫住院卡片過程中,對所有病歷逐份進行審查,發(fā)現(xiàn)問題及時糾正,保證數(shù)據(jù)準確可靠。首頁項目繁多,逐項核對確有困難,檢查時應全面完整、重點突出。主要做到七對:一對病案號,防止出現(xiàn)缺號、錯號;二對疾病診斷,關鍵是主要診斷的選擇和確定;三對疾病編碼,發(fā)現(xiàn)漏項或有疑問時及時與病案室聯(lián)系;四對治療結果,尤其是注意非病人和產(chǎn)科病人治療結果的判定;五對診斷符合情況,主要核對判定的是否正確;六對手術情況,核對切口分類、愈合等級和手術日期是否有誤;七對住院費用,發(fā)現(xiàn)漏項及時補上。以上幾點的準確與否直接影響到統(tǒng)計準確及病種質量和分析,甚至影響到領導的決策。

做好“醫(yī)務統(tǒng)計”和“數(shù)據(jù)上報”的前提必須是“醫(yī)院信息系統(tǒng)”正常運行,網(wǎng)絡管理技術人員必須保證網(wǎng)絡正常運行和網(wǎng)絡維護系統(tǒng)完善,系統(tǒng)軟件計算公式正確。流程優(yōu)化按照“以病人為中心”的現(xiàn)代醫(yī)院管理思想進行業(yè)務流程優(yōu)化,通過統(tǒng)一單據(jù)信息、統(tǒng)一數(shù)據(jù)來源、簡化記賬過程、減少單據(jù)流轉環(huán)節(jié),從而最大限度地提高醫(yī)院運行效率和醫(yī)院管理水平。

第5篇:統(tǒng)計數(shù)據(jù)分析范文

【關鍵詞】數(shù)據(jù)統(tǒng)計分析;港口管理;重要作用

一、前言

在港口的日常管理中,考慮到貨物的流動性較大,并且貨物種類較多的特點,要想保證港口的日常管理取得積極效果,滿足港口管理需要,就要在港口日常管理中積極引入數(shù)據(jù)統(tǒng)計分析手段,實現(xiàn)對港口貨物的有效統(tǒng)計,保證港口管理能夠有第一手的數(shù)據(jù)作為支撐,為港口分析整體效益和制定經(jīng)營策略提供有力保證。從這一點來看,港口管理中應對數(shù)據(jù)統(tǒng)計分析引起足夠的重視,應從港口管理實際出發(fā),分析數(shù)據(jù)統(tǒng)計分析對港口管理的重要作用和意義,將數(shù)據(jù)統(tǒng)計分析作為重要的管理手段,提高港口管理的整體效果。

二、數(shù)據(jù)統(tǒng)計分析手段在港口管理中的應用

目前來看,數(shù)據(jù)統(tǒng)計分析手段在港口管理的應用主要表現(xiàn)在以下幾個方面:

1.數(shù)據(jù)采集與數(shù)據(jù)傳輸。目前各港貨物吞吐量的統(tǒng)計已基本實現(xiàn)了數(shù)據(jù)采集的信息化,做到數(shù)據(jù)文件傳輸?shù)臏蚀_及時。如廈門港已開發(fā)了港口生產(chǎn)統(tǒng)計管理系統(tǒng),各碼頭公司也相應擁有自己的統(tǒng)計系統(tǒng),數(shù)據(jù)源直接可以通過碼頭一線操作系統(tǒng)傳入碼頭公司內(nèi)部統(tǒng)計管理系統(tǒng),加工處理后,再和管理局的生產(chǎn)統(tǒng)計系統(tǒng)對接。

2.數(shù)據(jù)存儲。由于要做到詳細掌握每條船每批次貨品的具體數(shù)量和儲存情況,每月每年累計下來,將會形成大量的基礎數(shù)據(jù),因此必須配備專門設備進行存儲。廈門港已在港口生產(chǎn)統(tǒng)計管理系統(tǒng)投入使用后,配套配備了專門的存儲器進行處理和存儲,并進行定期的維護。

3.數(shù)據(jù)分析應用。該層可以進行統(tǒng)計查詢、統(tǒng)計服務,通過對數(shù)據(jù)庫中的各種數(shù)據(jù)進行分析、統(tǒng)計、建模、歸類等工作,?可以為管理人員提供決策支持,幫助管理人員做出好的決策,提供了聯(lián)機分析處理和數(shù)據(jù)挖掘服務。

三、數(shù)據(jù)統(tǒng)計分析對港口管理的重要作用

從數(shù)據(jù)統(tǒng)計分析手段在港口管理中的應用來看,數(shù)據(jù)統(tǒng)計分析對港口管理的重要作用主要表現(xiàn)在以下兩個方面:

1.數(shù)據(jù)統(tǒng)計分析能夠綜合分析港口的吞吐量。數(shù)據(jù)統(tǒng)計分析的具體做法是對港口貨物的種類和數(shù)量進行全面計算,并最終形成每日或者周期性的通過圖表等形式反映出來的吞吐量完成情況,為港口日常管理提供直觀的數(shù)據(jù)支撐。所以,數(shù)據(jù)統(tǒng)計分析對分析港口吞吐量具有重要作用。

2.數(shù)據(jù)統(tǒng)計分析能夠正確計算港口的整體效益。在數(shù)據(jù)統(tǒng)計分析中,不但能夠計算港口的吞吐量,還能計算港口的整體經(jīng)營收入。通過固定的收費項目和收費標準,計算出港口的基本收入情況,進而驗證港口的實際收入是否存在出入,形成對整體經(jīng)營管理效益的合理核算。所以,數(shù)據(jù)統(tǒng)計分析手段對港口的日常管理具有重要的促進作用。

四、數(shù)據(jù)統(tǒng)計分析對港口管理的重要意義

考慮到數(shù)據(jù)統(tǒng)計分析的作用及其在港口管理中的應用,數(shù)據(jù)統(tǒng)計分析手段對港口的管理具有重要意義,具體表現(xiàn)在以下幾個方面:

1.數(shù)據(jù)統(tǒng)計分析對提升港口經(jīng)營管理水平具有重要意義。港口作為重要的交通貨運樞紐,其經(jīng)營管理水平不但關系到港口的整體效益,還關系到港口的未來發(fā)展。為此,通過港口數(shù)據(jù)統(tǒng)計分析直接反映港口的實際經(jīng)營情況,對提升港口經(jīng)營管理水平具有重要的促進作用和指導意義。

2.數(shù)據(jù)統(tǒng)計分析對促進港口持續(xù)健康發(fā)展具有重要意義。考慮到數(shù)據(jù)統(tǒng)計分析的重要作用,在港口日常管理中,數(shù)據(jù)統(tǒng)計分析手段得到了充分應用。由此可見,數(shù)據(jù)統(tǒng)計分析為促進港口持續(xù)健康發(fā)展具有重要意義。

五、結論

通過本文的分析可知,在港口日常管理中,數(shù)據(jù)統(tǒng)計分析作為一種基礎手段應該得到應有的重視。為此,我們應立足港口管理實際,認識到數(shù)據(jù)統(tǒng)計分析在港口管理的中作用和意義,重點做好統(tǒng)計分析工作,滿足港口管理需要,為港口發(fā)展提供有力的支持。

參考文獻:

[1]白雪潔.中國港口經(jīng)營與管理發(fā)展特征和趁勢[J].港口經(jīng)濟, 2009年04期

[2]高素爭.港口統(tǒng)計數(shù)據(jù)質量的評價分析[D].大連海事大學, 2010年

[3]黃始堅.完善企業(yè)統(tǒng)計制度促進施工企業(yè)發(fā)展[J].企業(yè)科技與發(fā)展,2011年14期

[4]黃杰.沿海港口吞吐量與國民經(jīng)濟關系研究[D].大連海事大學,2011年

第6篇:統(tǒng)計數(shù)據(jù)分析范文

關鍵詞:數(shù)據(jù)備份;數(shù)據(jù)去重;數(shù)據(jù)碎片;去重技術

中圖分類號:TP309.3 文獻標識碼:A 文章編號:1674-7712 (2012) 18-0043-01

一、數(shù)據(jù)去重技術

(一)全局去重和局部去重技術。可分為全局去重和局部去重技術。全局去重主要應用在有多個去重設備的環(huán)境里,它會對多個已去重的庫、目標和站點進行數(shù)據(jù)的比對,然后對重復數(shù)據(jù)進行刪除。它可以刪除多節(jié)點間的冗余數(shù)據(jù)。使用全局去重后,如果數(shù)據(jù)從第一個節(jié)點傳遞到第二個節(jié)點,那么第一個節(jié)點存儲過的數(shù)據(jù),第二個節(jié)點將不再存儲。

局部去重則不考慮多個節(jié)點間的冗余數(shù)據(jù),它僅刪除同一臺機器、同一個客戶端、或同一個存儲節(jié)點上的冗余數(shù)據(jù)。

這兩種去重方式,全局去重的壓縮率要比局部去重的壓縮率高,因為全局去重比局部去重所刪除掉的重復數(shù)據(jù)要多;但是局部去重的開銷要比全局去重的開銷少,因為全局去重需要對多個存儲節(jié)點上的數(shù)據(jù)進行查詢,刪除多個節(jié)點之間存在的重復數(shù)據(jù),其帶來的開銷也會比局部去重大很多。也正是因為這一點,很多公司,實現(xiàn)的全局去重所關注的存儲節(jié)點數(shù)也非常有限的。

(二)文件級和數(shù)據(jù)塊級(字節(jié)級)去重技術。根據(jù)重復數(shù)據(jù)的鑒別粒度,數(shù)據(jù)去重可分為文件級的去重技術(單實例存儲技術)和數(shù)據(jù)塊級(字節(jié)級)去重技術。

文件級的重復數(shù)據(jù)去重技術使用哈希函數(shù)計算每個文件內(nèi)容的哈希值,然后根據(jù)索引檢查需要備份的文件屬性,并與已經(jīng)存儲的文件進行比較,如果兩個文件的哈希值相同,則刪除相同內(nèi)容的文件來減少數(shù)據(jù)存儲量,節(jié)約存儲空間,如果哈希值不同,就將其存儲。

數(shù)據(jù)塊級的重復數(shù)據(jù)去重技術是在子文件的級別上運行的,主要通過刪除內(nèi)容相同的數(shù)據(jù)塊來減少數(shù)據(jù)量。正如它的名字,文件或數(shù)據(jù)流通常在這里會被分割為較小的數(shù)據(jù)塊(每個供應商檢查的數(shù)據(jù)塊大小不一,一些供應商固定數(shù)據(jù)塊的大小,一些則使用不同大小的塊,數(shù)據(jù)塊的平均大小一般在4KB~8KB左右),然后使用哈希函數(shù)求取每個數(shù)據(jù)塊的哈希值,這些哈希值常被稱為數(shù)據(jù)塊指紋。數(shù)據(jù)塊指紋是用來唯一標識一個數(shù)據(jù)塊的,具有相同指紋的兩個數(shù)據(jù)塊即為重復數(shù)據(jù)塊。

這兩種去重技術,其中文件級的重復數(shù)據(jù)去重技術能達到的壓縮率較低,因為它不能刪除相似文件之間的重復數(shù)據(jù)。而數(shù)據(jù)塊級的數(shù)據(jù)去重技術由于不僅能刪除相同的文件,還能刪除相似文件中的相同數(shù)據(jù)塊因此有較高的壓縮率,它是目前為止使用最廣泛的數(shù)據(jù)去重技術。但是,由于數(shù)據(jù)塊級去重技術的鑒別和刪除粒度更細,因此它帶來的開銷也比文件級的更大。

(三)在線去重技術和離線去重技術。根據(jù)重復數(shù)據(jù)的刪除時間劃分,數(shù)據(jù)去重技術可分為在線去重和離線去重技術。

在線去重技術是指在數(shù)據(jù)到達存儲設備之前就對重復數(shù)據(jù)進行查找和刪除,存儲設備上不存儲重復的數(shù)據(jù)塊。由于査找和刪除重復數(shù)據(jù)這一過程發(fā)生在數(shù)據(jù)寫的關鍵路徑上,因而數(shù)據(jù)去重會對存儲系統(tǒng)的存儲性能產(chǎn)生一定的影響,嚴重的會影響存儲系統(tǒng)的數(shù)據(jù)寫性能。

離線去重需要額外的存儲空間做緩沖,是屬于后處理的去重模式,在運行時不影響上層應用程序的存儲性能,但需要額外的存儲空間做緩沖區(qū)。

目前,數(shù)據(jù)備份系統(tǒng)一般都使用在線去重技術,因為當前的數(shù)據(jù)備份系統(tǒng)都不是實時應用系統(tǒng),對存儲的性能要求也不高。如果是實時關鍵應用或對存儲系統(tǒng)存儲性能要求很高,離線去重技術更合適。

(四)源端去重和目標端去重技術。依據(jù)重復數(shù)據(jù)的刪除地點,數(shù)據(jù)去重可以分為源端去重技術和目標端去重技術。

源端去重技術即在數(shù)據(jù)的發(fā)送端,一般指客戶端,對數(shù)據(jù)進行查找并刪除重復的數(shù)據(jù)。這種去重技術非常適合廣域網(wǎng)寬帶較低的網(wǎng)絡環(huán)境下的備份系統(tǒng),由于重復的數(shù)據(jù)不參與傳輸和運輸,它可以減少傳輸?shù)臄?shù)據(jù)量,加快數(shù)據(jù)傳輸。但由于源端去重需要現(xiàn)在發(fā)送端進行查找和刪除重復數(shù)據(jù),所以會占用源端機器資源,進而影響源端機器的應用性能。

目標端去重即在數(shù)據(jù)的接收端、存儲端,查找并刪除重復的數(shù)據(jù)。由于目標端去重只需要在目標端,即服務器端對重復數(shù)據(jù)進行查找和刪除,不需要源端進行任何去重處理。因此在數(shù)據(jù)傳輸帶寬較高的情況下,目標端去重更占優(yōu)勢。

二、數(shù)據(jù)去重技術面臨的挑戰(zhàn)

(一)數(shù)據(jù)去重的可擴展性尚待提高。隨著數(shù)據(jù)量的不斷增長,數(shù)據(jù)備份系統(tǒng)仍需要應對超大數(shù)據(jù)量這一問題。因此如何在多個存儲節(jié)點之間快速去重仍然是熱點研究問題。如何充分利用現(xiàn)有的存儲設備、建立多層次索引、減少去重開銷,快速查找重復數(shù)據(jù)仍是數(shù)據(jù)去重技術面臨的最大的問題。

(二)如何減少數(shù)據(jù)去重引起的數(shù)據(jù)碎片有待解決。數(shù)據(jù)去重需要刪除多個文件之間的重復數(shù)據(jù),首先由于現(xiàn)有大多數(shù)去重方法都傾向于利用數(shù)據(jù)冗余局部性來緩解數(shù)據(jù)去重過程中所遇到的磁盤瓶頸,提高數(shù)據(jù)去重吞吐率,但是隨著數(shù)據(jù)碎片逐漸增多,備份數(shù)據(jù)流之間出現(xiàn)的數(shù)據(jù)冗余局部性會減弱,從而導致依賴數(shù)據(jù)冗余局部性來緩解數(shù)據(jù)去重中磁盤瓶頸的數(shù)據(jù)去重方法失去其有效性,嚴重影響數(shù)據(jù)去重的性能。

其次由于數(shù)據(jù)去重的處理,一個文件產(chǎn)生的大量數(shù)據(jù)碎片將導致一個文件的讀取需要大量的磁盤1/0,甚至可能每讀取一個數(shù)據(jù)塊都需要一次磁盤1/0,大大降低了系統(tǒng)的數(shù)據(jù)讀性能。

(三)數(shù)據(jù)去重技術有待規(guī)范化。數(shù)據(jù)去重方法是否有效性取決于數(shù)據(jù)集中重復數(shù)據(jù)的特征,目前有很多種數(shù)據(jù)去重方法。然而,要使數(shù)據(jù)去重技術能廣泛應用,無疑需要對目前所使用的數(shù)據(jù)去重技術以及對應數(shù)據(jù)集的特征通過一個統(tǒng)一的標準來規(guī)范,給研究者提供一個標準,給存儲用戶提供規(guī)范的接口,以便于未來數(shù)據(jù)去重技術的推廣。

本文通過探討當前數(shù)據(jù)備份系統(tǒng)中的幾種數(shù)據(jù)去重技術的原理及其優(yōu)缺點,分析目前數(shù)據(jù)去重技術所面臨的挑戰(zhàn),希望能為數(shù)據(jù)備份系統(tǒng)中的數(shù)據(jù)去重技術做一個總結和展望,以期未來更好的去應對去重技術面臨的挑戰(zhàn)。

第7篇:統(tǒng)計數(shù)據(jù)分析范文

【關鍵詞】 高速數(shù)據(jù)通信 系統(tǒng)加固技術 分析 研究

在系統(tǒng)設計中數(shù)據(jù)通信是經(jīng)常可見到的,特別是在現(xiàn)代的數(shù)字系統(tǒng)中的影響力已不容忽視,是其中的關鍵技術之一。系統(tǒng)加固是由設計系統(tǒng)的可靠性的概念而發(fā)展起來的,與數(shù)據(jù)通信相比,系統(tǒng)加固對于平常的系統(tǒng)來說是不重要的,但是在星載設備的設計中它的作用是非常重要的。由于航天技術的飛速發(fā)展,系統(tǒng)加固技術也日益成為學者們關注的重點。

一、高速數(shù)據(jù)通信技術的發(fā)展現(xiàn)狀

在以前的電路設計中比較常用的是并行總線技術,它是以TTL或CMOS電平為基礎的,它的接口比較簡單,易于實現(xiàn)。但是隨著設計處理機的復雜度的加大和數(shù)字技術的飛速發(fā)展,并行總線技術也就顯得不靈活,串行總線正在取而代之。串行總線是在發(fā)送數(shù)據(jù)時,運用串化的方法將數(shù)據(jù)按照高低位次串在一條數(shù)據(jù)鏈上進行發(fā)送,這樣做就使系統(tǒng)互聯(lián)的復雜度得到了簡化,使數(shù)據(jù)傳輸?shù)馁|量得到了很大程度的提高。但是之前的串行技術還是會受到干擾,直到出現(xiàn)了低電壓差分信號(LVDS),使數(shù)據(jù)傳輸?shù)乃俣扔辛诵碌耐黄?,為高速?shù)據(jù)通信的發(fā)展提供了新的途徑。

二、系統(tǒng)加固技術的研究現(xiàn)狀

系統(tǒng)加固是通過加入設計或者是改變元件,使系統(tǒng)抵抗核子輻照或者宇宙輻照的功能得到加強,使設備在運行時的穩(wěn)定性增強并且提高設備的使用壽命的一種技術。

導致航天電子設備出現(xiàn)故障的一個重要的原因就是輻照,它是由于各種宇宙的射線和核爆炸造成的。到目前為止,抗輻照加固技術的研究主要有兩個方面:運用模型仿真和實際的實驗驗證。我國雖然很早之前就對抗輻照加固技術進行了研究,但是由于條件不允許,對輻照的傷害原理和模型方面以及抗輻照的方法方面研究的較多,而實際的實驗進行的很少。

三、數(shù)據(jù)通信加固的研究

抗輻照系統(tǒng)加固的設計催生了數(shù)據(jù)通信加固的出現(xiàn),數(shù)據(jù)通信加固與系統(tǒng)加固的目的是一樣的,都是使系統(tǒng)的穩(wěn)定性增強,但是與系統(tǒng)加固相比,通信的加固要簡單一些,在無線的應用方面主要是運用信道編碼使接受的誤碼率降低,在有線的運用方面是在傳輸中,改善信道的質量,使信號的傳輸質量提高。到目前為止,大多數(shù)的高速數(shù)據(jù)通信實現(xiàn)同步傳輸?shù)姆绞蕉际沁\用信道編碼調(diào)制技術,這樣雖然可以使傳輸?shù)乃俾屎头€(wěn)定性得到很大程度的提高,但是會使誤碼衍生。

四、輻照和數(shù)據(jù)通信對系統(tǒng)穩(wěn)定性的影響

4.1 輻照對系統(tǒng)穩(wěn)定性的影響

太陽輻射是空間輻射的主要因素,是由于太陽的活動造成的,它可以引起電子元件的損傷或者誤翻轉;銀河宇宙射線也會對設備的電子元件造成損傷或者誤翻轉;捕獲帶是由地磁場和星際磁場的相互作用造成的,它在太陽緩變型時是很穩(wěn)定的,但是當太陽發(fā)生爆發(fā)型活動時,捕獲帶內(nèi)的粒子會激增并且爆發(fā),使近地面的衛(wèi)星發(fā)生故障。

4.2 數(shù)據(jù)通信對系統(tǒng)穩(wěn)定性的影響

在系統(tǒng)的設計中大量數(shù)據(jù)和運算,需要更高的要求,數(shù)據(jù)通信也變得越來越重要,甚至影響到系統(tǒng)設計的成敗。在分步處理的系統(tǒng)中,傳輸數(shù)據(jù)的質量會影響到下一步的工作,從而影響系統(tǒng)的效果,使系統(tǒng)的穩(wěn)定性受到影響。串行總線使并行總線的缺陷得到了改善,提高了數(shù)據(jù)的傳輸速度和質量,提升了傳輸?shù)木嚯x。因此數(shù)據(jù)通信對系統(tǒng)穩(wěn)定性的影響成了關鍵的因素。

五、研究的發(fā)展空間

現(xiàn)階段由于技術條件的限制,我國對于高速數(shù)據(jù)通信與系統(tǒng)的加固技術的研究大多數(shù)只是內(nèi)容方面的研究、分析和設計,而對于實踐經(jīng)歷方面的研究很少,因此在以后的研究中,研究者們應該加強實踐方面的研究。

六、總結

數(shù)字信息的處理和航天技術的發(fā)展,使系統(tǒng)設計面臨著更大的挑戰(zhàn),更高質量、更高速度、更遠距離的信息傳輸是現(xiàn)代數(shù)據(jù)通信的要求,而系統(tǒng)的穩(wěn)定性也受到了很大的關注,提高系統(tǒng)加固技術也是一項非常重要的技術,對我國的航空航天事業(yè)等信息事業(yè)的發(fā)展有著很大的影響。

參 考 文 獻

[1] 馮彥君,華更新,劉淑芬. 航天電子抗輻射研究綜述[J]. 宇航學報,2010,(18):97-98

第8篇:統(tǒng)計數(shù)據(jù)分析范文

關鍵詞 以太網(wǎng)技術;通信數(shù)據(jù)采集;移動互聯(lián)網(wǎng)

中圖分類號:TP274 文獻標識碼:A 文章編號:1671—7597(2013)022-053-1

1 以太網(wǎng)技術

中國有超過三分之一的人口使用互聯(lián)網(wǎng),內(nèi)容消費驅動下的網(wǎng)絡流量正呈線性增長趨勢。這為中國的電信運營商和數(shù)據(jù)中心帶來了巨大的挑戰(zhàn):如何快速部署高密度的網(wǎng)絡設備,以提供更高的帶寬和新的應用,來滿足互聯(lián)網(wǎng)用戶多樣化的需求;如何應對成本壓力以及更好的實現(xiàn)用戶流量管控。以太網(wǎng)具有價格低廉、穩(wěn)定可靠、通信速率高、軟硬件產(chǎn)品豐富、應用廣泛以及支持技術成熟等優(yōu)點,已成為最受歡迎的通信網(wǎng)絡之一。近期的全新10/40 GbE以太網(wǎng)交換解決方案-StrataXGS Trident II系列,則被該公司視作在上述領域取得的空前突破。

2 基于以太網(wǎng)技術的通信數(shù)據(jù)采集方案體系建立

2.1 體系方案

基于以太網(wǎng)技術的企業(yè)數(shù)據(jù)采集網(wǎng)絡是以國際標準工業(yè)控制系統(tǒng)規(guī)程為構架,以局域網(wǎng)和數(shù)據(jù)采集網(wǎng)為依托的實時監(jiān)控管理系統(tǒng),采用MIS層/監(jiān)控層/現(xiàn)場層的網(wǎng)絡體系,系統(tǒng)內(nèi)數(shù)據(jù)傳輸采用安全可靠、技術成熟的TCP/IP協(xié)議和以太網(wǎng)技術,可直接接入企業(yè)的管理網(wǎng),不需任何網(wǎng)關轉換,實現(xiàn)數(shù)據(jù)信息的共享。

2.2 系統(tǒng)硬件選擇

系統(tǒng)采用64位微控制器S3C451OB作為硬件設計的核心。

備用電源系統(tǒng)。當AC220掉電時,將自動切換到備用電池供電??沙掷m(xù)工作8個小時。

具有報警功能。按照設置的報警上、下限觸發(fā)報警功能,并可以及時上報到中心(方法有GPRS/CDMA實時在線上報),且報警出現(xiàn)時自動按較小的間隔時間記錄監(jiān)測數(shù)據(jù)。

數(shù)據(jù)存儲時間間隔可設置。歷史數(shù)據(jù)存儲間隔時間1-24小時設置,報警數(shù)據(jù)1-60分鐘設置。

顯示下端儀器的工作狀態(tài)。數(shù)據(jù)采集儀自帶8個按鍵、8位數(shù)碼管以及8個狀態(tài)指示燈??稍诂F(xiàn)場設置工作參數(shù)、指示設備的運行狀態(tài)。

AD轉換器。10通道,12位分辨率,光電隔離型。

外部通訊接口。RS232/RS485/HART協(xié)議,支持波特率1200-9600 bps。

操作系統(tǒng)。使用實時操作系統(tǒng),完成現(xiàn)場數(shù)據(jù)采集、保存與無線數(shù)據(jù)上報等任務。

文件系統(tǒng)。引入了文件系統(tǒng)的技術對NandFlash的數(shù)據(jù)存取進行管理,大大地提高了歷史數(shù)據(jù)存儲和讀取的性能。

2.3 系統(tǒng)軟件設計

在系統(tǒng)的硬件做好之后,通過JTAG接口,使用H.JTAG調(diào)試軟件和AXD對系統(tǒng)進行調(diào)試。系統(tǒng)的工作方式為,先將程序燒寫入bootloader中,上電后程序首先從main程序入口開始執(zhí)行,運行Bootloader,通過變量初始化,將以太網(wǎng)初始化映射到SDRAM中運行,然后通過信號處理、采集程序來完成以太網(wǎng)數(shù)據(jù)報收發(fā),如果數(shù)據(jù)發(fā)生錯誤需要重新初始化。

2.4 系統(tǒng)主要功能

數(shù)據(jù)采集、傳輸一體化設計。GPRS實時在線功耗低,在線平均電流≤10 mA。支持域名解析功能。支持各家組態(tài)軟件和用戶自行開發(fā)軟件系統(tǒng)。

3 基于以太網(wǎng)技術的通信數(shù)據(jù)采集方案的配套措施

3.1 強化采集設備的管理流程

在信息資源規(guī)劃的基礎上,建立統(tǒng)一信息分類編碼,數(shù)據(jù)項齊全,為將來發(fā)展需要預留接口,杜絕手工操作,保證了數(shù)據(jù)的準確性。實現(xiàn)結算單自動生成,有效保證結算質量,提高結算速度。并與財務系統(tǒng)進行了接口,數(shù)據(jù)操作控制嚴密,防止了由于操作失誤而引起系統(tǒng)內(nèi)數(shù)據(jù)邏輯錯誤??梢员O(jiān)測用戶進入、退出系統(tǒng)的時間、當前操作模塊等,每一步增、刪、改都有詳細的記錄。實現(xiàn)了與計算機IP綁定的功能,大大提高系統(tǒng)信息的安全性與穩(wěn)定性。在公共管理領域,大數(shù)據(jù)將對政府部門的精細化管理和科學決策發(fā)揮重要作用,從而提高政府的服務水平。輿情監(jiān)測、交通安防、醫(yī)療服務等將是公共管理領域重點應用領域。在零售行業(yè),對消費歷史數(shù)據(jù)的分析可以使零售商掌握客戶的購物習慣,并實對市場動態(tài)做出應對。廣告精準推送、商品促銷策略制定及物流將是大數(shù)據(jù)在零售行業(yè)的主要應用領域。用戶體驗和用戶黏性對于互聯(lián)網(wǎng)公司來說是至關重要的測評指標,面對當今快速增長的海量互聯(lián)網(wǎng)數(shù)據(jù)和復雜的網(wǎng)絡社群關系,如何從中提取有價值信息,建用戶模型,針對不同用戶提供針對性產(chǎn)品,以此來提高用戶體驗,增加用戶黏性,是當前互聯(lián)網(wǎng)行業(yè)面對的主要挑戰(zhàn)之一。社交網(wǎng)站、電商網(wǎng)站將是最需要大數(shù)據(jù)技術的兩類網(wǎng)站,用戶間關聯(lián)性和消費行為是其關注的主要方面。

3.2 完善通信數(shù)據(jù)采集的政府管理

相關政府部門要積極幫助企業(yè)查找在用數(shù)據(jù)采集系統(tǒng)的薄弱環(huán)節(jié),派專門的技術人員在現(xiàn)場對數(shù)據(jù)采集系統(tǒng)的配備、管理等方面進行指導,同時督促企業(yè)做好數(shù)據(jù)采集系統(tǒng)的自查工作。目前我國信息化應用水平參差不齊,政府不同部門、企業(yè)間都存在“信息孤島”問題,阻礙了數(shù)據(jù)互通互聯(lián)。若要推廣大數(shù)據(jù)應用,首先要消除“信息孤島”,這就需要政府部門在制定大數(shù)據(jù)發(fā)展戰(zhàn)略時,要將數(shù)據(jù)標準問題放在重要地位加以解決。此外,數(shù)據(jù)安全問題在大數(shù)據(jù)時代將更加凸顯,如何解決數(shù)據(jù)安全問題,將成為大數(shù)據(jù)能否健康發(fā)展的關鍵問題之一。而加強數(shù)據(jù)安全不僅是技術問題,更牽涉法律問題,因此針對數(shù)據(jù)安全的技術將成為大數(shù)據(jù)技術發(fā)展中一個最重要的分支。

總之,本文首先分析了以太網(wǎng)技術內(nèi)涵與通信數(shù)據(jù)采集策略,建立了基于以太網(wǎng)技術的通信數(shù)據(jù)采集方案體系,實現(xiàn)了多個功能,最后提出了相關配套措施。

參考文獻

[1]呂西臣,孫俊杰,等.基于嵌入式技術的新型高速多通道數(shù)據(jù)數(shù)據(jù)采集系統(tǒng)的研制[J].現(xiàn)代制造技術與裝備,2012(5):15-18.

[2]代勇,李昌禧.基于嵌入式以太網(wǎng)接口的數(shù)據(jù)采集處理系統(tǒng)[J].微機發(fā)展,2010,15(5):125-127.

[3]蓋國強.循序漸進Oracle數(shù)據(jù)庫管理、優(yōu)化與備份恢復[J].人民郵電出版社,2007,2(9):54-56.

第9篇:統(tǒng)計數(shù)據(jù)分析范文

[關鍵詞]數(shù)據(jù)挖掘 時序回歸算法 交通流量

[中圖分類號] C37 [文獻碼] B [文章編號] 1000-405X(2014)-8-210-2

1引言

隨著城市的發(fā)展,城市交通系統(tǒng)趨于智能化、自動化、復雜化,以交通信息的高度集成為基礎,將計算機技術、傳感器控制技術、信息技術和通信技術等綜合利用的智能交通體系逐漸完善。信息技術的發(fā)展使我們對這個復雜系統(tǒng)有了更多的連續(xù)觀察和記錄其動態(tài)過程的可能性。例如,散布在交通網(wǎng)絡上的視頻檢測系統(tǒng)、感性線圈、以及紅外線檢測系統(tǒng)提供了被檢測路段的實時交通流信息;最近幾年迅速發(fā)展的浮動車數(shù)據(jù)(即FCD,主要包括安裝在出租車、公交車、和私車上的GPS定位記錄)則更加全面和連續(xù)的提供了整個交通網(wǎng)絡的實時交通流信息;正在被探索的個人手機定位數(shù)據(jù)有著詳細了解居民出行特征和實時檢測交通流的巨大潛力。這些信息采集手段共同產(chǎn)生了海量的實時動態(tài)交通信息。隨之帶來的就是海量交通信息的存儲、管理、分析與共享問題。

2數(shù)據(jù)挖掘技術

數(shù)據(jù)挖掘技術就是從大量不完全的隨機模糊數(shù)據(jù)中提取人類所需要的信息,將信息應用于人類的生產(chǎn)實踐的過程。需要強調(diào)的是這些信息隱含在數(shù)據(jù)中,人事先不清楚,不了解,但信息的獲取對于人們的生產(chǎn)實踐有很大幫助。數(shù)據(jù)挖掘技術應用于交通流量分析一方面可以提取人們出行需求及客流時空分部信息,掌握客流規(guī)律,進行客流預測;另一方面可以評價一個城市甚至一個區(qū)域的交通規(guī)劃,為城市建設提供依據(jù);再者,從技術層面講,數(shù)據(jù)挖掘技術已經(jīng)成為多元實時動態(tài)的交通系統(tǒng)獲取信息源的唯一方法。

數(shù)據(jù)挖掘技術是基于先驗知識理論,作為前瞻的技術預測一個活動的趨勢,他包括關聯(lián)分析、聚類分析、分類預測、趨勢分析。關聯(lián)分析是將數(shù)據(jù)中某兩個或者多個變量之間存在的一些重要的隱藏的規(guī)律找出來,找出關聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。聚類分析是未定義訓練樣本,直接面向源數(shù)據(jù),所有記錄都根據(jù)其相似程度加以歸類。分類預測是對歷史數(shù)據(jù)建立模型,分析其類別屬性,建立分組,再用新數(shù)據(jù)為自變量,獲取因變量的變化趨勢或值域范圍。趨勢分析是時序數(shù)據(jù)挖掘基本內(nèi)容,他利用長時序的歷史數(shù)據(jù),尋找活動的發(fā)展規(guī)律及趨勢。

本文利用出租車GPS數(shù)據(jù),選擇時序回歸算法,通過分析連續(xù)的出租車GPS浮動車數(shù)據(jù),創(chuàng)建數(shù)據(jù)挖掘模型預測連續(xù)列,分析其客流量變化特征和客流時空分布,探討數(shù)據(jù)挖掘技術的交通流量分析中的應用。

3數(shù)據(jù)的采集、處理及結果

3.1數(shù)據(jù)的來源及獲取

出租車客流分布可以最直觀的體現(xiàn)一個城市地面交通系統(tǒng)情況,利用出租車客流時空分布解決復雜的城市交通問題是一個快速有效地手段。本節(jié)所用到的數(shù)據(jù)主要是車輛GPS實時數(shù)據(jù)信息。原始數(shù)據(jù)表主要保存了出租車上裝配的GPS終端所采集的數(shù)據(jù),這些數(shù)據(jù)包括車牌號、采集時間點、經(jīng)度、緯度、車輛狀態(tài)、車速、行車方向、空重車狀態(tài)等。由于每輛車每分鐘采集一次數(shù)據(jù),每輛車每天的數(shù)據(jù)量龐大,同一城市同時運行的出租車達上萬輛,如此海量的數(shù)據(jù)需要利用數(shù)據(jù)挖掘技術獲取有用信息。

3.2數(shù)據(jù)處理及挖掘技術實現(xiàn)

首先利用微軟SQL Server2005創(chuàng)建數(shù)據(jù)庫項目,根據(jù)數(shù)據(jù)源向導創(chuàng)建連接到數(shù)據(jù)庫服務器上的數(shù)據(jù)庫。利用數(shù)據(jù)庫編程語言對原始數(shù)據(jù)進行篩選、優(yōu)化,然后利用SQL Server提供的時序回歸算法創(chuàng)建數(shù)據(jù)挖掘模型預測連續(xù)列。

原始數(shù)據(jù)篩選、優(yōu)化程序:

INSERT INTO [FCDdata].[dbo].[temp5]

SELECT ROW_NUMBER()over(order by [列 0],[列 3])Num,[列 0],[列 1],[列 2],[列 3],[列 7]

from [FCDdata].[dbo].[2011-8-4src_1TOtxt]

INSERT into [FCDdata].[dbo].[temp6]

SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],O_X=b.[列 1],O_Y=b.[列 2],O_T=b.[列 3]

from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b

where (b.[列 7]='true' and (b.Num=a.Num-1) and b.[列 7]!=a.[列 7])

INSERT into [FCDdata].[dbo].[temp7]

SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],D_X=b.[列 1],D_Y=b.[列 2],D_T=b.[列 3]

from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b

where (b.[列 7]='true' and (b.Num=a.Num+1) and b.[列 7]!=a.[列 7])

INSERT into [FCDdata].[dbo].[temp4]

SELECT ROW_NUMBER()over(order by ID)rn

ID

FROM [FCDdata].[dbo].[temp6]

Group By ID

GO

DECLARE @n AS INT =2;

DECLARE @id AS INT ;

WHILE @n

BEGIN

SELECT @id=ID FROM [FCDdata].[dbo].[temp4] WHERE rn=@n

INSERT into [FCDdata].[dbo].[F20110804]

SELECT ROW_NUMBER()over(order by a.O_T)TripID

,TaxiID=a.ID,O_X=a.O_X,O_Y=a.O_Y,O_T=a.O_T ,D_X =b.D_X ,D_Y =b.D_Y,D_T =b.D_T

FROM [FCDdata].[dbo].[temp6] a inner join [FCDdata].[dbo].[temp7] b on a.Num=b.TripID and a.ID=@id and b.ID=@id;

SELECT @n=@n+1

END

原始數(shù)據(jù)經(jīng)過篩選優(yōu)化后得到的數(shù)據(jù)排列如下:

其中TripID字段代表的是某一輛出租車在一天內(nèi)載客的次數(shù),TaxiID字段代表的ID編號,O_X、O_Y字段代表出租車在這一趟載客的起點經(jīng)緯度坐標,O_T字段代表車租車載客起點的時間點,D_X、D_Y字段代表出租車在這一趟載客的終點經(jīng)緯度坐標D_X的空重車狀態(tài),D_T字段代表車租車載客終點的時間點,其中時間全部使用UNIX時間戳格式,即從1970年1月1日(UTC/GMT的午夜)開始所經(jīng)過的秒數(shù),不考慮閏秒。

3.3實驗結果

本文隨機抽取了2011年60多天的出租車數(shù)據(jù),以某交通樞紐站為出租車上下客的位置,利用數(shù)據(jù)挖掘技術分析預測此樞紐站每日不同時間段的客流量,得到如圖1。

根據(jù)已掌握的65天的浮動車數(shù)據(jù)建立了出租車一日內(nèi)不同時段客流預測模型,當然,預測數(shù)據(jù)只能體現(xiàn)常規(guī)客流情況,不能預測特殊時期的客流變化情況。單日不同時段的客流模型反映出客流進站出現(xiàn)早高峰,出站出現(xiàn)晚高峰,客流高峰時兩個小時的客流量在150輛左右。調(diào)查發(fā)現(xiàn),這與該樞紐站的功能正相關,該樞紐站主要用于城際短途客流與城市客流的交換,該樞紐站主要是商務客流,早上乘坐長途車出差到周邊城市,下午返回后乘坐出租車融入城市客流。

4結論與展望

通過對出租車GPS數(shù)據(jù)進行分析處理,利用數(shù)據(jù)挖掘技術,得到了城市某樞紐站的客流分析與預測結果,為城市交通規(guī)劃、區(qū)域規(guī)劃、出租車交通管理提供了數(shù)據(jù)支持。數(shù)據(jù)挖掘技術應用于交通流量分析具有可行性,研究結果可信。本研究成果得到以下的結論:

(1)通過數(shù)據(jù)挖掘技術得到的出租車在樞紐站內(nèi)進出站的情況,可以一定程度上反映出租車在交通樞紐站內(nèi)的出行需求,為出租車的調(diào)度提供科學依據(jù);

(2)通過出租車的進出站時間分布,可以了解出租車在交通樞紐站的主要服務對象,為樞紐站的規(guī)劃及客流預測提供依據(jù);

(3)數(shù)據(jù)挖掘技術可以用于樞紐站內(nèi)其他交通工具的客流預測,例如長途汽車、私家車、地鐵等。參考文獻

[1]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].北京:科學出版社,2004.

[2]胡小文,馮均佳,基于GPS數(shù)據(jù)采集的出租汽車交通運行特點研究[J],城市交通,2007.

[3]蘆方強,陳學武,胡曉健,基于公交OD數(shù)據(jù)的居民公交出行特征研究[J],交通運輸工程與信息學報,2010.