前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)分析論文主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:遠程開放教育,數(shù)據(jù)挖掘,應(yīng)用,智能化
1 前言
現(xiàn)代遠程開放教育的全過程基本上都是通過瀏覽網(wǎng)站的形式進行的,學生在Web上的行為都會產(chǎn)生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環(huán)節(jié),以此來為學生提供個性化的服務(wù)內(nèi)容,增強遠程開放教育的競爭力。利用數(shù)據(jù)庫技術(shù)來存儲管理數(shù)據(jù),利用網(wǎng)絡(luò)和計算機學習的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)。基于遠程開放教育將是當前和未來教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代遠程開放教育系統(tǒng)中。
2 數(shù)據(jù)挖掘概述
2.1數(shù)據(jù)挖掘(DataMining)定義
數(shù)據(jù)挖掘就是從大量存儲的數(shù)據(jù)中,利用模式識別、統(tǒng)計和數(shù)學的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統(tǒng)計學技術(shù),對數(shù)據(jù)進行歸納推理,從中挖掘出潛在的模式,預(yù)測未來趨勢,為決策提供支持。
2.2數(shù)據(jù)挖掘的主要任務(wù)
(1)關(guān)聯(lián)分析。兩個或兩個以上變量的取值之間存在的規(guī)律性稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。
(2)聚類分析。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。
(3)分類。分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息。
(4)預(yù)測。預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。
(5)時序模式。時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
(6)偏差分析。在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。
2.3數(shù)據(jù)挖掘?qū)ο?/p>
根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。
2.4數(shù)據(jù)挖掘技術(shù)實施的步驟
(1)確定業(yè)務(wù)對象。清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。
(2)數(shù)據(jù)準備。這個階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)分析和轉(zhuǎn)換。要對Web服務(wù)器上的數(shù)據(jù)進行挖掘,必須研究站點之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。
(3)數(shù)據(jù)挖掘。這個階段就是利用數(shù)據(jù)挖掘工具對經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘和發(fā)現(xiàn)知識的過程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來進行數(shù)據(jù)的挖掘。
(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識的領(lǐng)域重要性、可信度和支持度等閥值來對發(fā)現(xiàn)結(jié)果進行評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。通常會用到可視化技術(shù)。
(5)知識的同化。將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
3 現(xiàn)代遠程開放教育系統(tǒng)簡介
遠程開放教育系統(tǒng)能實現(xiàn)個性化學習、實時教學、實時考試和智能答疑。為每一個接受網(wǎng)絡(luò)遠程教育的學習者提供個性化的學習進程。能根據(jù)與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預(yù)測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據(jù)其績效信息動態(tài)調(diào)整其學習難度、練習與測試內(nèi)容,對學生提出的問題實現(xiàn)智能化答疑,對該學習者薄弱環(huán)節(jié)進行有效指導,做到因材施教和全天候?qū)W習。
遠程開放教育系統(tǒng)由用戶系統(tǒng)、WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)服務(wù)器、用戶數(shù)據(jù)庫和資源數(shù)據(jù)庫組成。
用戶系統(tǒng)用于實現(xiàn)遠程開放教育系統(tǒng)的顯示功能,其功能是:實現(xiàn)信息的和接受,管理員通過它來實現(xiàn)系統(tǒng)的管理、更新、維護等,主要是通過XML語言和HTTP協(xié)議實現(xiàn)WEB瀏覽器與WEB服務(wù)器的鏈接和信息通訊。WEB服務(wù)器用于完成遠程開放教育系統(tǒng)的事務(wù)處理,用于處理學習過程中的各種事務(wù)。應(yīng)用服務(wù)器直接為WEB服務(wù)器提供相關(guān)服務(wù),處理WEB服務(wù)器以及XML文檔組成的用戶的事務(wù)請求信息。論文參考網(wǎng)。數(shù)據(jù)庫服務(wù)器用于完成數(shù)據(jù)處理,為應(yīng)用服務(wù)器提供相關(guān)服務(wù),完成數(shù)據(jù)查詢、修改和更新等服務(wù),并把運行結(jié)果反饋給應(yīng)用服務(wù)器。資源數(shù)據(jù)庫中主要由遠程開放教育系統(tǒng)中要使用的課件庫、答疑庫、作業(yè)庫、試題庫和必要的超級鏈接等構(gòu)成。用戶數(shù)據(jù)庫主要用于存儲遠程開放教育系統(tǒng)中要使用的的注冊檔案、用戶目前的學習內(nèi)容、學習進展、作業(yè)情況和考試情況等信息。
4 數(shù)據(jù)挖掘技術(shù)在遠程開放教育中的應(yīng)用
現(xiàn)代遠程開放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計算機網(wǎng)絡(luò)和多媒體技術(shù),提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變?yōu)橐詫W為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠程開放教育中的應(yīng)用主要有以下幾方面:
(1)在個性化學習方面的應(yīng)用
由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現(xiàn)此功能,基于WEB的智能遠程開放教育系統(tǒng)首先要根據(jù)學習者的特點和學習目標來收集學習者的數(shù)據(jù)信息,然后對收集到的信息進行預(yù)處理,再應(yīng)用一種合理的挖掘算法或綜合應(yīng)用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類和分類技術(shù)、統(tǒng)計分析以及時序模式技術(shù)等,來處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式,但是通過模式挖掘后,生成的規(guī)則數(shù)目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯(lián)機分析等技術(shù)對模式進行分析評價,經(jīng)過模式分析和應(yīng)用技術(shù)處理后,選擇一種學習者易于理解和接受的表達方式將知識數(shù)據(jù)顯現(xiàn)出來。利用數(shù)據(jù)挖掘與學習內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來指導學習者學習和個性化發(fā)展,這樣系統(tǒng)就實現(xiàn)了個性化學習功能。
(2)在資源庫建設(shè)方面的應(yīng)用
資源庫建設(shè)在整個系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設(shè)積件庫。當老師在系統(tǒng)內(nèi)制作課件,為了有針對性和避免重復(fù),我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計出一組相關(guān)同位類課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類課程,或利用序列模式,預(yù)測出與之有關(guān)的學生未來可能選擇的同級課程,最后圍繞學習者的需求權(quán)限進行課程設(shè)置。
(3)在實時教學方面的應(yīng)用
在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫技術(shù)和知識發(fā)現(xiàn)技術(shù),通過機器學習、統(tǒng)計分析等方法設(shè)計出了個性化處理引擎,從大量的數(shù)據(jù)中進行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學生可以通過網(wǎng)絡(luò)實現(xiàn)每天24小時的學習,而且本系統(tǒng)可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態(tài)地根據(jù)這些信息調(diào)整學習計劃和進度,讓學生得到針對其“個性”的教育,實現(xiàn)因材施教。
(4)在智能答疑方面的應(yīng)用
基于WEB的遠程教學系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網(wǎng),就可解答學生在學習過程中產(chǎn)生的問題。它能根據(jù)學生用戶訪問日志、問題記錄等數(shù)據(jù)進行數(shù)據(jù)挖掘,用智能抽取的方法實現(xiàn)智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統(tǒng)后臺存儲了大量的由經(jīng)驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統(tǒng)首先通過對問題的分析自動在數(shù)據(jù)庫中尋找最適合的答案。這樣通過數(shù)據(jù)挖掘,針對學生用戶提問記錄、日志不斷更新和調(diào)整學生用戶知識庫,使問題的回答更加精確。
(5)在實時考試方面的應(yīng)用
本系統(tǒng)的實時考試系統(tǒng)是一個基于數(shù)據(jù)庫和WEB的遠程在線式實時的測試系統(tǒng)。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據(jù)個人特性解釋問題,按個人及科目對考試結(jié)果進行各種統(tǒng)計分析和評價,并存入學生用戶數(shù)據(jù)中。這些功能的實現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類和分類工具對數(shù)據(jù)庫中抽取的數(shù)據(jù)進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結(jié)合學生的考試目的恰當?shù)胤答伣o學生,這樣提高了學生學習的效率。
5 結(jié)束語
在現(xiàn)代遠程開放教育網(wǎng)站設(shè)計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統(tǒng)設(shè)計環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務(wù)技術(shù),以此為契機開展數(shù)據(jù)挖掘和知識獲取,在現(xiàn)代遠程開放教育網(wǎng)站的設(shè)計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應(yīng)各種學習者的需要和背景進行不同的組合,提供更加優(yōu)良的、個性化的服務(wù)。
參考文獻:
[1]李爽,陳麗.國內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國電化教育,2003(5)
[2]蘇新寧.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學技術(shù)文獻出版社,2003
[3]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2000,(6)
[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠程教育系統(tǒng)中的的應(yīng)用[J] .南京:文教資料,2006(10)
1.1數(shù)據(jù)挖掘技術(shù)
關(guān)聯(lián)分析即找出兩個或以上變量之間同時出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過其他事物可對某個與之相關(guān)的事物做出預(yù)測。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對于高校圖書館個性化服務(wù)而言,即從圖書館數(shù)據(jù)庫中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對用戶的信息需求做出準確預(yù)測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數(shù)據(jù)庫中的一組個體按照相似性歸結(jié)為若干類型,應(yīng)用于圖書館系統(tǒng)中,就是將相似的文獻集中在一起,用戶在搜索相關(guān)文獻時可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個性化服務(wù)中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務(wù)中要對用戶的使用規(guī)律做出預(yù)測,即根據(jù)用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預(yù)測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標志,再通過時間序列將重復(fù)率較高的內(nèi)容挖掘出來,以預(yù)測其下個信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析
圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數(shù)據(jù)庫中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識信息。最后,用戶服務(wù)的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對用戶有用的知識信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術(shù)對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務(wù)質(zhì)量及館藏利用率。而在圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術(shù)也有了長足的發(fā)展,其足以為圖書館的個性化服務(wù)提供必要的技術(shù)支持。圖書館數(shù)字化發(fā)展過程中需要采集、購置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書館資源建設(shè)提供指導作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關(guān)聯(lián)性進行深入分析,圖書館員根據(jù)這些信息記錄、分析結(jié)果等提供指導,可以提高圖書資源分配的合理性,對館藏布局進行優(yōu)化。由此可見,數(shù)字化圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。
2圖書館個性化服務(wù)的具體體現(xiàn)
高校圖書館個性化服務(wù)是指根據(jù)每個用戶的專業(yè)、愛好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對性的信息服務(wù),幫助用戶查閱更加完整的信息資料,便于其學習、研究。高校圖書館個性化服務(wù)具體體現(xiàn)在以下3個方面:
①用戶可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書館中能夠查閱到相關(guān)資料;圖書館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發(fā)掘出來。
②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識別圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。
③優(yōu)化鏈接結(jié)構(gòu),提高用戶應(yīng)用的便利性。對Weblog進行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導航鏈接,優(yōu)化站點。
④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫、文獻數(shù)據(jù)庫等進行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息及更新的速度遠遠超過圖書館內(nèi)部網(wǎng)絡(luò),因此要加強網(wǎng)絡(luò)平臺的建設(shè),以保證服務(wù)結(jié)果的真實性與可靠性。數(shù)字圖書館在進行查新與定題服務(wù)過程中,可以利用可視化技術(shù)為用戶提供在線即時信息分析。
3圖書館個性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
圖書館個性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉庫——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對結(jié)果的評價。
3.1建立讀者數(shù)據(jù)倉庫
數(shù)據(jù)挖掘過程中,在確定了挖掘目標后,即開始進行數(shù)據(jù)準備,從大量數(shù)據(jù)中選擇一個與需挖掘目標相關(guān)的樣板數(shù)據(jù)子集。此時需要建立一個數(shù)據(jù)倉庫,其主要作用是將所有挖掘目標所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉庫直接進行數(shù)據(jù)挖掘,可能會導致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準備數(shù)據(jù),因此建立數(shù)據(jù)倉庫是一個至關(guān)重要的準備工作。高校圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶的興趣庫及圖書館自身的特色資源數(shù)據(jù)庫。用戶使用圖書館的過程中,必然會產(chǎn)生大量的借閱記錄,訪問圖書館網(wǎng)站會留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數(shù)據(jù)收集
在建立用戶興趣庫及特色資源數(shù)據(jù)庫后,必須對這兩個數(shù)據(jù)庫中的數(shù)據(jù)進行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標相關(guān)的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對數(shù)據(jù)進行噪聲消除、重復(fù)記錄的消除及推導計算缺值數(shù)據(jù)等。圖書館每天會產(chǎn)生大量的用戶相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對整個挖掘處理過程有正面作用,有些數(shù)據(jù)可能會對挖掘效果產(chǎn)生負面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時需要考慮的變量數(shù)。
3.3選擇算法及建立模型
數(shù)據(jù)挖掘過程中不同的算法可能會實現(xiàn)同一個任務(wù),但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點、實際運行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預(yù)測型知識,因此要針對不同的用戶選擇對應(yīng)的算法,之后就要進行數(shù)據(jù)挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復(fù)驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調(diào)整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。
3.4結(jié)果解釋與知識表示
在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時所用的算法規(guī)則進行運算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書館只需對挖掘結(jié)果進行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進行決策。比如圖書館新引進了一批考古專業(yè)的學術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專業(yè)的相關(guān)用戶,以提高信息推送的針對性。
3.5結(jié)果的驗證、應(yīng)用及評價
產(chǎn)生挖掘結(jié)果后需要進一步實踐,以驗證結(jié)果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結(jié)果還具備預(yù)測未來數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過實踐后,可對應(yīng)用過程進行跟蹤了解,獲得用戶的反饋信息,對結(jié)果的實用性進行驗證。需要注意一點,即一個數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個時間節(jié)點均適用于同一個數(shù)據(jù)挖掘模型,因此要對挖掘結(jié)果做出評價,如經(jīng)過用戶的反饋,數(shù)據(jù)挖掘出來的結(jié)果可以解決問題,實現(xiàn)了最初的挖掘目標,滿足了用戶需求,則可判定該模型是合理的。挖掘結(jié)果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現(xiàn)了以用戶為中心的個性化服務(wù)的數(shù)據(jù)挖掘過程。不過某些情況下模型的評價結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無法滿足用戶的要求,這種情況就要由系統(tǒng)進行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個不斷反饋的過程,體現(xiàn)出反復(fù)性的特點。
4結(jié)語
論文摘要:隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,作為當前計算機信息技術(shù)中的一項較為新興的技術(shù),綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護設(shè)備故障信息中的實現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護設(shè)備故障信息管理的基本功能等問題。
數(shù)據(jù)挖掘技術(shù)作為當前計算機信息技術(shù)中的一項較為新興的技術(shù),綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當中,在保護設(shè)備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領(lǐng)域,隨著計算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨特的優(yōu)勢。從不同的角度進行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護設(shè)備故障信息中的實現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術(shù)對設(shè)備進行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運行記錄,對其運行的趨勢進行預(yù)測,并對其可能存在的運行狀態(tài)進行分類,故障診斷的實質(zhì)就是一種模式識別方式,對機器設(shè)備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機械故障的診斷來說,首先就應(yīng)當獲取一些關(guān)于本機組的一些運行參數(shù),既要包括機器在正常運行以及平穩(wěn)工作時的信息數(shù)據(jù),也應(yīng)當包括機器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通??梢越柚怕式y(tǒng)計的方式,在對故障模式進行識別時可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進行判斷,而且可以準確地對故障進行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運行,并且具備抗干擾能力強、計算效率高的優(yōu)點。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運行時,會從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對龐大的故障數(shù)據(jù)進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設(shè)備型號以及單位等進行查詢,實現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結(jié)語
隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測系統(tǒng),對設(shè)備運行過程中的一些重要參數(shù)和數(shù)據(jù)進行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學習的新型技術(shù)手段。
參考文獻
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護設(shè)備故障信息管理與分析系統(tǒng)[J].電力自動化設(shè)備,2011,9
[2]李建業(yè),劉志遠,蔡乾,趙洪波.基于Web的故障信息系統(tǒng)[J].電力信息化,2007,S1
關(guān)鍵詞 情報學;碩士論文;關(guān)鍵詞
中圖分類號G251 文獻標識碼A 文章編號 1674-6708(2014)114-0013-02
當前,世界各國的許多高等院校和科學研究機構(gòu)都在加強對圖書情報的研究,許多世界一流院校,比如Harvard University(哈佛大學)、Princeton University(普林斯頓大學)、Yale University(耶魯大學)、Massachusetts Inst. of Technology(麻省理工學院)等都建立了比較完善的情報學教育體系。而比較而言,在我國高等院校與科研院所對圖書情報學的相關(guān)研究,明顯要相對落后,近年來隨著改革開放的深入推進,有關(guān)情報學的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長態(tài)勢,然而由于研究內(nèi)容相對較為高深,而且研究的靶場顯得較為前沿化與多元化。基于關(guān)鍵詞對學位論文進行統(tǒng)計、研究與分析是文獻計量學的范疇,是圖書情報學研究的重要內(nèi)容。即以學位文獻或?qū)W位文獻的某些特點為標的,以聚集梳理一定數(shù)量文獻為基礎(chǔ),由此展開對某一時域某一領(lǐng)域科學技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測該領(lǐng)域科學技術(shù)在今后一段時期的研究趨勢與特點規(guī)律態(tài)勢。基于獨特關(guān)鍵詞進行圖書情報領(lǐng)域的碩士學位論文進行分析,是情報學研究的一項重要方法,是一種將文獻資料中的眾多核心要素關(guān)聯(lián)起來,進行統(tǒng)計分析的引證分析方法,其可以較為科學地評價文獻所研究與發(fā)展的現(xiàn)狀和趨勢,揭示學科當時研究的熱點,較為準確地評價文獻所代表的學術(shù)水平。
1 研究對象數(shù)據(jù)來源
本文研究的對象定位于對國內(nèi)圖書情報領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學位論文的統(tǒng)計、分析與研究,將“靶標”聚集到碩士學位論文的研究熱點、趨勢、重點、前沿以及其變化情況,從而更加清晰地梳理出我國情報學研究的發(fā)展脈絡(luò),從而為我國情報學教育發(fā)展提供參考。研究的主要數(shù)據(jù)來源集中于國內(nèi)著名的學位論文收集庫――中國知網(wǎng)CNKI學術(shù)文獻總庫、維普期刊資源整合服務(wù)平臺與萬方數(shù)據(jù)知識服務(wù)平臺“三大論文數(shù)據(jù)庫”,以及國內(nèi)高等院校圖書館自建特色數(shù)據(jù)庫。其中,中國知網(wǎng)CNKI和萬方數(shù)據(jù)庫是國內(nèi)收錄學位論文最為全面的數(shù)據(jù)庫,因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來自該兩個數(shù)據(jù)庫,著重定位于“學科專業(yè)名稱”、“學科專業(yè)分類”選項進行檢索,而檢索的時間區(qū)域定位于近10年,對于兩個數(shù)據(jù)庫檢索出來的文獻,對于相同的通過采用SQL 語句進行篩選,剔除重復(fù)的以及不符合的。
由此,以“情報學”作為檢索詞,從中國知網(wǎng)CNKI數(shù)據(jù)庫獲得1640篇碩士論文,從萬方數(shù)據(jù)庫中獲致1315篇碩士論文,通過SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國內(nèi)圖書情報領(lǐng)域碩士論文2160篇。
2 基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學位論文特點
通過對獲取到的2160篇國內(nèi)圖書情報領(lǐng)域碩士論文進行研究,綜合統(tǒng)計論文的關(guān)鍵詞,累計關(guān)鍵詞有13976個,經(jīng)過分析研究,去除不能表達論文主題概念的關(guān)鍵詞3645個,共得10331個,平均每篇碩士文獻關(guān)鍵詞數(shù)為4.78個,由此可說明該統(tǒng)計是科學的,與國外科文獻資料對關(guān)鍵詞的標引規(guī)則相符(國內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標出 3-8 個),接著對關(guān)鍵詞的詞頻進行統(tǒng)計分析,將關(guān)鍵詞的頻度大于60作為標準,將其定義為“高頻詞”,通過對“高頻詞”的統(tǒng)計分析,可以非常清晰地看出,有關(guān)“知識管理”這一主題的頻次最高,多達126次。無疑,這也證實了近些年來,學術(shù)界對知識管理這個方向的研究熱點。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競爭情報”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識服務(wù)”為71次、“知識共享”為68次、“數(shù)據(jù)倉庫”為63次,從中也反映了我國對信息化建設(shè)、知識服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗證了我國國務(wù)院學位委員會重新頒布的《授予博士、碩士學位和培養(yǎng)研究生的學科、專業(yè)目錄》中“圖書館、情報與檔案管理”的實效,表明了情報學與管理學之間滲透和結(jié)合日益加強,也可以折射出當前研究的重點、熱點仍然集中在情報學基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報學研究的一個重點將是對網(wǎng)絡(luò)信息資源的開發(fā)、整合與利用。
3 基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學位論文特點
通常來說,僅僅通過孤獨地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說明該論文所研究的主題,然而通過關(guān)注兩個或者兩個以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過采取計算機數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進行“聚類性”分析,統(tǒng)計在同一論文中兩兩同時出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類共詞矩陣”,通過這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個對稱矩陣,其中位于矩陣對角線上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個一同出現(xiàn)的現(xiàn)象就實質(zhì)來說,就是論文之間的相關(guān)度,對于非對角線上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過這個矩陣可以從另一個側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨立性。通過Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識管理”為124次,“電子商務(wù)”為106次,“競爭情報”為101次,“高校圖書館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學圖書館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識共享”為72次,“數(shù)據(jù)倉庫”為66次。由此可以看出,在國內(nèi)圖書情報領(lǐng)域碩士學位論文的研究主題中,當前基于數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)挖掘是個熱點,同時也說明我國情報學教育研究的領(lǐng)域在不斷拓寬。
綜合以上,關(guān)注獨特關(guān)鍵詞下國內(nèi)圖書情報領(lǐng)域碩士學位論文研究的學科結(jié)構(gòu)特點,獲得了基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學位論文特點,以及基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學位論文特點,通過對研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當前以及今后一段時期國內(nèi)圖書情報領(lǐng)域碩士學位論文研究的側(cè)重點在于“數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)信息挖掘”。
參考文獻
[1]曾學喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標體系構(gòu)建[J].情報理論與實踐,2013(11).
[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).
【關(guān)鍵詞】葉貝斯分類 數(shù)據(jù)挖掘 個性化學習 學習風格
網(wǎng)絡(luò)環(huán)境下的個性化學習是以學生作為教育系統(tǒng)的中心與教育服務(wù)主體。在個性化的教育系統(tǒng)中我們在營造數(shù)字學習氛圍的同時要強調(diào)并堅持學生的主體地位,開展個性化學習,把它看作是一種探索式性、實踐性、創(chuàng)造性的學習。實現(xiàn)網(wǎng)絡(luò)個性化學習的關(guān)鍵在于根據(jù)學習者的信息數(shù)據(jù)分析提取個性化特征,進而實現(xiàn)對學習者的個性化推薦或教學指導。
本文針對目前網(wǎng)絡(luò)學習系統(tǒng)中存在的個性化單一與實現(xiàn)難度大的問題,利用葉貝斯分類算法解決學習風格分類問題,讓學生更深入的了解自己的學習模式與需求,實現(xiàn)真正自主式、個性化學習。
1 數(shù)據(jù)挖掘與分類
1995年,美國計算機學會(Association for Computing Machinery ,簡稱ACM)組織提出了數(shù)據(jù)挖掘(Data Mining)概念。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先未知的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中知識挖掘(Knowledge Discovery in Databases)、知識提?。↘nowledge Extraction)、數(shù)據(jù)采礦等。
數(shù)據(jù)挖掘是一個跨學科技術(shù)領(lǐng)域,它是數(shù)據(jù)庫技術(shù)、統(tǒng)計學、人工智能、數(shù)據(jù)可視化、信息提取、并行計算和分布式計算等多個學科結(jié)合的產(chǎn)物。發(fā)現(xiàn)潛在未知的規(guī)則,是數(shù)據(jù)挖掘的重要特征也是它的目標,它與數(shù)據(jù)分析的差別在于數(shù)據(jù)分析通常從一個假設(shè)出發(fā),通過建立方程、模型來驗證假設(shè)是否成立,而數(shù)據(jù)挖掘則是直接挖掘信息之中隱藏的規(guī)律,發(fā)現(xiàn)新的知識。
分類是常用的數(shù)據(jù)挖掘手段之一。它是將一組組個體分門別類的歸入預(yù)先設(shè)定的幾個類中。分類的目的是建立一個分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到類別中的某一個類別。常用的分類方法有:決策樹分類方法、貝葉斯分類方法和規(guī)則歸納方法。
2 應(yīng)用葉貝斯分類算法判定學習風格
學習風格是指學習者一貫持續(xù)的帶有個性特征的學習方式,它是學習傾向和學習策略的總和。學習風格是個體在長期的學習過程中逐漸形成的,受特定的家庭、教育和社會文化的影響,通過個體自身長期的學習活動而形成,具有鮮明的個性特征。心理學認為人有七種學習風格:Linguistic(語言)、Logical(邏輯)、Visual(視覺)、Musical(音樂)、Kinesthetic(動覺)、Intrapersonal(內(nèi)?。┡cInterpersonal(人際)。使用葉貝斯分類算法我們可以通過分析學習記錄,獲得學生的學習風格。 葉貝斯分類算法基于貝葉斯定理,應(yīng)用于文本分類時,通過計算文本屬于每個類別的概率.將該文本歸為概率最大的一類中。
2.1 樸素貝葉斯分類和貝葉斯網(wǎng)絡(luò)
貝葉斯定理是關(guān)于隨機事件A和B的條件概率和邊緣概率的一則定理。
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
其中P(A|B)表示在B發(fā)生的情況下A發(fā)生的可能性。其中P(A)是A的先驗概率或邊緣概率。(A|B)是已知B發(fā)生后A的條件概率, P(B|A)是已知A發(fā)生后B的條件概率, P(B)是B的先驗概率或邊緣概率,也作標準化常量。由此,貝葉斯定理可表述為:
后驗概率 = (相似度*先驗概率)/標準化常量
由于,比例P(B|A)/P(B)也有時被稱作標準相似度,所以貝葉斯定理又可表述為:
后驗概率 = 標準相似度*先驗概率
貝葉斯分類方法是基于貝葉斯定理的,樸素貝葉斯(Naive Bayes)和貝葉斯網(wǎng)絡(luò)(Bayesian Networks)看作是兩種不同情形下的分類方法。
2.1.1 樸素貝葉斯分類
樸素貝葉斯分類方法是一個基于概率的分類方法,它通過計算后驗證概率的方法來確定所屬類別的概率。
Vj屬于V集合, 其中Vmap是給定一個example,得到的最可能的目標值。其中a1...an是這個example里面的屬性。這里面,Vmap目標值,就是后面計算得出的概率最大的一個.所以用max 來表示。
樸素貝葉斯分類默認基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。因此,該假定說明給定實力的目標值情況下。觀察到聯(lián)合的a1,a2...an的概率正好是對每個通過概率計算,從待分類的樣本數(shù)據(jù)的屬性 a1,a2,...,an 中求出最可能的分類目標值,即計算各類 Vj∈ V對于這組屬性的條件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(類別標識數(shù)),并輸出條件概率最大的類別標識作為該樣本數(shù)據(jù)的所屬類別。這個假設(shè)是樸素貝葉斯不同于貝葉斯網(wǎng)絡(luò)等其它貝葉斯分類算法的根本,也是樸素貝葉斯這個名稱的由來。
2.1.2 貝葉斯網(wǎng)絡(luò)
在實際應(yīng)用中,大多數(shù)情況下不支持樸素貝葉斯的假設(shè),即各特征并非彼此獨立,此情況下可以使用貝葉斯網(wǎng)絡(luò)進行分類。
貝葉斯網(wǎng)絡(luò)是根據(jù)變量之間的依賴關(guān)系,使用圖論方法表示變量集合的聯(lián)合概率分布的圖形模型,它引入了一個有向無環(huán)圖(Directed Acyclic Graph)和一個條件概率表集合。DAG的結(jié)點v包括隨機變量(類別和特征),有向連接E(A->B)表示結(jié)點A是結(jié)點B的parent,且B與A是有依賴關(guān)系的。同時引入了一個條件性獨立(conditional independence)概念:即圖中任意結(jié)點v在給定v的parent結(jié)點的情況下,與圖中其它結(jié)點都是獨立的,也就是說P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結(jié)點集,x1,x2,...,xn表示圖中其它結(jié)點。如果已知所有聯(lián)合概率值(joint distribution),那么就可以解決任何形式的概率問題。但現(xiàn)實中的特征集合數(shù)量過多(>10),幾乎無法通過統(tǒng)計得到。所以,這個問題要通過條件獨立的概念來對各條件概率值進行優(yōu)化來解決。貝葉斯網(wǎng)絡(luò)的建模有兩個步驟:創(chuàng)建網(wǎng)格結(jié)構(gòu)與估計每一個結(jié)點的概率表中的概率值。
2.2 貝葉斯分類過程
在本學習系統(tǒng)中,主要使用樸素貝葉斯分類方法對網(wǎng)絡(luò)學習某一體育課程的學習者的學習風格進行分類。
2.2.1 建立樣本數(shù)據(jù)
根據(jù)體育學科的學習特點,我們可以把學習者的學習風格簡要概括為視覺型(V)、語言型(L)和動覺型(K)。把每一個學習者看作一個矢量 S,學習者的每一次學習記錄作為屬性 Ai,學習者的風格(視覺型、聽覺型和動覺型)作為可能的類別 C,對于隨機分類向量S={a1,a2,…,an},由此知道 s對每個類別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計算得到,概率最大的那個就是 s的預(yù)測類別。
當學生登入系統(tǒng)時,系統(tǒng)首先根據(jù)學號查看學習風格數(shù)據(jù)庫中是否有該生的學習風格類型記錄,如果有,系統(tǒng)則推薦學生適合其風格的學習內(nèi)容,如果無,則系統(tǒng)將學習者這次學習的學習記錄保存在學生學習記錄庫的學習過程數(shù)據(jù)表中。
經(jīng)過數(shù)據(jù)預(yù)處理,我們可以確保建模的數(shù)據(jù)是正確有效的。分析處理中我們需要得到分類模型需要的訓練樣本集的相關(guān)屬性,包括文本學習次數(shù)(T)、視頻學習次數(shù)(V)、活動次數(shù)(A)、文本學習平均成績(TS)、視頻學習平均成績(VS)、活動成績(AS)、學習風格類型(S)。當學生登錄次數(shù)達到某值時,系統(tǒng)自動將這些屬性值計算并存儲。在分析訓練樣本時我們把學習次數(shù)屬性值分為10 三個區(qū)間,將成績分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類法對于學習次數(shù)和學習成績這類連續(xù)屬性的類條件概率計算,一是把連續(xù)的屬性用相應(yīng)的離散區(qū)間替換進而離散化,或是通過訓練數(shù)據(jù)估計分布的參數(shù)。
2.2.2 建立學習風格建模
根據(jù)貝葉斯的最大后驗準則,對任一未知樣本 s={a1,a2,…,an},確定后驗概率 P(Cj| a1,a2,…,an),把最大的類確定為該樣本的學習風格。具體步驟為:
(1)計算得到每一種學習風格類型的先驗概率P(Ci )。
(2)相對于每個類別的概率 P(aj|ci),訓練樣本集計算得出各屬性的所有取值。
(3)計算出未知樣本對三種類別的概率,選取概率最大的類別為學生的學習風格類型。
其中,建立學習風格分類模型最關(guān)鍵的步驟就是建立訓練樣本集。見表2-1。
2.2.3 建立算法
根據(jù)上述分析,設(shè)計算法如下:
初始化訓練集D;計算每個學習風格類型的先驗概率
由上述算法得出概率最大的類別為學生的學習風格類型。
3 結(jié)論
本文將葉貝斯算法應(yīng)用在判定學習者的學習風格中,發(fā)現(xiàn)了學生的學習成績、學習興趣與學習風格之間的潛在聯(lián)系。經(jīng)過實際應(yīng)用發(fā)現(xiàn)當樸素貝葉斯分類的假定條件成立時,它是一種非常精確的分類方法。 使用貝葉斯分類對系統(tǒng)中的學習者的學習風格進行分類,其特點主要有:
(1)它結(jié)合了概率與貝葉斯網(wǎng)絡(luò)的分類方法,可以利用領(lǐng)域知識和其它先驗信息,計算假設(shè)概率。
(2)可以把所有的屬性都參與分類。
(3)針對離散屬性的對象進行分析。
(4)數(shù)據(jù)樣本可以增加也可以減少,這樣可以進行增量學習。
(5)利用有向圖的表示方式非常直觀,弧表示變量之間的關(guān)系。
參考文獻
[1]田文詩.基于學習者行為的序列模式挖掘算法研究與實現(xiàn)[D].碩士學位論文,吉林:吉林大學,2011(05).
[2]鄧暉、徐梅林.網(wǎng)絡(luò)學習環(huán)境之個性化屬性調(diào)查及啟示[J].現(xiàn)代教育技術(shù),2003.13(1):49-54.
[3]凌江榮.在e_Learning中建立自適應(yīng)學習路徑的研究[D].碩士學位論文,湖南:湘潭大學,2007.
[4]田曉輝.基于Web的個性化學習系統(tǒng)在遠程教育中的應(yīng)用研究[D].碩士學位論文,西安:陜西師范大學,2007.
[5]史春秀.基于數(shù)據(jù)挖掘的個性化學習系統(tǒng)的研究[D].碩士學位論文,天津:天津大學,2007.
[6]王志平.基于數(shù)據(jù)挖掘技術(shù)的個性化學習系統(tǒng)的研究[D].碩士學位論文,重慶:重慶大學,2007.
作者單位
>> 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的個性化電子商務(wù)推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團個性化推薦系統(tǒng) 基于swarm平臺和社交網(wǎng)絡(luò)的電子商務(wù)個性化推薦系統(tǒng)仿真模型的理論構(gòu)建 網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個性化推薦中的應(yīng)用研究 基于個性化推薦的網(wǎng)絡(luò)營銷 基于數(shù)據(jù)挖掘的電子政務(wù)個性化推薦服務(wù)框架研究 基于數(shù)據(jù)挖掘的個性化智能推薦系統(tǒng)應(yīng)用研究 基于社交網(wǎng)絡(luò)的個性化知識服務(wù)模型研究 基于免疫進化的網(wǎng)絡(luò)教學資源個性化推薦系統(tǒng)研究 移動社會網(wǎng)絡(luò)中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術(shù)的研究 個性化好友推薦系統(tǒng)在社交網(wǎng)站上的應(yīng)用研究 基于社交網(wǎng)絡(luò)的社會化推薦算法研究 基于個性化混合推薦算法的網(wǎng)絡(luò)推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個性化推薦在SNS中的應(yīng)用 基于Web使用數(shù)據(jù)挖掘的個性化推薦系統(tǒng)設(shè)計 基于小數(shù)據(jù)的高校圖書館個性化推薦 基于個性化推薦學習的網(wǎng)絡(luò)培訓教學課程平臺的設(shè)計與實現(xiàn) 基于網(wǎng)絡(luò)學習行為的個性化評價研究 社會化標簽系統(tǒng)中基于本體的個性化推薦方法研究 常見問題解答 當前所在位置:l
[2]張婷婷. 社會化網(wǎng)絡(luò)中人際關(guān)系與人際傳播研究[D].長沙:湖南大學,碩士學位論文,2012
[3]王萍. 社會化網(wǎng)絡(luò)的信息擴散研究[J]. 情報雜志,2009,28(10):39-42
Abstract: With the increasingly fierce market competition and the rapid development of computer technology, application of data mining technology in the coal trade management system is particularly important. In this paper, combining today's more popular data mining techniques, using linear regression and the weighted moving average algorithm ,sales were predicted.
關(guān)鍵詞: 煤炭貿(mào)易管理系統(tǒng);數(shù)據(jù)挖掘;線性回歸;加權(quán)移動平均
Key words: coal trade management systems;data mining; linear regression;weighted moving average
中圖分類號:TP311 文獻標識碼:A文章編號:1006-4311(2010)08-0123-02
0引言
當前國內(nèi)開發(fā)的大多數(shù)煤炭管理系統(tǒng)是為公司管理煤炭業(yè)務(wù)而開發(fā),只能實現(xiàn)數(shù)據(jù)錄入、分類查詢信息、匯總信息、定時發(fā)送短信息等功能。決策結(jié)果只能是基于決策者的直覺而不是數(shù)據(jù)庫中豐富的信息。為此數(shù)據(jù)挖掘技術(shù)的應(yīng)用基于此而產(chǎn)生。國內(nèi)將數(shù)據(jù)挖掘應(yīng)用于煤炭貿(mào)易的例子并不多見。本文將分別利用線性回歸和加權(quán)一次移動平均算法對煤炭年度銷售進行預(yù)測。
1數(shù)據(jù)挖掘技術(shù)簡述
1.1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們預(yù)先不知道的、但又是潛在有用的信息和知識的過程。
1.2 數(shù)據(jù)挖掘的方法
1.2.1 分類法分類就是找出一個類別的概念描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示(該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個)。
1.2.2 關(guān)聯(lián)分析法關(guān)聯(lián)分析是指在數(shù)據(jù)庫中尋找值的相似性,一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性。
1.2.3 聚類分析法我們將數(shù)據(jù)庫中的數(shù)據(jù)分組成為由類似的數(shù)據(jù)組成的多個類的過程稱為聚類,由聚類生成的每個類是一組數(shù)據(jù)的集合,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。
1.2.4 預(yù)測法預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。典型的預(yù)測方法是回歸分析,即用大量的歷史數(shù)據(jù),以時間為變量建立回歸方程。
1.2.5 時序模式法時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式,與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值。
2二元線性回歸法應(yīng)用研究
基本過程是先建立數(shù)據(jù)倉庫,提取分析要用的數(shù)據(jù)源,進行數(shù)據(jù)處理后,利用大量數(shù)據(jù),建立線性回歸模型,得出銷售量與顧客購買頻率和年份影響因素之間的聯(lián)系,然后通過找出的規(guī)律可以預(yù)測煤炭在下個年度銷售量,從而保證供應(yīng)。下面我們以二元線性回歸分析預(yù)測法為例,說明多元線性回歸分析預(yù)測法的應(yīng)用。
二元線性回歸分析預(yù)測法,是根據(jù)兩上自變量與一個因變量相關(guān)關(guān)系進行預(yù)測的方法。二元線性回歸方程的公式為:=a+bx+bx
式(1)中::因變量;x、x:兩個不同自變量,即與因變量有緊密聯(lián)系的影響因素。
a、b、b:是線性回歸方程的參數(shù)。a、b、b是通過解下列的方程組來得到。
∑y=na+b∑x+b∑x
∑xy=a∑x+b∑x+b∑xx
∑xy=a∑x+b∑xx+b∑x
本文主要通過公司運營時間預(yù)測顧客購買頻率分,進而找出方法來發(fā)展客戶群,再根據(jù)年份和顧客購買頻率分預(yù)測年度銷售量,若預(yù)計2007年煤炭銷售量,首先用一元回歸分析預(yù)測法預(yù)測2007年顧客購買頻率分,再用二元回歸分析預(yù)測法預(yù)測2007年煤炭銷售量。
從表1中可以看出煤炭銷售量同年份和顧客購買頻率有一定關(guān)系,可試用二元線性回歸預(yù)測法進行預(yù)測。其具體過程如下:
Y:煤炭銷售總量;(單位:噸)x1:年份(單位:年) ;x2:顧客購買頻率(單位:分)
2.1 解下列方程組,求a、b、b參數(shù) ,把有關(guān)數(shù)據(jù)代入上面方程組,解方程組得:a=13.4517,b=-0.0186,c=1.3101
由此建立的二元線性回歸方程為:
=a+bx+bx=13.4517-0.0186x+1.3101x
這個回歸方程必須經(jīng)過檢驗才能作為預(yù)測模型。
2.2求相關(guān)系數(shù),二元線性回歸方程的相關(guān)系數(shù)公式如下:
γ=
為了計算相關(guān)系數(shù)γ,需列表計算∑(Y-)和∑(Y-)
===84.21把表2、3有關(guān)數(shù)據(jù)代入式
γ===0.987
相關(guān)系數(shù)為0.987,說明自變量X1、X2與因變量Y之間有高度相關(guān)關(guān)系。
2.3 作回歸標準差檢驗
S===9.32、==0.01106=11.06%
由此說明二元線性回歸方程=13.4517-0.0186x1+1.3101x2用于預(yù)測,有較高的精確度。
2.4 計算預(yù)測值當年份為2007年,采用一元回歸分析預(yù)測法預(yù)測顧客購買頻率分,用最小二乘法求解α,β;β=15.32,α=13.385,由此建立的一元線性回歸方程為:=α+βx=13.385+15.32x;
當2007年公司運營時間為9年時,預(yù)測顧客購買頻率分為151。依據(jù)題意,x1=2007,x2=151,將它們代入二元線性回歸方程。
=13.4517-0.0186×2007+1.3101×151=173.9466
因此該年度煤炭需求預(yù)測值為173.9466萬噸。
3加權(quán)一次移動平均預(yù)測法的應(yīng)用研究及改進
設(shè){yt}為時間序列,取移動平均的項數(shù)為n,設(shè)yt是第t期的實際值,則第t+1期的預(yù)測值的計算公式為:
=
說明:項數(shù)n的取值應(yīng)該根據(jù)時間序列的特點而定, n大:降低移動平均數(shù)的敏感性,影響預(yù)測的準確性,n小:移動平均數(shù)易受隨機變動影響,難以反映實際趨勢, 一般:n的大小能包含季節(jié)變動和周期變動的時期較好。
針對煤炭銷售的歷史數(shù)據(jù)特點,數(shù)據(jù)是逐漸遞增的規(guī)律,經(jīng)過反復(fù)訓練使n=1合理,也就是說結(jié)果只與上個周期有關(guān)。
Wi表示權(quán)重。如何選擇權(quán)數(shù)Wi?
M=S-S1=646.08 S為前8年總銷售量,S1為1999年銷售量;N=S-S2=518.38 S為前8年總銷售量,S2為2006年銷售量;W1=M:N=1.2463
針對煤炭企業(yè)數(shù)據(jù)特點對原始模型進行改進后如下:
=W1Y2006
因此2007年銷售量為Y2007=WY2006=1.2463×155.3=193.5504,由于此預(yù)測模型只和銷售序列有關(guān),沒有考慮其他影響因素,此預(yù)測模型的誤差較大,所以不如二元線性回歸分析法應(yīng)用效果好。但對于不同的煤炭企業(yè)不同的階段的銷售預(yù)測有著不同的參考價值。
由于國家能源產(chǎn)業(yè)政策和宏觀調(diào)控的影響,煤炭銷售情況受各種因素影響,并不是十分穩(wěn)定,因此本文介紹的二元線性回歸分析法和加權(quán)一次移動平均預(yù)測法的數(shù)據(jù)挖掘技術(shù)應(yīng)用方法僅供煤炭貿(mào)易集團和公司參考,同時也可為煤炭企業(yè)保證煤炭供應(yīng)起到?jīng)Q策的輔助作用。
參考文獻:
[1]馮勤.基于回歸數(shù)據(jù)挖掘預(yù)測系統(tǒng)的分析與研究:[碩士學位論文].天津:天津大學電子信息工程學院,2005.
有關(guān)計量經(jīng)濟學期末論文范文一:我國企業(yè)經(jīng)濟統(tǒng)計的現(xiàn)狀與改革創(chuàng)新分析
在知識經(jīng)濟時展背景下,企業(yè)經(jīng)濟統(tǒng)計工作也迎來了新一輪的發(fā)展機遇和挑戰(zhàn)。傳統(tǒng)的思維模式不僅無法滿足實際經(jīng)濟統(tǒng)計工作的需要,也阻礙著我國社會經(jīng)濟的進一步發(fā)展。所以必須要針對當前的經(jīng)濟統(tǒng)計工作現(xiàn)狀,進行不斷的改革與創(chuàng)新,從而更好的適應(yīng)經(jīng)濟時代的發(fā)展。
一、企業(yè)經(jīng)濟統(tǒng)計創(chuàng)新的重要性。
現(xiàn)代企業(yè)制度的確立,為我國企業(yè)發(fā)展迎來了新一輪發(fā)展機遇和挑戰(zhàn),也對企業(yè)管理工作提出更高的要求。企業(yè)經(jīng)濟統(tǒng)計作為企業(yè)發(fā)展與進步的重要輔助手段,不僅為企業(yè)管理者提供精準的信息和決策依據(jù),也為企業(yè)生產(chǎn)經(jīng)營活動的順利進行提供了有利的保障。企業(yè)管理水平的不斷提高,也為企業(yè)信息化建設(shè)帶來了一定的難度,而企業(yè)經(jīng)濟統(tǒng)計工作包含了豐富的信息化活動內(nèi)容,這就要求統(tǒng)計人員要不斷優(yōu)化企業(yè)經(jīng)濟統(tǒng)計信息網(wǎng)絡(luò)的功能,促進企業(yè)信息化建設(shè)得到充分的完善。企業(yè)發(fā)展詐略的制定和管理工作的順利開展,也需要經(jīng)濟統(tǒng)計人員設(shè)置出更加科學合理的統(tǒng)計指標體系,從而統(tǒng)計出更加精準、完整的數(shù)據(jù)內(nèi)容,同時也為企業(yè)生產(chǎn)經(jīng)營提供更加精準的評估,從而促進企業(yè)的全面發(fā)展。因此,經(jīng)濟統(tǒng)計的創(chuàng)新對企業(yè)的建設(shè)和發(fā)展有著至關(guān)重要的作用。
二、當前企業(yè)經(jīng)濟統(tǒng)計現(xiàn)狀。
一是很多企業(yè)統(tǒng)計制度不健全。當前,很多企業(yè)都沒有建立起一套完整、統(tǒng)一的經(jīng)濟統(tǒng)計工作制度,使得企業(yè)工作人員無法得到精準、完整的統(tǒng)一報表,統(tǒng)計臺賬和原始記錄也比較凌亂,企業(yè)管理者在制定發(fā)展戰(zhàn)略和決策時也無法得到高質(zhì)量的統(tǒng)計數(shù)據(jù)。同時,一些新興的企業(yè)也在隨著市場經(jīng)濟的發(fā)展在不斷壯大,在這些企業(yè)中,很大一部分都沒有建立起標準的企業(yè)統(tǒng)計制度,相應(yīng)的統(tǒng)計部門與人員也沒有進行標準的劃分和合理的配置,統(tǒng)計報表也沒有專業(yè)的統(tǒng)計人員進行報送,職員也沒有按照相應(yīng)的統(tǒng)計制度去開展統(tǒng)計工作,進行報表的計算和統(tǒng)計。
二是企業(yè)經(jīng)統(tǒng)計人員缺乏法制理念。在開展統(tǒng)計工作過程中常常會遇到一些法律方面的問題,但是很多企業(yè)的統(tǒng)計人員都沒有樹立正確的法制觀念,在統(tǒng)計中常常會為了自身利益,制造一些虛假數(shù)據(jù),甚至還有一部分企業(yè)為了逃避稅收而瞞報一些重要數(shù)據(jù),嚴重影響了數(shù)據(jù)的真實性和完整性,這樣的數(shù)據(jù)不僅無法得到人們的認可和接受,也會給統(tǒng)計工作帶來一些不良影響。
三是相關(guān)企業(yè)統(tǒng)計人員的整體素質(zhì)有待提升。目前,很多企業(yè)都沒有重視起統(tǒng)計工作的重要性,統(tǒng)計人員也缺乏相應(yīng)的專業(yè)知識和統(tǒng)計經(jīng)驗,企業(yè)也沒有對相關(guān)統(tǒng)計人員進行定期培訓,造成人員的知識結(jié)構(gòu)和思維模式無法得到及時的更新和優(yōu)化。而在開展實際工作時,由于統(tǒng)計人員的專業(yè)素質(zhì)和工作水平一直無法得到顯著的提升,運用的統(tǒng)計方法也難以符合企業(yè)發(fā)展要求,統(tǒng)計工作也難以順利進行,導致企業(yè)統(tǒng)計信息不斷弱化,也使得企業(yè)統(tǒng)計工作無法發(fā)揮最大限度的積極作用。
四是企業(yè)統(tǒng)計工作手段缺乏創(chuàng)新性。隨著信息經(jīng)濟時代的發(fā)展,對統(tǒng)計信息的時效性、準確的要求也在不斷提高,但是目前很多企業(yè)的統(tǒng)計手段都沒有得到及時的優(yōu)化,企業(yè)也沒有為統(tǒng)計部門配備符合工作要求的辦公設(shè)備,不僅使統(tǒng)計部門提供的數(shù)據(jù)的時效性和準確性無法得到應(yīng)有的保障,也導致企業(yè)經(jīng)濟統(tǒng)計工作的質(zhì)量和效率一直無法取得顯著的提高。
同時,還有很多企業(yè)沒有正確認識到統(tǒng)計工作的積極作用,認為經(jīng)濟統(tǒng)計只是對一些數(shù)據(jù)進行簡單的整理,如數(shù)據(jù)報表的制作和填寫等這種簡單的統(tǒng)計工作,造成企業(yè)經(jīng)濟統(tǒng)計工作常常缺乏真實和完整性,也有很多企業(yè)由于嚴重缺乏統(tǒng)計方面的人才,也沒有設(shè)立專門的統(tǒng)計部門,使得很多企業(yè)逐漸忽略了統(tǒng)計部門和開展統(tǒng)計工作的重要性。
三、企業(yè)經(jīng)濟統(tǒng)計創(chuàng)新的內(nèi)容分析。
(一)統(tǒng)計思維理念方面的創(chuàng)新。
傳統(tǒng)的統(tǒng)計理念早已無法適應(yīng)信息時代背景下企業(yè)的發(fā)展需求,因此,企業(yè)必須要樹立正確的科學發(fā)展理念,并將其作為開展企業(yè)經(jīng)濟統(tǒng)計工作的重要理論依據(jù),而我們也必須要正視經(jīng)濟統(tǒng)計工作中的種種問題,并分析總結(jié)出問題的成因,通過定期的專業(yè)培訓,使統(tǒng)計人員的專業(yè)素質(zhì)和統(tǒng)計水平得到不斷提升,還要制定出一套完整的工作規(guī)范,并要求統(tǒng)計人員嚴格按照制度規(guī)范開展統(tǒng)計工作,同時還要根據(jù)實際統(tǒng)計工作情況,建立其合理的獎懲機制,從而充分調(diào)動起統(tǒng)計人員工作的積極性和責任心,多為職員提供學習和實踐的機會,促進統(tǒng)計人員的全面發(fā)展,也確保統(tǒng)計工作能夠順利進行。
(二)統(tǒng)計內(nèi)容方面的創(chuàng)新。
統(tǒng)計內(nèi)容方面的創(chuàng)新,主要體現(xiàn)在企業(yè)活動條件、企業(yè)投入和產(chǎn)出統(tǒng)計等方面的基本內(nèi)容的補充和拓展,同時還要將一些已經(jīng)過時的、沒有實質(zhì)價值的原始憑證,以及一些與實際情況不符的數(shù)據(jù),進行適當?shù)娜∩?,同時還要將信息化、網(wǎng)絡(luò)化的企業(yè)虛擬運作統(tǒng)計真實的呈現(xiàn)出來,使統(tǒng)計人員的工作創(chuàng)造力得到充分的發(fā)揮,也將人本主義的企業(yè)文化統(tǒng)計充分反映出來。
(三)統(tǒng)計功能和方法方面的創(chuàng)新。
企業(yè)經(jīng)濟統(tǒng)計方面的創(chuàng)新主要體現(xiàn)在完整的企業(yè)統(tǒng)計指標體系的建立。評價功能的創(chuàng)新,其功能主要是對企業(yè)生產(chǎn)經(jīng)營過程進行詳細分析和評估,并且能夠為企業(yè)的發(fā)展戰(zhàn)略和重要決策的制定提供更加精準的判斷標準與評估數(shù)據(jù),其積極作用主要體現(xiàn)在企業(yè)生產(chǎn)經(jīng)營活動過程中。分析功能的創(chuàng)新,主要是指企業(yè)經(jīng)濟統(tǒng)計人員能夠利用先進的統(tǒng)計軟件,以及科學有效的統(tǒng)計手段,對企業(yè)經(jīng)濟的發(fā)展現(xiàn)狀和未來的發(fā)展趨勢進行合理的分析和評估。而企業(yè)統(tǒng)計方法的創(chuàng)新則要求統(tǒng)計人員,要充分整合先進的科學技術(shù),如:信息技術(shù)、網(wǎng)絡(luò)技術(shù)等,通過這些技術(shù)的應(yīng)用,使統(tǒng)計工作質(zhì)量和效率能夠得到不斷的提高,不斷完善企業(yè)業(yè)務(wù)流程,提升企業(yè)核心競爭力。
(四)統(tǒng)計人員管理方面的創(chuàng)新。
對于企業(yè)經(jīng)濟統(tǒng)計人員的管理,要不斷結(jié)合企業(yè)的實際發(fā)展狀況,設(shè)置出能夠被更多統(tǒng)計人員所接受和認可的管理機制,從而更好的適應(yīng)現(xiàn)代化企業(yè)發(fā)展的實際要求,同時也要為人員提供更多實踐學習的機會,并對其進行定期培訓,從而使其能夠及時的掌握最新的統(tǒng)計理念和手段,知識結(jié)構(gòu)和統(tǒng)計水平也得到不斷的優(yōu)化和提高,同時也要給予統(tǒng)計人員更多展示自己的平臺,使其自身的優(yōu)勢和潛力能夠得到充分的體現(xiàn)和發(fā)倔,并探索和創(chuàng)新出更多科學有效的統(tǒng)計手段。
經(jīng)濟統(tǒng)計是一項復(fù)雜的工作,對企業(yè)和社會經(jīng)濟的發(fā)展有著重要意義,必須給予充分的重視。但是目前很多企業(yè)開展的經(jīng)濟統(tǒng)計工作還存在一些有待解決的問題,使得統(tǒng)計工作質(zhì)量和效率也無法得到顯著的提升。因此,統(tǒng)計人員必須要深入分析和總結(jié)不同階段統(tǒng)計工作中的問題,采取有效的解決對策,實行創(chuàng)新性統(tǒng)計,從而使經(jīng)濟統(tǒng)計工作的適應(yīng)性和靈活性得到不斷的提升,從而更好地為企業(yè)發(fā)展服務(wù),提升企業(yè)的競爭力。
參考文獻:
[1] 吳東晟,李曉明。我國企業(yè)經(jīng)濟統(tǒng)計創(chuàng)新問題研究[J].生產(chǎn)力研究,2009,12(20):25-32.
[2] 牟鐘捷。探討我國企業(yè)經(jīng)濟統(tǒng)計的創(chuàng)新問題[J].城市建設(shè)理論研究(電子版),2013,23(36):12-14.
[3] 王小紅。關(guān)于我國企業(yè)經(jīng)濟統(tǒng)計創(chuàng)新問題探究[J].經(jīng)濟視野,2014,15(21):77-78.
[4] 林琳。我國企業(yè)經(jīng)濟統(tǒng)計創(chuàng)新問題分析[J].商場現(xiàn)代化,2012,25(20):23-25.
有關(guān)計量經(jīng)濟學期末論文范文二:經(jīng)濟統(tǒng)計中數(shù)據(jù)挖掘技術(shù)的使用分析
伴隨著經(jīng)濟統(tǒng)計發(fā)展,經(jīng)濟統(tǒng)計的經(jīng)驗累積,目前的經(jīng)濟統(tǒng)計所需要統(tǒng)計的數(shù)據(jù)已經(jīng)非常龐大,數(shù)據(jù)統(tǒng)計者在進行數(shù)據(jù)統(tǒng)計時,如果僅適用數(shù)理知識的采集,并不會對數(shù)據(jù)進行深入挖掘,造統(tǒng)計結(jié)果不準確。統(tǒng)計數(shù)據(jù)的數(shù)量逐漸增多,數(shù)據(jù)類別也同樣增加,對此,如果僅僅是使用以往的數(shù)據(jù)統(tǒng)計方式,并不能準確、全面的實現(xiàn)數(shù)據(jù)分析并統(tǒng)計的工作。數(shù)據(jù)挖掘技術(shù)是目前全新的統(tǒng)計方式,其具備良好的數(shù)據(jù)統(tǒng)計方式,能夠橫向的對數(shù)據(jù)進行挖掘,進而更好的對經(jīng)濟數(shù)據(jù)進行統(tǒng)計,更好的滿足社會對經(jīng)濟統(tǒng)計數(shù)據(jù)的需求。
一、數(shù)據(jù)挖掘技術(shù)概論。
數(shù)據(jù)挖掘技術(shù)簡單的說就是對數(shù)據(jù)信息進行深入挖掘的一種技術(shù),在實際的使用過程中,能夠?qū)?fù)雜的數(shù)據(jù)庫變得更加的簡化,進而從中發(fā)現(xiàn)能夠利用的數(shù)據(jù)信息,并加以分析和整理,進而達到龐大且散亂的數(shù)據(jù)得到充分的利用。目前我國的經(jīng)濟數(shù)據(jù)統(tǒng)計信息量非常龐大,并且還帶有數(shù)據(jù)不完整、隨機性強的特點,這些都造成常規(guī)的數(shù)據(jù)統(tǒng)計方式和系統(tǒng)無法充分的分析并統(tǒng)計經(jīng)濟數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能夠?qū)⑦@些具備隨機性強、完整性低的原始數(shù)據(jù)進行分析和統(tǒng)計,最終形成一套能夠合理利用的統(tǒng)計數(shù)據(jù)形態(tài),以便于數(shù)據(jù)使用者更好的對數(shù)據(jù)進行應(yīng)用和提取。這樣能夠?qū)?shù)據(jù)進行更準確、更全面的收集、分析和加工的技術(shù)被稱為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘的特點是能夠自動的將有價值的數(shù)據(jù)發(fā)現(xiàn)并收集,然后對其進行處理、加工,將大量的信息處理、加工之后對其進行分析和統(tǒng)計,進而實現(xiàn)數(shù)據(jù)的有效性、準確性和實用性。
二、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用效果。
1.綜合性應(yīng)用能力較強。數(shù)據(jù)挖掘技術(shù)已經(jīng)被許多的統(tǒng)計工作所合理應(yīng)用,并且發(fā)揮著至關(guān)重要的作用,其中也包括經(jīng)濟統(tǒng)計。數(shù)據(jù)挖掘技術(shù)不僅僅是一種數(shù)據(jù)挖掘能力強、具備統(tǒng)計能力的技術(shù),還能夠根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進行分類和統(tǒng)計。因此,數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中,能夠有效地將數(shù)據(jù)進行開發(fā)、整理和分類,給統(tǒng)計數(shù)據(jù)的使用者提供更好的便利服務(wù)。
2.較強的有效性。數(shù)據(jù)挖掘技術(shù)目前在我國應(yīng)用的實踐并不長,但是其在經(jīng)濟統(tǒng)計的工作中的實際應(yīng)用效果非常好,并且還具備穩(wěn)定的工作性能,不僅僅是能夠?qū)?jīng)濟數(shù)據(jù)進行整理、分析和統(tǒng)計,還能夠更加有效的對挖掘出更多有價值的信息,在實際的應(yīng)用中能夠表現(xiàn)出較高的有效性。
3.數(shù)據(jù)挖掘技術(shù)能夠更有效的應(yīng)用于宏觀型的數(shù)據(jù)庫。目前,我國的經(jīng)濟統(tǒng)計多數(shù)還是使用的傳統(tǒng)的經(jīng)濟統(tǒng)計方式,收集和統(tǒng)計的數(shù)據(jù)信息并不能形成一個有機整體,在進行數(shù)據(jù)的管理時,仍然會出現(xiàn)許多的問題。對此,就需要利用新技術(shù)來提升經(jīng)濟統(tǒng)計的有效性。宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)庫能夠給數(shù)據(jù)挖掘技術(shù)提供相當合適的統(tǒng)計平臺。對于經(jīng)濟統(tǒng)計來說,其統(tǒng)計的數(shù)據(jù)必須要準確無誤,這就需要有大量且可靠的數(shù)據(jù)資源,宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)庫的特點便在于此,所以數(shù)據(jù)挖掘技術(shù)能夠更有效的應(yīng)用于宏觀型的數(shù)據(jù)庫。
三、數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)挖掘流程。
數(shù)據(jù)額挖掘的整個流程主要為在數(shù)據(jù)庫中中利用數(shù)據(jù)挖掘算法收集相關(guān)的數(shù)據(jù),然后圍繞著數(shù)據(jù)挖掘進行的預(yù)處理,進行多次重復(fù)的對數(shù)據(jù)進行統(tǒng)計和處理。整個數(shù)據(jù)發(fā)掘過程是由多個挖掘步驟所組成的,數(shù)據(jù)挖掘僅僅是整個挖掘技術(shù)的一個主要步驟。數(shù)據(jù)挖掘收集的主要步驟有以下四個。(1)定義目標階段。根據(jù)數(shù)據(jù)統(tǒng)計者的要求定義數(shù)據(jù)挖掘目標。定義目標的適配度會直接影響數(shù)據(jù)挖掘的最終效果,對此,就需要具有應(yīng)用領(lǐng)域知識的專家和數(shù)據(jù)挖掘經(jīng)驗的技術(shù)人員共同寫作對目標進行定義。一方面需要對各種算法進行對比,最終確定最行之有效的算法之一,另一方面確定數(shù)據(jù)挖掘能夠充分的滿足實際工作要求。(2)數(shù)據(jù)準備階段。數(shù)據(jù)準備階段是數(shù)據(jù)挖掘技術(shù)中最為重要且過程最長的階段。這個階段主要分為三個步驟:數(shù)據(jù)挑選,數(shù)據(jù)處理和數(shù)據(jù)變化。數(shù)據(jù)挑選主要是指從數(shù)據(jù)倉庫或數(shù)據(jù)庫中挑選所有相關(guān)的數(shù)據(jù),將這些數(shù)據(jù)定義為目標數(shù)據(jù)。數(shù)據(jù)處理是指對目標數(shù)據(jù)進行初步的處理,然后挑選出挖掘出符合要求的數(shù)據(jù)。數(shù)據(jù)變換是指對挖掘出服務(wù)要求的數(shù)據(jù)進行精簡,即從數(shù)據(jù)處理中挖掘出的數(shù)據(jù)進行更深層次的挑選,最終挑選出完全符合數(shù)據(jù)統(tǒng)計要求的數(shù)據(jù)。(3)數(shù)據(jù)挖掘階段。這一階段是主要的數(shù)據(jù)挖掘階段。首先是預(yù)定算法,換而言之就是采用怎樣的條件挑選數(shù)據(jù),并進行挖掘。
然后針對算法完成數(shù)據(jù)挖掘工作。在完成之后,便可以進行數(shù)據(jù)挖掘模塊的計算。這個階段是相關(guān)領(lǐng)域?qū)<液蛿?shù)據(jù)挖掘分析者最為關(guān)注的一步,也能夠被稱為實際上的數(shù)據(jù)挖掘。(4)評估階段和結(jié)果顯示。根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進行分析并將結(jié)果顯示,將有價值意義的數(shù)據(jù)顯示出來,并且將挖掘出的數(shù)據(jù)進行價值評估,對于無意義的或存在重復(fù)的數(shù)據(jù)刪除。如果最終挖掘出的數(shù)據(jù)無法滿足數(shù)據(jù)使用者的要求則返回到上一步,重新篩選。
四、數(shù)據(jù)挖掘在經(jīng)濟統(tǒng)計中的發(fā)展方向。
目前數(shù)據(jù)挖掘的發(fā)展方向可以從多個方面展開:(1)根據(jù)數(shù)據(jù)使用者的要求開發(fā)出各種數(shù)據(jù)挖掘系統(tǒng)。具備較強功能性的數(shù)據(jù)挖掘系統(tǒng)仍然難以處理各種數(shù)據(jù),對此就需要針對要求制定出各式各樣的數(shù)據(jù)挖掘系統(tǒng),例如空間數(shù)據(jù)庫挖掘和關(guān)系數(shù)據(jù)庫挖掘等。(2)提升數(shù)據(jù)挖掘顯示結(jié)果的確定性、可表達性和有效性。需要已經(jīng)挖掘出來的數(shù)據(jù)能夠充分表明數(shù)據(jù)庫的主要內(nèi)容,并且能夠運用于實際的相關(guān)領(lǐng)域當中。對具備缺陷的數(shù)據(jù)需要進行分析,以相似的數(shù)據(jù)或者有規(guī)律數(shù)據(jù)的形式展現(xiàn)出來。(3)數(shù)據(jù)挖掘結(jié)果簡化。挖掘出的數(shù)據(jù)最終使用者并非是數(shù)據(jù)挖掘的專家,所以挖掘結(jié)果一定要簡化。
(4)交互式、多抽象層數(shù)據(jù)挖掘。交互式數(shù)據(jù)挖掘能夠準許用戶對數(shù)據(jù)進行精確挖掘,數(shù)據(jù)的焦點具備動態(tài)改變的特點,從多個角度多個抽象的層次靈活的收集數(shù)據(jù)、挖掘數(shù)據(jù)。(5)數(shù)據(jù)挖掘的保密性和安全性。因為最終的經(jīng)濟統(tǒng)計結(jié)果需要一定的安全性和保密性。對此,就需要加強數(shù)據(jù)挖掘結(jié)果的保密性和安全性,以免數(shù)據(jù)造成泄漏,隱私被別人侵犯。
五、結(jié)語。
經(jīng)濟統(tǒng)計工作對我國的經(jīng)濟發(fā)展有著至關(guān)重要的作用,伴隨著挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用,對數(shù)據(jù)統(tǒng)計的分析也更顯高標準化和高質(zhì)量化。對此,提升數(shù)據(jù)挖掘技術(shù)的應(yīng)用效果,能夠有效的提升統(tǒng)計工作的統(tǒng)計結(jié)果質(zhì)量,讓其具備可靠、真實的特點,進而給政府提供指定社會戰(zhàn)略發(fā)展目標的有力證據(jù),幫助工業(yè)企業(yè)確定經(jīng)濟發(fā)展目標。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中具備巨大的社會效益和經(jīng)濟效益。
參考文獻:
[1]夏昌華。統(tǒng)計分析的新模式-數(shù)據(jù)挖掘技術(shù)[J].統(tǒng)計與咨詢,2012,14(2):269 -270.
[2]張宗峰,姚猛,藤立臣等。數(shù)據(jù)額挖掘及英在官方統(tǒng)計中的應(yīng)用前景[J].江蘇統(tǒng)計,2010,28(10):832.
[3]鄭建國?;诮y(tǒng)計的數(shù)據(jù)挖掘技術(shù)在CRM系統(tǒng)中的應(yīng)用統(tǒng)計[J].河北工業(yè)大學。2010,10(03):11-13.
[4]王福根。數(shù)據(jù)挖掘技術(shù)在建模、優(yōu)化和故障診斷中的應(yīng)用[J].紅外與激光工程。2013,35(10):621-629.
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);成績管理
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一個涉及多學科交叉的研究領(lǐng)域,綜合了人工智能、機器學習、數(shù)理統(tǒng)計等學科,它把對數(shù)據(jù)的應(yīng)用從較低層次的簡單的查詢提升到從數(shù)據(jù)中挖掘知識。簡單的說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中獲取知識。從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識”。
二、數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程大概可以概括為三部分:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的表達和解釋。如圖1-1。
三、數(shù)據(jù)挖掘的特點
數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息具有事先未知、有效、實用三個特征;用戶不必提出明確的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動地挖掘數(shù)據(jù)潛在的模式,或通過分析建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,這有利于發(fā)現(xiàn)未知的事物。因此,它是由數(shù)據(jù)驅(qū)動的一種真正的知識發(fā)現(xiàn)方法。
四、學生成績管理的現(xiàn)狀
隨著高校招生規(guī)模的擴大使成績管理處理的數(shù)據(jù)量急劇增加,存放在數(shù)據(jù)庫中的大量的成績數(shù)據(jù),對于一般的查詢過程是有效的,管理人員能夠通過簡單的統(tǒng)計或排序等功能獲得一些表面的信息,但隨著數(shù)據(jù)庫中存儲的數(shù)據(jù)量的增大,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)管理和處理功能就不能滿足現(xiàn)實的需要,因為無論是查詢、排序還是方差,其處理方式都是對指定的數(shù)據(jù)進行簡單的數(shù)字處理,對于學生成績管理方面,往往只能做一些簡單的功能,由于大量數(shù)據(jù)以不同的形式存儲在不同的計算機上,從而使隱藏在其中的大量有用信息無法得到有效的利用,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)聯(lián)和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。上述問題直接導致教學管理部門無法進行有效的評估,任課教師無法進行有效的教學方法改進。而如何將這些數(shù)據(jù)信息轉(zhuǎn)化為知識表示,為學校管理者提供決策依據(jù),科學指導教學,提高教學管理水平,將是高校需要迫切解決的問題。
五、將數(shù)據(jù)挖掘技術(shù)在成績管理中的應(yīng)用
1、學生成績分析方面
學生的學習成績是評估學生表現(xiàn)好壞的重要依據(jù),也是學生是否掌握好所學知識的重要標志,目前高校使用的成績管理系統(tǒng)大部分只能做一些簡單的數(shù)據(jù)管理和處理,例如:學生的平時成績輸入、考試成績輸入、畢業(yè)設(shè)計成績登記,進行各類統(tǒng)計報表和信息查詢、分析某一個班學生學習成績分布的情況等。目前大量的成績數(shù)據(jù)只是簡單地存儲在數(shù)據(jù)庫中,隱藏在這些數(shù)據(jù)中的潛在信息被閑置,沒能被充分利用。在數(shù)據(jù)庫中學生成績分析從定性的角度考慮不是很精確,而數(shù)據(jù)挖掘是從定量的角度精確地分析學生成績分析的各個方面數(shù)據(jù)。
2、在考試方面
考試是對教師教學效果和學生學習效果的一個檢驗,是教學中必不可少的環(huán)節(jié),雖然按考試成績可以總體評價在一定時期內(nèi)學生取得的成績,但這并不能有效地說明成績的高低與哪些因素有關(guān),無法知道教師教學環(huán)節(jié)中的成功與不足之處,對教師教學方法的改進和學生學習成績的提高都沒有實際意義上的幫助,而且,學生考試成績的高低也與試題的質(zhì)量有著很大的關(guān)系,因此探索有效的方法來評價試題的質(zhì)量如試題難易度,知識點全面度等在實際的教學過程中同樣具有重要的意義。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于試卷分析數(shù)據(jù)庫中,然后根據(jù)學生得分情況分析出每道題的難易度、區(qū)分度、相關(guān)度等指標,那么據(jù)此,教師可以對試題的質(zhì)量作出比較準確的評價,進而可以用來檢查自己的教學情況及學生的掌握情況,并為今后的教學提供指導。
2、在教學評價方面
教學評價是教學中的一個重要環(huán)節(jié),是引導教育、培養(yǎng)高素質(zhì)人才,幫助社會充分利用教育成果和促進教育健康發(fā)展的保證。傳統(tǒng)的教學評價大多是參考相關(guān)評價指標體系和調(diào)查問卷等方式實施的,而且更是注重評價的結(jié)果,以作為教師晉升、學生評優(yōu)等的依據(jù).高校每學期都要搞課堂教學評價調(diào)查,積累了大量的教學信息數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),從教學評價數(shù)據(jù)中進行數(shù)據(jù)挖掘,探討教學效果的好壞與教師的年齡、職稱之間有無必然的聯(lián)系,課堂教學效果與教師整體素質(zhì)關(guān)系如何,合理配備班級的上課教師,使學生能夠較好的保持良好的學習態(tài)度,從而為教學部門提供了決策支持信息,促使更好地開展教學工作,提高教學質(zhì)量。
3、選擇教師的教學方法方面
在教學過程中,教師可以采用多種方法來完成自己的教學任務(wù),比如講授法、多媒體演示、分組討論法、課程實習法等,在通常情況下,一般可以采取一種或幾種方法進行.據(jù)此可用數(shù)據(jù)挖掘的方法來挖掘數(shù)據(jù)庫中的數(shù)據(jù),判定下一步應(yīng)采取什么樣的教學方法,以滿足教學的需要,更有利于學生對知識的吸收。
4、課程的合理設(shè)置方面
在學校,學生的課堂學習是循序漸進的,而且課程之間有一定的關(guān)聯(lián)與前后順序關(guān)系,在學一門較高級課程之前必須先修一些先行課程,如果先行課程沒有學好,勢必會影響后續(xù)課程的學習,此外,每一學期安排課程的多少,也會影響學生的學習效果。利用學校教務(wù)管理系統(tǒng)中存放的歷屆學生各門學科的考試成績,結(jié)合數(shù)據(jù)挖掘技術(shù)的相關(guān)功能,得出一些有價值的規(guī)則和信息,最終找到影響學生成績的原因,在些基礎(chǔ)上,對課程設(shè)置做出合理安排。
六、結(jié)束語
隨著我國各高校管理信息化的不斷推進,各類學校的數(shù)據(jù)庫建設(shè)不斷完善,在學校平時的教育教學管理中累積了大量的數(shù)據(jù)。在這些海量的數(shù)據(jù)中,隱藏著大量有用的知識,如果利用好這些知識,將能夠?qū)W校的教育教學工作起到積極的指導作用。數(shù)據(jù)挖掘技術(shù)正是為了解決如何從海量數(shù)據(jù)中挖掘出有用的知識,因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校的教育教學中去是非常有必要的。
參考文獻:
【1】吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.南京師大學報(自然科學版),2000,23(2):25-27
【2】李慶香.數(shù)據(jù)挖掘技術(shù)在高校學生成績分析中的應(yīng)用研究:碩士學位論文.重慶:西南大學教育技術(shù)系,2009