前言:想要寫出一篇引人入勝的文章?我們特意為您整理了關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理范文,希望能給你帶來靈感和參考,敬請閱讀。
關(guān)鍵詞:高校房產(chǎn)檔案;關(guān)聯(lián)分析;Apriori算法
高校房產(chǎn)檔案種類繁多,時間跨度長,載體多樣,在立卷和著錄階段忽視了案卷之間隱含的業(yè)務(wù)聯(lián)系,使得數(shù)據(jù)信息呈孤立狀態(tài),難以挖掘出檔案之間潛在的信息,不利于用戶查詢使用。本文將檔案信息關(guān)聯(lián)分析技術(shù)應(yīng)用于高校房產(chǎn)檔案管理,嘗試解決檔案信息孤立分散的問題,充分挖掘檔案之間的隱含聯(lián)系,對檔案進(jìn)行深層次的二次開發(fā)利用。
一、關(guān)聯(lián)規(guī)則分析和Apriori算法
關(guān)聯(lián)分析又稱為關(guān)聯(lián)規(guī)則挖掘,是在信息載體中查找存在于項目集合之間的頻繁模式、相關(guān)性或因果結(jié)構(gòu)。Apriori算法是最具影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法之一。該算法的基本思想是利用迭代的方法找出數(shù)據(jù)值中頻繁出現(xiàn)的集合,從這些集合中發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則。一般而言Apriori算法使用支持度作為判斷頻繁項集的標(biāo)準(zhǔn)。如果將Arpriori算法用到房產(chǎn)檔案管理中,檔案中有教職工購買房改房資料、申請貨幣補(bǔ)貼資料、基建資料、權(quán)籍資料等,這些資料都可以看成一個個的項目集合,可以用關(guān)聯(lián)分析找出所有集合中頻繁出現(xiàn)的集合,設(shè)定一個支持度閾值α,出現(xiàn)頻率高于閾值α的集合即是我們要找的頻繁集合。算法用逐層迭代的方法實現(xiàn)。第一步,根據(jù)算法對整個數(shù)據(jù)集進(jìn)行掃描,獲取所有數(shù)據(jù)集,此時還未計算頻繁項集。第二步,計算各數(shù)據(jù)集的支持度,減除支持度低于閾值α的項集,所保留的項集為頻繁k項集。如果得到的k項集為空,則返回頻繁k-1項集的集合作為算法結(jié)果。如果得到的k項集只有一項,則直接返回頻繁k項集的集合作為算法結(jié)果。否則,令k項集為k+1項集,返回第二步,如此往復(fù)。最終得到所有頻繁項集,也就是在所歸檔的房產(chǎn)檔案中出現(xiàn)最頻繁的文檔資料。第三步,找出k項頻繁集各項之間的關(guān)聯(lián)。例如,教職工購買公有住房審批表的出現(xiàn)極有可能伴隨著購房買賣契約的出現(xiàn),購房票據(jù)也應(yīng)該隨之一起出現(xiàn);或者學(xué)?;椖抠Y料的出現(xiàn)肯定會伴隨著項目審批資料等等。各頻繁項集彼此之間同時發(fā)生的概率就是它們的置信度。下面通過一個虛擬的例子來分析Apriori算法在高校房產(chǎn)檔案中應(yīng)用的實際意義。
二、Apriori算法在房產(chǎn)檔案中的應(yīng)用
高校教職工住房改革與福利分房的資料是高校房產(chǎn)檔案中重要的組成部分,也是最能體現(xiàn)房產(chǎn)檔案復(fù)雜性的一部分,在日常管理工作中具有較高的查詢利用率。利用Apriori算法在模擬的房產(chǎn)檔案數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析實驗。實驗數(shù)據(jù)集采用50條教職工房改信息,Apriori算法是基于《機(jī)器學(xué)習(xí)實戰(zhàn)》中python代碼,最小支持度閾值設(shè)為0.6,置信度參數(shù)設(shè)置為0.85。測試數(shù)據(jù)集中事務(wù)ID為數(shù)據(jù)條目,如01條事務(wù)數(shù)據(jù)表示教職工A同時有購房申請表、購房審批表、購房買賣契約、購房票據(jù)、貨幣補(bǔ)貼審批表和退款票據(jù)這6種資料。而02條事務(wù)數(shù)據(jù)表示教職工B沒有這些資料,只有貨幣補(bǔ)貼審批表、退房協(xié)議和會議記錄上討論的關(guān)于住房問題的解決方案,以此類推。數(shù)據(jù)集如表1所示。運(yùn)行代碼,實驗結(jié)果顯示在測試數(shù)據(jù)中。當(dāng)支持度閾值α設(shè)置為0.6的情況下,共有10個頻繁項集。見表2、表3。它意味著如果用戶來查詢相關(guān)檔案,85%的教職工可以查詢到申領(lǐng)過的住房貨幣補(bǔ)貼記錄,70%的教職工有學(xué)校分配住房的記錄或者職稱和定級文件,65%的教職工提交過購房申請表,70%的教職工提交過貨幣補(bǔ)貼審批表,70%的教職工提交過購房審批表并簽署過購房買賣契約。退房協(xié)議和會議記錄上提及到住房解決方案的資料歸檔的數(shù)量不太多,支持度沒有達(dá)到閾值0.6。將支持度閾值α調(diào)整為0.5查看結(jié)果,發(fā)現(xiàn)頻繁項集增加了許多,從表2所示結(jié)果可知55%的查詢者可以檢索到自己的購房票據(jù)。多次調(diào)整支持度閾值可準(zhǔn)確定量地知曉數(shù)據(jù)集中各類案卷的分布情況。另外,從表2中可以看出,購房申請表和購房審批表及購房買賣契約同時出現(xiàn)的概率為60%,表示提交過購房申請的教職工中60%的人最后都購買了公房。購房申請表和購房買賣契約同時出現(xiàn)的概率為70%,說明大部分教職工這兩樣材料都齊全。根據(jù)這些結(jié)論,檔案管理人員可以快速知悉數(shù)據(jù)庫中各類資料的數(shù)量比例,做到心中有數(shù),查詢有的放矢。實驗第二部分計算了各頻繁項集的置信度,置信度定量地估算出所分析得到的關(guān)聯(lián)規(guī)則的準(zhǔn)確度,也即可信度。見表4。由表4所示的實驗結(jié)果可知,上一步得出的購房審批表和購房買賣契約的共現(xiàn)概率70%(支持度),其置信度為100%,可信度非常高。購房申請表和購房審批表共現(xiàn)概率60%的置信度為92.3%。置信度的計算可以提供使用關(guān)聯(lián)規(guī)則的依據(jù),首先使用置信度高的關(guān)聯(lián)規(guī)則,提高檔案查詢效率。
在實際房產(chǎn)檔案管理工作中,檔案管理人員可以利用關(guān)聯(lián)分析規(guī)則提高檔案檢索效率和查全率。例如,需要查詢教職工A十幾年前的住房記錄,但是在分房記錄的數(shù)據(jù)里沒有找到該資料,是否就意味著這份資料遺失或沒有歸檔呢?依據(jù)規(guī)則,貨幣補(bǔ)貼審批表對分房記錄的支持度為0.65,意味著檢索到A的貨幣補(bǔ)貼審批表就有65%的概率可以查詢到A的分房記錄材料,這一推測的置信度為92.9%,可信程度很高,因此可以從貨幣補(bǔ)貼審批表作為突破口做新的嘗試。查詢A的貨幣補(bǔ)貼審批表發(fā)現(xiàn)當(dāng)年所填寫的房屋地址與現(xiàn)在所用的地址名稱不一致,是變更前的地址,因為時間間隔久遠(yuǎn)不少人已經(jīng)不知道原來的地址名稱。檢索舊地址最后找到A的分房記錄,問題迎刃而解??梢婈P(guān)聯(lián)分析規(guī)則的應(yīng)用能為某些檢索難題提供思路和捷徑。同樣,對于很多歷史悠久的高校來說,不少建筑經(jīng)歷過更名、改造、擴(kuò)建等變動,在查閱老舊圖紙或資料時常常遇到困難,輸入的關(guān)鍵字與當(dāng)時著錄的關(guān)鍵字不匹配,檢索不到想要的檔案。利用關(guān)聯(lián)分析找到關(guān)聯(lián)緊密的材料,很大程度上可以提高檔案檢索的查全性。最后,檔案檔案管理人員可以依據(jù)實驗結(jié)果發(fā)現(xiàn)管理中的疏漏。購房票據(jù)的支持度明顯小于購房審批表和購房買賣契約,說明不少購房者的購房票據(jù)沒有檢索到,這就需要檔案管理人員查驗是否由于票據(jù)遺失,或是著錄過程中重要信息沒有提取導(dǎo)致沒有檢索到,找到問題所在,完善檔案管理。綜上所述,關(guān)聯(lián)分析算法的應(yīng)用可以提高高校房產(chǎn)檔案信息化建設(shè)的效益。但是,現(xiàn)階段高校房產(chǎn)檔案管理信息化亟待解決的一個困難是將多源異構(gòu)的數(shù)據(jù)信息化,以便能從不同的數(shù)據(jù)庫信息中挖掘潛在信息,提高檔案的利用價值。
參考文獻(xiàn):
[1](美)PeterHarrington.機(jī)器學(xué)習(xí)實戰(zhàn)[M].李銳,李鵬,曲亞東,王斌,譯.人民郵電出版社,2013.
[2]郭雪薇,董晶.基于特征關(guān)聯(lián)分析的檔案信息關(guān)聯(lián)分析模型[J].電子設(shè)計工程,2019(27):47-52.
[3]呂元智.數(shù)字檔案資源知識“關(guān)聯(lián)”組織研究[J].檔案學(xué)研究,2012(6):44-48.
[4]梁麗燕.關(guān)聯(lián)規(guī)則挖掘Apriori算法在數(shù)字檔案系統(tǒng)中的應(yīng)用研究[J].現(xiàn)代計算機(jī),2011(13):7-10.
[5]許惠瑋.基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究[J].北京檔案,2012(9):29-30.
[6]左娜,張衛(wèi)東,賈瓊.基于關(guān)聯(lián)數(shù)據(jù)的檔案文化資源整合研究[J].蘭臺世界,2018(2):21-25.
[7]陳源.數(shù)據(jù)挖掘在高校檔案管理中的應(yīng)用研究[J].辦公室業(yè)務(wù),2012(22):144-145.
作者:曹晨 單位:蘇州大學(xué)檔案館