公務(wù)員期刊網(wǎng) 論文中心 正文

小議汽車保險中關(guān)聯(lián)規(guī)則挖掘的運(yùn)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了小議汽車保險中關(guān)聯(lián)規(guī)則挖掘的運(yùn)用范文,希望能給你帶來靈感和參考,敬請閱讀。

小議汽車保險中關(guān)聯(lián)規(guī)則挖掘的運(yùn)用

關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出所有的頻繁項(xiàng)集。這些項(xiàng)集出現(xiàn)的頻率至少和預(yù)定義的最小支持?jǐn)?shù)一樣,即所有滿足最小支持度的項(xiàng)集的集合。(2)由頻繁項(xiàng)集中產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。即確定規(guī)則A=>B是否有效,可以令:r=sup(A∪B)/sup(A),當(dāng)且僅當(dāng)r>min_conf時,規(guī)則有意義(其中min_conf為最小置信度)。(3)解釋并輸出規(guī)則步驟一是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法設(shè)計的核心問題,因?yàn)樗男矢叩褪撬惴ǖ年P(guān)鍵.由于Apriori關(guān)聯(lián)規(guī)則算法[3]需要產(chǎn)生大量候選項(xiàng)集,資源消耗巨大,效率低。而FP-Growth關(guān)聯(lián)規(guī)則算法只需掃描一次數(shù)據(jù)庫,對系統(tǒng)資源的消耗較小,效率相對較高。因此,對于海量數(shù)據(jù)的保險信息系統(tǒng),本文選用FP-Growth算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘.

關(guān)聯(lián)規(guī)則挖掘在車輛保險中的應(yīng)用

1.數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘過程的先決條件,數(shù)據(jù)質(zhì)量將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終規(guī)則的合理有效性。本文選取某大型保險公司省級公司近8年車險數(shù)據(jù)庫數(shù)據(jù)進(jìn)行挖掘。影響車輛保險的風(fēng)險主要有駕駛?cè)藛T、車輛狀況、地理環(huán)境、氣候條件、社會環(huán)境、經(jīng)營管理等因素,為此研究這些因素與風(fēng)險的關(guān)系,并結(jié)合實(shí)際情況和對風(fēng)險的影響程度,從中選取的目標(biāo)數(shù)據(jù)每條記錄中包括年齡、性別、婚姻狀況、駕齡、職業(yè)、車重與載貨重、車型、車齡、汽車顏色、使用性質(zhì)、投保險種、保費(fèi)保額、汽車貸款標(biāo)志、購買價格、多車所有情況、是否連續(xù)投保、投保地點(diǎn)、銷售渠道、投保日期、出險日期、賠付率等21個屬性進(jìn)行關(guān)聯(lián)規(guī)則的挖掘整理歸納。

2.數(shù)據(jù)離散化和去冗余

利用計算機(jī)對數(shù)據(jù)庫的海量數(shù)據(jù)進(jìn)行分析挖掘,需要對連續(xù)的數(shù)據(jù)作離散化工作。年齡、保額、投保出險日期、賠付率都是連續(xù)的數(shù)據(jù)。為了離散量化,根據(jù)情況和計算機(jī)編程計算的需要可將這些數(shù)據(jù)分為幾類。例如,年齡分為a1(<20歲),a2(20-25歲),a3(25-34歲),a4(35-45歲),a5(>=46歲),將日期按提取數(shù)據(jù)年份年分為8年,每年具體日期按月分為12個值。將賠付率劃分為[00,]、(0,10%]、(10%,30%]、(30%,50%]、(50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+∞]九類。去除由于誤操作輸入產(chǎn)生的明顯不合邏輯和業(yè)務(wù)要求的垃圾數(shù)據(jù)。

3.確定關(guān)聯(lián)規(guī)則的支持度至少為35%,置信度至少為80%。進(jìn)行關(guān)聯(lián)規(guī)則挖掘過程如下:1)利于FP-Growth算法找出頻繁項(xiàng)集。2)找出滿足支持度和置信度的強(qiáng)關(guān)聯(lián)規(guī)則。由于本文選取的樣本屬性值有21個,為了算法的簡約和計算的省時,我們在實(shí)際挖掘中采用了分區(qū)挖掘產(chǎn)生關(guān)聯(lián)規(guī)則的做法.具體做法如下:將樣本屬性值按駕駛員,車,環(huán)境分為A,B,C大區(qū),每區(qū)與賠付率相關(guān)。先按A,B,C區(qū)分別進(jìn)行關(guān)聯(lián)規(guī)則與賠付率的挖掘,得出滿足條件的強(qiáng)關(guān)聯(lián)規(guī)則15條,然后對A,B,C三大區(qū)進(jìn)行區(qū)級關(guān)聯(lián),找出區(qū)間可能有關(guān)聯(lián)關(guān)系的屬性,對重點(diǎn)屬性與賠付率進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。以上挖掘過程中,產(chǎn)生了許多滿足條件的強(qiáng)關(guān)聯(lián)規(guī)則:如在每年9-11月投保的家庭自用新車,在當(dāng)年冬天發(fā)生車損險的概率比一般車低,這可能是由于車主對自身新車的愛護(hù)而在風(fēng)雪天少開車導(dǎo)致的原因;已婚駕齡5年以上的司機(jī)開公務(wù)車出險的概率大大低于一般司機(jī),顯然這是由于車主經(jīng)驗(yàn)和責(zé)任心更強(qiáng)的緣故。在進(jìn)一步的挖掘中,我們還發(fā)現(xiàn)了很多意想不到的關(guān)聯(lián)規(guī)則,經(jīng)過分析也可以得到合理解釋:貸款購買的車輛其盜搶險的發(fā)生率很低,出于車主對愛車的存放更費(fèi)心和穩(wěn)妥;某些車型在4S店中賣出后的賠付率比其他渠道要高,這估計是因?yàn)檐囍髟?S店買車險后,4S店的承諾和車主自身心里更傾向于在修理價格更高的4S店維修導(dǎo)致賠付率升高等等。

4.規(guī)則的解釋和價值衡量

得到這些關(guān)聯(lián)規(guī)則后,可以從系統(tǒng)客觀和公司主觀兩個層面來衡量這些規(guī)則的價值和有用性,使得到合理解釋的規(guī)則可以在公司決策中發(fā)揮作用。1)系統(tǒng)客觀層面從系統(tǒng)客觀層面評價一條規(guī)則是否合理有價值,主要是依據(jù)支持度、置信度兩個指標(biāo)來衡量。我們認(rèn)為支持度大于50%且置信度大于85%的關(guān)聯(lián)規(guī)則是有特別價值,值得分析和關(guān)注的。對于支持度和置信度的選取我們按年份遠(yuǎn)近采取了加權(quán)計算的方法,即越接近現(xiàn)在的年份給的加權(quán)值越高,越有價值,分析研究的意義越大。2)公司主觀層面運(yùn)用數(shù)學(xué)的方法可以對一規(guī)則進(jìn)行分析評價缺乏實(shí)踐的證明和公司操作員工及決策層的認(rèn)同,所以規(guī)則評價必須考慮到公司的主觀因素。在得到一系列的風(fēng)險規(guī)則后,需要在公司尤其一線操作人員中征求廣泛意見和建議,在得到實(shí)踐人員的合理評價后對相應(yīng)的關(guān)聯(lián)規(guī)則作出科學(xué)分析,這樣才能最終形成有價值的公司市場決策依據(jù)。

數(shù)據(jù)挖掘技術(shù)的充分應(yīng)用,不僅可以幫助保險公司對業(yè)務(wù)風(fēng)險進(jìn)行各種因素分析,尋求業(yè)務(wù)規(guī)律,為保險公司應(yīng)對市場提供決策支持;也可以使保險公司更好的實(shí)現(xiàn)差異化經(jīng)營,保持具有競爭力的保費(fèi)和覆蓋風(fēng)險及提供服務(wù)之間的平衡,規(guī)避風(fēng)險,挖掘更多的市場商機(jī)。(本文作者:武治國 單位:人保財險山西省分公司信息技術(shù)部)