前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下服裝品牌知識(shí)挖掘淺析范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:針對(duì)網(wǎng)絡(luò)數(shù)據(jù)價(jià)值密度低、行業(yè)信息造價(jià)昂貴的現(xiàn)狀,從服裝品牌出發(fā)構(gòu)建語料庫,基于語料庫分析法運(yùn)用數(shù)據(jù)挖掘工具KHcoder進(jìn)行知識(shí)挖掘。在此過程中發(fā)現(xiàn)了服裝品牌的數(shù)據(jù)特征并獲得了與服裝品牌相關(guān)的知識(shí)集群,證明了用大數(shù)據(jù)技術(shù)挖掘服裝品牌知識(shí)的可行性。
關(guān)鍵詞:大數(shù)據(jù);服裝品牌;KHcoder;數(shù)據(jù)挖掘
大數(shù)據(jù)時(shí)代產(chǎn)生了海量的數(shù)據(jù),但是數(shù)據(jù)類型多元異構(gòu)、網(wǎng)頁發(fā)布不規(guī)范等因素導(dǎo)致數(shù)據(jù)價(jià)值密度低,信息造價(jià)昂貴。大數(shù)據(jù)分析和數(shù)據(jù)挖掘是基于統(tǒng)計(jì)分析學(xué)的從數(shù)據(jù)中獲取知識(shí)的一種研究方法,在互聯(lián)網(wǎng)、金融、醫(yī)療等多個(gè)行業(yè)都有很好的發(fā)展與應(yīng)用。語料庫分析法在國(guó)外已有三十年以上的研究歷史,目前服裝領(lǐng)域內(nèi)多使用學(xué)術(shù)文獻(xiàn)作為研究語料庫進(jìn)行行業(yè)信息發(fā)現(xiàn)和預(yù)測(cè),缺乏對(duì)其他行業(yè)數(shù)據(jù)的探索與使用;為了提高服裝行業(yè)對(duì)開源數(shù)據(jù)的利用率,構(gòu)建行業(yè)語料庫、通過合理的數(shù)據(jù)分析工具對(duì)行業(yè)數(shù)據(jù)進(jìn)行知識(shí)挖掘,對(duì)行業(yè)知識(shí)工程的建設(shè)具有重要的實(shí)踐意義。
1服裝品牌研究語料庫構(gòu)建
1.1數(shù)據(jù)渠道選擇
為保證語料庫中服裝品牌數(shù)據(jù)的多樣性和全面性需對(duì)采集渠道進(jìn)行評(píng)估篩選,最終確定的數(shù)據(jù)源類型如下:(1)服裝專業(yè)平臺(tái)和品牌網(wǎng)站:如WGSN、POP流行趨勢(shì)平臺(tái),中國(guó)時(shí)尚網(wǎng)、中國(guó)報(bào)告大廳等網(wǎng)站。(2)學(xué)術(shù)資源平臺(tái):CNKI數(shù)據(jù)庫。(3)通用知識(shí)網(wǎng)站:如百度百科知識(shí)庫。
1.2研究樣本選擇
進(jìn)行品牌調(diào)研,圍繞“服裝品牌排行”檢索知名度較高、數(shù)據(jù)信息分布較多的服裝品牌。共選擇了60個(gè)服裝品牌,主要可分為以下幾種類型。(1)國(guó)際奢侈品牌。如阿瑪尼、巴寶莉等共32個(gè)。(2)國(guó)內(nèi)具有一定創(chuàng)建歷史與知名度的服裝品牌。如勁霸、七匹狼等共10個(gè)中國(guó)品牌。(3)潮牌與戶外品牌。如LARGE、SUPREME、戶外品牌始祖鳥、哥倫比亞等共18個(gè)。
1.3數(shù)據(jù)采集與整理
網(wǎng)絡(luò)爬蟲是進(jìn)行大數(shù)據(jù)收集的主要技術(shù)手段。采集過程以爬蟲(后裔采集器)采集為主,人工采集為輔。通用類數(shù)據(jù)平臺(tái)結(jié)構(gòu)簡(jiǎn)單,先用采集器進(jìn)行數(shù)據(jù)爬取,再對(duì)結(jié)果進(jìn)行人工篩選降重,以減少數(shù)據(jù)噪音;專業(yè)類平臺(tái),如WGSN、POP,CNKI有權(quán)限限制,平臺(tái)結(jié)構(gòu)復(fù)雜,采集過程主要依賴人工。采集過程中總結(jié)出如下數(shù)據(jù)分布特點(diǎn):通用網(wǎng)絡(luò)平臺(tái)如百度百科、品牌、服裝網(wǎng),數(shù)據(jù)重復(fù)率高類型單一;學(xué)術(shù)平臺(tái)的數(shù)據(jù)語料,類型豐富但噪音大。通用網(wǎng)絡(luò)上國(guó)際服裝品牌的數(shù)據(jù)量和信息價(jià)值多于國(guó)內(nèi)的服裝品牌,學(xué)術(shù)平臺(tái)數(shù)據(jù)則呈現(xiàn)相反趨勢(shì)。奢侈等級(jí)越高,其受眾群體小,數(shù)據(jù)缺乏,如定制類品牌Brioni。
2服裝品牌數(shù)據(jù)挖掘
2.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)研究過程使用的是定量?jī)?nèi)容分析和數(shù)據(jù)挖掘軟件KHCoder,該軟件有特征抽取、語義共現(xiàn)、文本聚類、主題分析等功能,適用于大量型非結(jié)構(gòu)化文本的分析。為提高數(shù)據(jù)挖掘的效率和質(zhì)量,數(shù)據(jù)預(yù)處理步驟如下:(1)數(shù)據(jù)集成與格式規(guī)范:數(shù)據(jù)格式整理為單個(gè)CSV/Excel表格或批量TXT文本。以品牌為例,每一個(gè)品牌數(shù)據(jù)合并在一個(gè)TXT文檔里,以品牌名稱和定義的序號(hào)命名,匯總在文件夾下。CSV文件中,第一列為分析數(shù)據(jù),第二列第三列可設(shè)置外部變量。(2)詞類篩選與定義:選擇跟分析目的相關(guān)的詞性,排除無意義詞匯對(duì)數(shù)據(jù)結(jié)果的影響。一般主要選擇名詞、專業(yè)用詞、形容詞、標(biāo)簽。(3)編碼規(guī)則編寫:KH編碼器可以自定義編碼規(guī)則,執(zhí)行編碼。如“*博柏利Burberry|博寶利/巴寶莉”表示只要出現(xiàn)這些詞匯則認(rèn)為該文檔與品牌“博柏利”有關(guān),借助編碼可協(xié)助品牌語料識(shí)別。
2.2關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析
語義網(wǎng)絡(luò)是全局性的數(shù)據(jù)結(jié)構(gòu)觀察方法。在KHcoder設(shè)置不同的分析系數(shù)與變量因素,執(zhí)行共現(xiàn)網(wǎng)絡(luò)分析可發(fā)現(xiàn)隱形關(guān)聯(lián),從不同的角度進(jìn)行數(shù)據(jù)特征挖掘,發(fā)現(xiàn)語料庫的數(shù)據(jù)特征和隱藏的知識(shí)結(jié)構(gòu)。共現(xiàn)分析是按照關(guān)鍵詞在每篇文章中的共同出現(xiàn)的情況生成的語義網(wǎng)絡(luò)。設(shè)置參數(shù)時(shí)將共現(xiàn)網(wǎng)絡(luò)設(shè)置為無向網(wǎng),共現(xiàn)結(jié)果(圖1~圖3)中圈的大小代表頻次,顏色代表聚類情況。語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系可以是詞匯與外部變量之間的。以圖1為例,該圖是以品牌語料作為分析文本,以“品牌名稱”作為外部變量,基于語義相似度計(jì)算的語義網(wǎng)絡(luò)。品牌間由特征詞關(guān)聯(lián)起來形成不同的遠(yuǎn)近關(guān)系,其關(guān)聯(lián)與人工劃分的品牌類型相符;由品牌的共現(xiàn)相似性可對(duì)競(jìng)爭(zhēng)關(guān)系展開知識(shí)推理。語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系也可以是詞匯與詞匯之間的。圖2是沒有設(shè)置外部變量,由服裝綜合性語料分析后展開的語義網(wǎng)絡(luò),可借此知道文本中存在較多的信息類型。由圖可知,分析文本中包含較多的“市場(chǎng)”“色彩”“元素”“造型”“圖案”等信息類型。圖3是以“雅格獅丹”的品牌語料為分析文本導(dǎo)出的語義網(wǎng)絡(luò)。雅格獅丹是英國(guó)倫敦的御用皇家品牌,戰(zhàn)爭(zhēng)期間為軍隊(duì)設(shè)計(jì)的防水大衣是品牌的經(jīng)典設(shè)計(jì)。在共現(xiàn)結(jié)果中,與雅格獅丹品牌相關(guān)的關(guān)鍵詞和信息點(diǎn)在語義網(wǎng)絡(luò)中都有明顯表現(xiàn)。通過語義網(wǎng)絡(luò),可觀察到每個(gè)品牌的數(shù)據(jù)特征詞;得到基于大數(shù)據(jù)文本的“品牌數(shù)據(jù)畫像”。語義網(wǎng)絡(luò)中的共現(xiàn)詞匯在一定程度上體現(xiàn)了數(shù)據(jù)的主題,可挖掘語料庫的行業(yè)信息,實(shí)現(xiàn)行業(yè)的知識(shí)發(fā)現(xiàn)。
2.3集群聚類與KWIC檢索
通過聚類分析和KWIC檢索可在詞匯語境下進(jìn)行數(shù)據(jù)的分析觀察。集群就是把相似的個(gè)體(樣本語料)歸于一群。通過集群聚類,可以得到不同場(chǎng)景的文本集群,并可得到不同集群下的特征詞匯表(表2,表3)。Jaccard數(shù)值越高證明該詞在這一集群中的權(quán)重越大。如表2所示,由特征詞可知該集群的文本語料與“顏色”密切相關(guān);如表3所示,該集群的語料與戶外運(yùn)動(dòng)密切相關(guān)。以此為依據(jù)可進(jìn)行語料分類和行業(yè)術(shù)語抽取。KWIC檢索也是基于語義相似度計(jì)算的統(tǒng)計(jì)分析,可輸入關(guān)鍵詞(研究對(duì)象)直接查詢?cè)撛~的上下文語境。分?jǐn)?shù)越高意味著在分析樣本中該詞與風(fēng)格搭配越頻繁。由上述結(jié)果可知,在KHcoder中執(zhí)行集群聚類可對(duì)文本語料進(jìn)行分類;借助集群聚類和KWIC檢索還可獲取特征詞匯,“品牌”“顏色”“單品”“圖案”、“面料”“風(fēng)格”“功能”“場(chǎng)景”等服裝行業(yè)的知識(shí)信息都可借此進(jìn)行聚類、提煉。
3結(jié)論
文章借助爬蟲技術(shù)和文本挖掘工具,對(duì)60個(gè)服裝品牌進(jìn)行了數(shù)據(jù)采集與語料庫構(gòu)建,發(fā)現(xiàn)了不同服裝品牌的數(shù)據(jù)分布特征。在語料庫基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,從不同角度繪制了語料文本的語義網(wǎng)絡(luò),并獲取了基于語料庫的服裝品牌知識(shí)集群。結(jié)果表明,運(yùn)用大數(shù)據(jù)技術(shù)在服裝品牌開源數(shù)據(jù)上進(jìn)行知識(shí)抽取具備科學(xué)性和可行性。實(shí)驗(yàn)結(jié)果對(duì)知識(shí)工程建設(shè)者或數(shù)據(jù)分析人員具有一定的借鑒或參考價(jià)值。
作者:楊麗麗 劉靜偉 單位:西安工程大學(xué)服裝與藝術(shù)設(shè)計(jì)學(xué)院
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫