前言:想要寫出一篇引人入勝的文章?我們特意為您整理了網(wǎng)站在線決策系統(tǒng)實現(xiàn)及應用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文發(fā)現(xiàn)近年來網(wǎng)站決策支持的概念得以發(fā)展和推廣,利用數(shù)據(jù)挖掘技術(shù),對網(wǎng)站運行生成的非關(guān)系型日志數(shù)據(jù)進行挖掘,通過對網(wǎng)站訪問量的智能分析,為網(wǎng)站的運營管理提供科學有效的決策依據(jù)?;谥行⌒途W(wǎng)站靈活,低成本的需求,提出了面向中小型網(wǎng)站在線決策系統(tǒng),通過此系統(tǒng)的專業(yè)的分析,網(wǎng)站可以全面了解自身的網(wǎng)站流量、被關(guān)注的程度等細節(jié),通過網(wǎng)站分析、網(wǎng)站流量分析的結(jié)果進行科學的決策來提高其網(wǎng)站的商業(yè)價值。
關(guān)鍵詞:中小型網(wǎng)站分析;數(shù)據(jù)挖掘;決策系統(tǒng)
伴隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、分布式服務(wù)器等技術(shù)的飛速發(fā)展,標志著以通訊、計算機、網(wǎng)絡(luò)技術(shù)為代表的現(xiàn)代信息技術(shù)為代表的新信息技術(shù)時代的來臨。新信息時代變革對于中小型網(wǎng)站既是機遇又是調(diào)整:一方面新技術(shù)的迅速發(fā)展,給互聯(lián)網(wǎng)生態(tài)不斷注入新鮮血液;另一方面,中小型網(wǎng)站受制于資金和自身技術(shù)能力,不能很好地在互聯(lián)網(wǎng)上基于新技術(shù)進行進一步延伸和拓展。作為我國經(jīng)濟和社會發(fā)展的重要力量,中小企業(yè)憑借網(wǎng)站、電子商務(wù)、應用等互聯(lián)網(wǎng)平臺在電商、服務(wù)貿(mào)易等領(lǐng)域發(fā)揮著重要作用[1][2][3]。在新信息技術(shù)時代大背景下,中小企業(yè)網(wǎng)站通過基于大數(shù)據(jù)的在線決策分析系統(tǒng)提高內(nèi)部管理效率、降低運營成本、擴大市場機會、提升服務(wù)水平具有重要作用[4]。以往在線決策分析系統(tǒng)基本是面向大企業(yè)網(wǎng)站,復雜度高,成本高昂[4][5],少量面向關(guān)于中小企業(yè)網(wǎng)站的研究多采取定性描述等方式,缺少基于大數(shù)據(jù)的科學定量的研究方法[6]。決策分析作為網(wǎng)絡(luò)信息分析和數(shù)據(jù)研究的重要方法和依托,可以從網(wǎng)絡(luò)信息資源的管理與科學評價方面為中小企業(yè)網(wǎng)站建設(shè)提供定量的分析[7]。本研究基于長期市場分析和技術(shù)研發(fā),提出了面向中小型網(wǎng)站在線決策系統(tǒng):通過此系統(tǒng)的專業(yè)精準分析進行科學和有效的判斷決策。
1決策支持平臺技術(shù)概述
1.1后臺數(shù)據(jù)處理與分析部分
決策支持網(wǎng)站采用B/S架構(gòu),后臺數(shù)據(jù)處理和分析部分支持全國各地的分布式的網(wǎng)站群。系統(tǒng)最低程度地使用用戶的資源,包括服務(wù)器與人力資源。系統(tǒng)的配置方式通過批處理完成,保證用戶的數(shù)據(jù)傳輸是安全的。歷史數(shù)據(jù)的存放采用備份與壓縮技術(shù),支持大批量的用戶的同時使用。有的網(wǎng)站有可能因為自身的原因,不能及時提供數(shù)據(jù)。本系統(tǒng)具有自動告警的功能,同時,如果系統(tǒng)正常以后,需要有自動獲取數(shù)據(jù)的功能。系統(tǒng)需要具備冗余性和魯棒性,如果正在計算的服務(wù)器資源出現(xiàn)故障,那么要有其它計算機資源接管或者重新執(zhí)行任務(wù)的能力。系統(tǒng)也具有并行計算的能力,充分利用計算機服務(wù)器的多核特性。
1.2前臺交互部分
系統(tǒng)前端用戶交互部分具有模塊劃分的能力,不同的用戶可以看到不同的服務(wù)功能。具有計費、續(xù)費、繳費的在線功能,保證頁面的刷新速度,能夠配置自己站點欄目的能力,能夠展現(xiàn)各類圖表。系統(tǒng)還需要具備在線即時通信。
1.3關(guān)鍵技術(shù)問題
1.3.1第一種:數(shù)據(jù)傳輸?shù)膯栴}整個系統(tǒng)平臺最關(guān)鍵的問題是用戶如何把自己的日志文件或者網(wǎng)站訪問情況的信息交付給系統(tǒng)平臺進行服務(wù)。不同類型的網(wǎng)站的訪問信息(或日志文件)獲取的途徑不同,盡量把不同的日志獲取途徑統(tǒng)一在幾種方式上[8]。一般來說,中小型網(wǎng)站有如下四類情況:A.有自己的網(wǎng)站服務(wù)器,也有多余的空閑服務(wù)器,也有自己的技術(shù)人員。同意開放FTP端口或HTTP傳輸日志。B.有自己的網(wǎng)站服務(wù)器,但是沒有獨立的網(wǎng)站分析的服務(wù)器。不對外開放端口。C.有自己的網(wǎng)站服務(wù)器,也有多余的空閑服務(wù)器,沒有多余的技術(shù)人員。D.沒有自己的網(wǎng)站服務(wù)器,使用的是虛擬主機空間。針對如上四類情況,采用不同的方式來獲取日志以及進行分析:(1)A類情況:用戶注冊以后可以下載一個比較完整的軟件包,該包安裝于客戶處的服務(wù)器上。這類客戶的好處就是:能夠保證了自己數(shù)據(jù)的放心度、保證了訪問的速度。(2)B類情況:用戶可以下載一個日志推送小工具,該小工具安裝于客戶處的任何機器,例如桌面機。通過端口配置,客戶可以主動把日志文件投送的注冊是選定的服務(wù)器。(3)C類情況:操作方式與B類一樣。如果由空閑的計算機資源,可以通過資源置換的方式征用此服務(wù)器作為網(wǎng)格計算的節(jié)點,此服務(wù)器需要安裝一個分析引擎。這臺服務(wù)器來作為整個平臺的一個網(wǎng)格節(jié)點使用。(4)D類情況:讓虛擬主機商開放其用戶的日志文件,通過B類的方式獲取到日志,進而進行分析。
1.3.2第二種:網(wǎng)格化分析計算問題對于網(wǎng)格化計算問題,中心服務(wù)器與其他網(wǎng)格節(jié)點進行通訊來分配任務(wù),網(wǎng)格節(jié)點計算完自己的任務(wù)后,把計算的結(jié)果傳輸回節(jié)點數(shù)據(jù)庫服務(wù)器,要傳輸?shù)臄?shù)據(jù)量都是有限的,壓縮后的數(shù)據(jù)以及分析處理后的數(shù)據(jù)都變得非常小。這樣,網(wǎng)格節(jié)點就可以等待其他任務(wù)的到來。如果從客戶處的網(wǎng)格節(jié)點發(fā)生變化,例如終止服務(wù),整個系統(tǒng)統(tǒng)平臺不會遺留其他任何數(shù)據(jù)。另外要驅(qū)動網(wǎng)格節(jié)點并行啟動分析服務(wù),所以有并行運行的能力,同時驅(qū)動多核的計算能力。安裝在網(wǎng)格服務(wù)器上分析引擎也可以通過中心服務(wù)器刪除。
1.3.3第三種:數(shù)據(jù)存儲管理問題數(shù)據(jù)存儲管理首先要解決大量長期數(shù)據(jù)的保存問題。另外要解決數(shù)據(jù)在傳輸過程中的安全問題。還要解決數(shù)據(jù)的備份與恢復的問題和壓縮與解壓縮的問題。1.4解決方案本系統(tǒng)的前臺采用Web服務(wù)方式,注冊用戶通過瀏覽器登錄后,直接使用對應的功能,對于用戶來說就像自己獨立使用一套產(chǎn)品一樣。而后臺就需要大量的技術(shù)作為保證,相對于給大客戶獨立安裝使用一套系統(tǒng),要求服務(wù)于大量的網(wǎng)站,同時要保證數(shù)據(jù)的穩(wěn)定性及安全性、結(jié)果查看的快速有效性,所以產(chǎn)品研發(fā)復雜性更高,主要需要實現(xiàn)以下關(guān)鍵技術(shù):(1)復雜數(shù)據(jù)的異構(gòu)管理,包括海量數(shù)據(jù)的壓縮處理;(2)異地數(shù)據(jù)的網(wǎng)格化管理。數(shù)據(jù)不用集中上傳,直接進行異地存放,集中式管理;(3)數(shù)據(jù)分析的并行處理以及網(wǎng)格化計算;(4)Web訪問的網(wǎng)格化服務(wù)。集中式登陸認證,分布式權(quán)限控制;(5)分布式數(shù)據(jù)備份與集中式恢復管理;(6)數(shù)據(jù)安全性保護。
2中小網(wǎng)站在線決策系統(tǒng)實現(xiàn)
中小網(wǎng)站在線決策系統(tǒng)是一個面向中小型網(wǎng)站群的服務(wù)平臺系統(tǒng),該系統(tǒng)可以同時服務(wù)于上萬、甚至十幾萬的網(wǎng)站群客戶。這些中小型的網(wǎng)站不需要安裝這個系統(tǒng),而只是通過服務(wù)租用的方式來使用,通過配置后,就可以直接使用此系統(tǒng)。通過此系統(tǒng)的專業(yè)的分析,網(wǎng)站可以全面了解自身的網(wǎng)站流量、被關(guān)注的程度、范圍甚至每一個細節(jié),通過網(wǎng)站分析、網(wǎng)站流量分析的結(jié)果進行科學的決策來提高其網(wǎng)站的商業(yè)價值。
2.1系統(tǒng)架構(gòu)
本系統(tǒng)支持中小型的網(wǎng)站利用本項目實現(xiàn)的服務(wù)平臺,在線分析自己的數(shù)據(jù),從而獲得科學的決策依據(jù)。因為系統(tǒng)分析的各個網(wǎng)站分布廣泛,所以此系統(tǒng)支持遠程數(shù)據(jù)管理的能力。本系統(tǒng)設(shè)置中心管理服務(wù)器、任務(wù)分配服務(wù)器,在全國各地設(shè)置數(shù)據(jù)分析節(jié)點,整個系統(tǒng)平臺構(gòu)成一個虛擬的運營平臺。系統(tǒng)架構(gòu)圖如圖1。在圖1中,當一個用戶通過統(tǒng)一的服務(wù)平臺網(wǎng)址申請一個服務(wù)時,中心服務(wù)器會根據(jù)申請者網(wǎng)站的所在地,就近選擇一個服務(wù)器作為此用戶的服務(wù)平臺。注冊成為一個會員服務(wù)用戶后,系統(tǒng)會返回一個訪問網(wǎng)址,會員就可以通過這個網(wǎng)址來訪問這個系統(tǒng)。中心管理服務(wù)負責管理整個平臺的運營,包括用戶認證、計費等。任務(wù)分配服務(wù)器負責調(diào)度所管理的所有服務(wù)器。分析服務(wù)器(節(jié)點數(shù)據(jù)分析服務(wù)器、網(wǎng)格分析服務(wù)器)負責分析數(shù)據(jù)。節(jié)點WEB訪問服務(wù)器就是直接面對用戶的服務(wù)站點。該WEB服務(wù)器可以根據(jù)負責的用戶容量,增加新的服務(wù)器來負載均衡。
2.2系統(tǒng)特性
系統(tǒng)特性如圖2所示。本系統(tǒng)網(wǎng)站數(shù)據(jù)分析采用以日志分析為主、嵌入式代碼為輔的方式,支持大規(guī)模的網(wǎng)站群同時使用該系統(tǒng)。中小網(wǎng)站在線決策系統(tǒng)是一個充分模塊化和的軟件系統(tǒng),日志搜集、數(shù)據(jù)傳輸、日志分析、結(jié)果訪問采用獨立的模塊。系統(tǒng)平臺每天會自動采集和分析數(shù)據(jù),不需要人為干預。日志文件可以通過FTP/HTTP/SSH等方式自動獲取網(wǎng)站服務(wù)器的訪問數(shù)據(jù)進行分析。系統(tǒng)采用B/S架構(gòu),任何局域網(wǎng)的用戶可以使用Internet瀏覽器通過帳號和密碼訪問系統(tǒng),并自由組合條件查看歷史時間段的所有分析結(jié)果。本系統(tǒng)采用SaaS的服務(wù)模式,支持多線程體系結(jié)構(gòu),同時支持集群方式的網(wǎng)絡(luò)架構(gòu),可以采用多臺服務(wù)器服務(wù)于同一個網(wǎng)站群。分析引擎完全采用并行化算法,使分析服務(wù)完全并行工作,能夠利用到服務(wù)器的多核能力。集群分析服務(wù)示意圖如圖3所示。本決策系統(tǒng)支持整個系統(tǒng)的高可用性架構(gòu),如果任何一臺“分析服務(wù)器”宕機或服務(wù)中斷,其他服務(wù)器會自動接管對應的分析服務(wù),同時會發(fā)硬件故障通知郵件給系統(tǒng)管理員。對于數(shù)據(jù)庫服務(wù)器,同樣可以配置兩臺硬件服務(wù)器,作為高可用架構(gòu)中的主、備服務(wù)器。其中一臺數(shù)據(jù)庫主機發(fā)生故障,另外一個會自動接管對應的任務(wù),同時通知所有的“分析服務(wù)器”與系統(tǒng)管理員。日志文件的采集,采用全自動采集與人工采集相結(jié)合的方案。正常情況下,會采用7*24自動采集,然后交給分析服務(wù)程序進行自動數(shù)據(jù)分析。日志采集架構(gòu)如圖4所示。
3決策系統(tǒng)的功能
本系統(tǒng)實現(xiàn)的功能包括綜合分析功能,決策分析功能和技術(shù)分析功能。
3.1綜合分析
3.1.1頁面分析分析訪問者訪問本站點,包括頁面的刷新等。頁面數(shù)是衡量一個網(wǎng)站訪問量的大小,是否受用戶喜愛和關(guān)注的重要指標。3.1.2訪問數(shù)分析主要分析同一個IP地址在間隔小于30分鐘內(nèi),訪問同一個站點的訪問數(shù)。訪問數(shù)和頁面數(shù)同樣是體現(xiàn)網(wǎng)站訪問狀況的一個參考指標。3.1.3獨立訪問分析主要分析一天內(nèi)同一個IP地址多次訪問本站點的獨立訪問。3.1.4流量分析分析網(wǎng)站訪問的數(shù)據(jù)的流入和流出統(tǒng)計。幫助用戶了解分析范圍內(nèi)各天或時段的頻寬使用情形。3.1.5訪問率分析分析訪問機率,具體指平均每人次點擊的頁面的次數(shù),指一個用戶登入一個網(wǎng)站后點擊的頁面的總數(shù),該指標一般說明網(wǎng)站的內(nèi)容的豐富程度。3.1.6時間段分析分析時間段,按月、周、天、小時等不同的時間段內(nèi)訪問網(wǎng)站的頁面數(shù)統(tǒng)計。并給出曲線圖、餅圖和表格。管理者可以清楚的看到,哪個時間段內(nèi)訪問的次數(shù)最多。3.1.7進入頁面分析分析當訪問者訪問網(wǎng)站時最先訪問的頁面。3.1.8IP分析統(tǒng)計訪問者的來源IP地址,并進行群組分類管理設(shè)置。
3.2決策分析
3.2.1用戶群分析分析用戶來源,并按照國家、地區(qū)等。3.2.2網(wǎng)站欄目分析對網(wǎng)站的各個欄目訪問量進行分析,并生產(chǎn)走勢圖,并逐層進行深入挖掘。3.2.3欄目對比分析按天、周、月等時間段做時間上的同期比較,并可以比較它們在時間變化上的增量。3.2.4本地廣告分析本地廣告分析,分析的是客戶或者合作伙伴在本網(wǎng)站這里投放的廣告。3.2.5投放廣告分析分析的是本網(wǎng)站在其它網(wǎng)站上投放廣告的點擊數(shù),了解廣告投放的有效性。3.2.6新聞分析新聞分析是對于指定欄目下的新聞,每天的訪問情況的分析。3.2.7新客戶分析統(tǒng)計一段時間內(nèi)的客戶分布情況,新客戶/回訪客戶分布。3.2.8回訪率分析分析客戶的回訪情況,不同的客戶在某時間段內(nèi)的回訪頻度、次數(shù)。3.2.9停留時長分析(黏度分析)分析客戶的停留時長、訪問頁面數(shù)。
3.3技術(shù)分析
3.3.1域名分析通過域名分析就可以清楚的了解訪問者訪問本站點經(jīng)常使用和喜歡的域名。3.3.2搜索引擎分析分析訪問次數(shù)最多的搜索引擎以及查看每個搜索引擎訪問最多的關(guān)鍵字。3.3.3Spider分析從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,分析搜索引擎網(wǎng)頁索引數(shù)據(jù)庫,對網(wǎng)站網(wǎng)頁文字和鏈接的更新情況。3.3.4搜索關(guān)鍵詞分析分析搜索到網(wǎng)站最多使用的搜索關(guān)鍵字并且通過點擊關(guān)鍵字查看到關(guān)于該關(guān)鍵字更詳細的分析。
4總結(jié)
本研究基于中小型,提出了面向中小型網(wǎng)站在線決策系統(tǒng)。通過此系統(tǒng)的大數(shù)據(jù)分析,網(wǎng)站基于統(tǒng)計分析結(jié)果進行精準判斷決策,為提升廣大中小型網(wǎng)站的商業(yè)價值提供科學有效的工具和抓手。
參考文獻
[4]劉慶芳.郵政網(wǎng)絡(luò)課程網(wǎng)站的分析與設(shè)計[J].無線互聯(lián)科技,2017(03):35-37.
[5]士明軍,王勇,文悅.不同市場能力下的“電商-平臺-物流”在線銷售系統(tǒng)的決策研究[J].管理工程學報,2020,34(03):112-121.
[6]王文學,王利軍.中小型企業(yè)網(wǎng)站自動生成系統(tǒng)的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2011,7(29):7155-7157+7178.
[7]宋麗麗,徐靜.基于網(wǎng)絡(luò)鏈接分析的中小企業(yè)網(wǎng)站分析與評價研究[J].現(xiàn)代情報,2015,35(01):114-119.
[8]魏娟.日志分析工具AWStats的部署與林業(yè)網(wǎng)站分析研究[J].山東林業(yè)科技,2019,49(04):109-111.
作者:張青云 單位:山西省人民政府辦公廳政務(wù)信息中心