公務員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)庫元數(shù)據(jù)管理系統(tǒng)的設計

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)庫元數(shù)據(jù)管理系統(tǒng)的設計范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)庫元數(shù)據(jù)管理系統(tǒng)的設計

1問題的提出和研究意義

隨著科技的發(fā)展,社會的進步,尤其是計算機通信技術的發(fā)展,人們對數(shù)據(jù)庫的共享性要求日益明顯,當前數(shù)據(jù)庫的管理和訪問充滿了復雜性,如何解決這一問題成為了管理者和用戶最為關心,最為頭疼的問題。例如,非數(shù)據(jù)庫的建設者和維護者,都需要知道數(shù)據(jù)庫當中的全部內容,以此來避免數(shù)據(jù)的重復錄入,從而更好的使用數(shù)據(jù)。根據(jù)用戶的需求用戶需要知道數(shù)據(jù)信息的質量,用戶也需要知道數(shù)據(jù)庫的數(shù)據(jù)結構和句存儲格式,來滿足用戶的信息數(shù)據(jù)交換和利用。在這種情況下數(shù)據(jù)的內容、品質等元數(shù)據(jù)的信息就變得十分重要了,它是信息數(shù)據(jù)有效管理和利用的重要方式,元數(shù)據(jù)的重要性正在得到用戶和數(shù)據(jù)庫的建設者的證明。由于現(xiàn)在數(shù)據(jù)庫的使用對象越來越專業(yè)化、復雜化,他們對數(shù)據(jù)集的元數(shù)據(jù)內容以及各式會存在相當大的差別,對數(shù)據(jù)的共享性影響很大,為了制定一套元數(shù)據(jù)的標準,需要采用同樣的各式對數(shù)據(jù)集進行描述。

2元數(shù)據(jù)的定義和形成

元數(shù)據(jù)又叫做描述數(shù)據(jù),是臺灣學者通過英文翻譯過來的(英文為Metadata),現(xiàn)在我國對該術語還沒有形成統(tǒng)一的認識。國際標準化組織地理信息、地球空間信息技術委員會的地理信息元數(shù)據(jù)標準草案將元數(shù)據(jù)簡單的定義為“數(shù)據(jù)的數(shù)據(jù)”。美國聯(lián)邦地理數(shù)據(jù)委員會在數(shù)字地理空間元數(shù)據(jù)內容標準中將元數(shù)據(jù)定義為“關于數(shù)據(jù)的內容、質量、條件和其他性質的數(shù)據(jù)”。國際地球科學信息網(wǎng)絡學會對元數(shù)據(jù)定義為“關于數(shù)據(jù)和信息資源的描述信息,他們描述、指向或者補充與之相關的信息內容”。元數(shù)據(jù)的定義和專業(yè)術語出現(xiàn)的時間雖然不長,但是元數(shù)據(jù)的本質內涵確實流傳了很久。舉一個簡單的例子,在很早以前的圖書管理當中,管理人員對書籍目錄的編寫,記載了書籍的各種相信內容,包括作者、寫作時間、頁數(shù)和字數(shù)等,這種對書籍信息的記錄就可以理解為元數(shù)據(jù)。只不過在以前涉及到的數(shù)據(jù)不是特別復雜,只是到了現(xiàn)代隨著網(wǎng)絡技術的普及,數(shù)字資源呈現(xiàn)出爆炸性增長的速度,人們?yōu)榱吮阌诮y(tǒng)計這些數(shù)字信息不得不將以前的文本化數(shù)據(jù)向網(wǎng)絡表格化數(shù)據(jù)方面進行轉變。從上世紀八十年代開始出現(xiàn)元數(shù)據(jù)的記錄方式,到現(xiàn)在元數(shù)據(jù)的應用已經(jīng)擴展到了各個行業(yè)。

3元數(shù)據(jù)標準內容分析

根據(jù)元數(shù)據(jù)的使用目的不同可以將元數(shù)據(jù)大體分為兩類,即:管理和組織數(shù)據(jù)的元數(shù)據(jù);瀏覽和導航數(shù)據(jù)的元數(shù)據(jù)。第一種類型的元數(shù)據(jù)的代表就是美國nasa描述遙感數(shù)據(jù)的目錄交換格式標準(DIF),這一標準有一個典型的特征就是必備六個字段:登錄目錄標識、登錄目錄的名稱、參數(shù)、原數(shù)據(jù)中心(包含名字、數(shù)據(jù)集標識、聯(lián)系人等)和數(shù)據(jù)概要描述。另外,為了讓信息表達的更加明確,這一標準當中還要增加字段,如傳感器的名字、位置、數(shù)據(jù)分析、計劃口令、品質等,增加這些字段可以提高用戶的使用效率,盡可能的完善元數(shù)據(jù)。第二種元數(shù)據(jù)的代表就是澳大利亞新西蘭土地信息委員會制定的元數(shù)據(jù)標準。這一標準確立的核心元素較少,能夠讓用戶在最短的時間內查詢到所需要的數(shù)據(jù)信息。核心元素能夠說明現(xiàn)有數(shù)據(jù)的種類、數(shù)據(jù)信息、數(shù)據(jù)范圍、與其他應用的作用,以及獲取更多信息的位置等。核心元數(shù)據(jù)共分為九類三十二個元素:數(shù)據(jù)集中、展示、數(shù)據(jù)時間、數(shù)據(jù)狀況、訪問和瀏覽情況、數(shù)據(jù)品質、聯(lián)系信息、元數(shù)據(jù)時間、元數(shù)據(jù)附加內容。除此之外,核心元數(shù)據(jù)還要制定了數(shù)據(jù)格式,使用指南,以方便用戶查找信息。

4元數(shù)據(jù)表達方式的分析

美國聯(lián)邦地理數(shù)據(jù)委員會的數(shù)字化地理空間元數(shù)據(jù)內容標準元數(shù)據(jù)信息單元是元素、實體(包括復合實體)和字集。元素是元數(shù)據(jù)的基本信息單位,元數(shù)據(jù)實體由元數(shù)據(jù)元素組成,元數(shù)據(jù)實體、元素則構成復合實體,最終部分元素、簡單或者復合元數(shù)據(jù)實體組成元數(shù)據(jù)子集,元數(shù)據(jù)的組成結構從小到大排列為,元素、實體(復合實體)、子集。元數(shù)據(jù)是利用巴克斯諾爾范式進行表達的,巴克諾斯爾范式可以定義常規(guī)語言元素和屬性標準語法,在確定復合實體和其他元素、實體間的聯(lián)系的時候,采用類似于數(shù)學等式的關系將標識符和表達式用等號連接起來,以此來表表達式產生標識符這一進化關系。這一規(guī)則公式代表了各種符合的意義,從數(shù)學角度可以解釋為,A=B+(C)表示A由B和可選項C構成,A=3{B}5表示A由B重復3到5次而成,子集、實體、元素之間的關系可以用元素比實體進一格的辦法來表達,美國的數(shù)字化地理空間元數(shù)據(jù)內容標準利用這種方式可以清晰的表達數(shù)據(jù)實體和元素之間的各種關系,但是它也只是包含了標準化當中元數(shù)據(jù)和元素的定義,并沒有規(guī)定數(shù)據(jù)的格式,有時候用元數(shù)據(jù)元素分層縮排來表示,有時候用編號系統(tǒng)表示,這就使得元數(shù)據(jù)使用起來并不簡潔。為了解決這一問題,建立了空間數(shù)據(jù)信息交換網(wǎng)絡,利用比較統(tǒng)一的SGML、Z39.50和其他協(xié)議來表示,可以更加靈活的執(zhí)行元數(shù)據(jù)。ISO/TC211的元數(shù)據(jù)標準利用了圖表和數(shù)據(jù)字典相融合的表達方式,清晰的表示了元數(shù)據(jù)內容之間的各種關系。數(shù)據(jù)字典可以詳細的解釋元數(shù)據(jù)的內涵,圖表則是面向對象的統(tǒng)一建模語言UML靜態(tài)結構圖、ISO借口定義語言,在圖表當中信息單位是包、類和屬性。數(shù)據(jù)字典當中元數(shù)據(jù)的信息單元是子集、實體以及元素,這一標準說明了圖表和字典當中的對應關系。因為靜態(tài)結構圖準確的解釋了元數(shù)據(jù)的語義和句法結構規(guī)則,制定了標準的描述數(shù)據(jù)信息的方法和格式,通過輔助設計軟件可以精確的表達數(shù)據(jù)元素關系,檢查元數(shù)據(jù)設計的整體性和統(tǒng)一性,所以ISO/TC211的元數(shù)據(jù)表達方式對全世界各個行業(yè)的數(shù)據(jù)管理和服務產生了重要的影響。

5元數(shù)據(jù)網(wǎng)絡管理模型分析

當下比較流行的元數(shù)據(jù)管理系統(tǒng)模式可以分為:集中式數(shù)據(jù)管理體系和分散式數(shù)據(jù)管理體系。集中式數(shù)據(jù)管理體系就是所有的元數(shù)據(jù)都聚集在一個元數(shù)據(jù)管理站點上,數(shù)據(jù)集元數(shù)據(jù)是通過數(shù)據(jù)制造者免費上傳的,數(shù)據(jù)的使用者可以通過當下的數(shù)據(jù)管理站來進行訪問好查詢元數(shù)據(jù)。這一模式比較有代表性的就是英國地理數(shù)描述目錄,這一機構的數(shù)據(jù)來源于國家制圖機構。這種模式的優(yōu)點就是使用者可以迅速的查找元數(shù)據(jù),工作效率很高,當然缺點也很明顯,就是這一模式分裂了這一管理系統(tǒng)和其他網(wǎng)絡元數(shù)據(jù)體系的鏈接,導致這一體系的元數(shù)據(jù)數(shù)目較少,在數(shù)據(jù)信息的更新和維護方面就取決于元數(shù)據(jù)的上傳者,元數(shù)據(jù)信息不能及時的更新,提供的數(shù)據(jù)有可能出現(xiàn)錯誤。分布式元數(shù)據(jù)管理體系就是要設立一個元數(shù)據(jù)網(wǎng)絡交換的核心連接點,使用者可以在這一連接點進行元數(shù)據(jù)的查詢,而對于元數(shù)據(jù)的供給者和元數(shù)據(jù)的數(shù)據(jù)制造者,則需要設立分節(jié)點,保存各種元數(shù)據(jù)的信息,然后將核心連接點和分節(jié)點聯(lián)系起來。元數(shù)據(jù)的使用者不能直接訪問數(shù)據(jù)的制造者,只能通過核心連接點來訪問數(shù)據(jù)信息,進行元數(shù)據(jù)的查詢。這一模式的代表性機構就是美國空間數(shù)據(jù)交換網(wǎng)絡,它將用戶、服務器內容、數(shù)據(jù)庫服務器進行了分離。通過網(wǎng)關根據(jù)數(shù)據(jù)信息的類型、數(shù)據(jù)信息覆蓋位置等條件構成元數(shù)據(jù)的查詢界面,用戶通過網(wǎng)絡進行查詢,核心連接點通過用戶信息向分節(jié)點進行傳輸,然后在將內容反饋到用戶瀏覽的頁面當中。這種模式的優(yōu)點在于能夠增加元數(shù)據(jù)的數(shù)量,減少核心連接點對元數(shù)據(jù)的更新負擔,缺點在于元數(shù)據(jù)的查詢速度較慢,影響使用者的查詢效率。

6元數(shù)據(jù)傳輸各式的統(tǒng)一

雖然當前已經(jīng)制定了一些元數(shù)據(jù)的標準,但也只是確定了元數(shù)據(jù)的內容、含義、類別、組成結構等特征,但是這還不能滿足元數(shù)據(jù)的使用要求,制訂元數(shù)據(jù)標準的目的是為了元數(shù)據(jù)的查找和檢索,了解數(shù)據(jù)信息和內容,因此必須要注重元數(shù)據(jù)的傳輸標準,以此為基礎來設計元數(shù)據(jù)的管理體系,從而達到對元數(shù)據(jù)的搜尋、修改、更新維護和查詢檢索。在DOS環(huán)境下和ARC/INFO環(huán)境下,美國誕生了很多元數(shù)據(jù)錄入和編輯的軟件,澳大利亞也開發(fā)類似的軟件,這些元數(shù)據(jù)軟件都是為了便于自身的查詢需求,符合各自制定的元數(shù)據(jù)標準的。但是各個元數(shù)據(jù)錄入軟件的數(shù)據(jù)格式卻不相同,有的是文本格式,有的是HTML格式,還有的是關系型數(shù)據(jù)庫格式,雖然方便了用戶,但是在元數(shù)據(jù)的修改和維護方面成本很高,所以要制定統(tǒng)一的元數(shù)據(jù)轉化標準,方便網(wǎng)絡上的元數(shù)據(jù)交換。美國和澳大利亞建議更改統(tǒng)一的后綴格式,例如,將SGML/HTML的統(tǒng)一轉換成XMLDTD或者是XMLSchema,將表格改編成ASCII的格式。這種方式優(yōu)點在于有利于建設元數(shù)據(jù)索引和能夠在不同地區(qū)的互聯(lián)網(wǎng)當中進行元數(shù)據(jù)的查詢。

7元數(shù)據(jù)管理平臺設計和實現(xiàn)

7.1功能流程設計

功能流程設計需要滿足元數(shù)據(jù)生命周期的要求,當前大多數(shù)公司單位都是分散式的數(shù)據(jù)管理體系,數(shù)據(jù)比較分散,需要采集多元數(shù)據(jù)并且簡化數(shù)據(jù)的存儲體系。可以將TSV(三層階梯式圖)引用到元數(shù)據(jù)管理體系當中,在元數(shù)據(jù)導入配置方面,可以利用懸掛點配置的方式,在任務采集的起始階段可以配置相應的懸掛點(類似分支點),建設元數(shù)據(jù)的查詢樹,在數(shù)據(jù)源配置方面要表明數(shù)據(jù)源的類型、銜接數(shù)據(jù)、賬戶情況等,還要進行測試觀察后續(xù)問題。為了更好的完善元數(shù)據(jù)的管理體系,保持元數(shù)據(jù)地圖的完整性,需要對元數(shù)據(jù)進行完備的采集,采集方式又分為手動采集和自動采集。手動采集是對用戶要求的數(shù)據(jù)庫進行單次采集,自動采集則額外的配置采集時間和采集周期。

7.2元數(shù)據(jù)的瀏覽

將配置好的懸掛點體現(xiàn)在元數(shù)據(jù)的樹狀結構當中,以形象的結果提供給用戶,基于TSV的思想元數(shù)據(jù)樹需要具有三層以上的結構,首先是系統(tǒng),其次是各系統(tǒng)數(shù)據(jù)庫,再者是各數(shù)據(jù)庫的下屬表。在庫級元數(shù)據(jù)方面需要展示各個表名和創(chuàng)立的時間,在表級元數(shù)據(jù)方面需要雙擊查看該表的詳細信息,包括字段、約束、索引、鍵、視圖等,在下拉菜單當中可以檢索相應的元數(shù)據(jù)信息。在字段級元數(shù)據(jù)方面包括字段名、字段類型、字段解釋、所屬的表和庫,前三項屬于特點描述,后兩項是定義描述,這樣能夠方便對字段進行分析和定位。

7.3元數(shù)據(jù)的構架設計

元數(shù)據(jù)管理體系的技術構架主要是對所有信息數(shù)據(jù)的篩選,來確定那些信息可以納入元數(shù)據(jù)管理體系,以此來構建三級視圖。技術構架的信息主要包括五個方面,即:數(shù)據(jù)源層、數(shù)據(jù)收集層、數(shù)據(jù)保存和管理層、應用幫助層、登錄管理和用戶信息等。數(shù)據(jù)源層主要就是提供數(shù)據(jù)信息,數(shù)據(jù)收集層主要是理清各類數(shù)據(jù)關系方便元數(shù)據(jù)的管理。

8結語

綜上所述:數(shù)據(jù)庫元數(shù)據(jù)是處理各種數(shù)據(jù)信息,滿足個人和單位需求的一種重要數(shù)據(jù)管理模式。為了應對當下信息時代的各種數(shù)據(jù)信息,從海量信息當中提取有價值的數(shù)據(jù)信息,就需要對數(shù)據(jù)庫元數(shù)據(jù)進行研究和優(yōu)化。元數(shù)據(jù)簡而言之就是管理數(shù)據(jù)的數(shù)據(jù),它本身也是一種數(shù)據(jù)信息,根據(jù)使用目的的不同可以分為管理和組織數(shù)據(jù)的元數(shù)據(jù);瀏覽和導航數(shù)據(jù)的元數(shù)據(jù)。元數(shù)據(jù)在表達方式上可以分為元素、實體(復合實體)、子集這樣的單位,在管理模式上可以分為集中式數(shù)據(jù)管理體系和分散式數(shù)據(jù)管理體系。在元數(shù)據(jù)的傳輸格式方面還沒有統(tǒng)一的標準,建議改變傳輸格式,形成統(tǒng)一。在元數(shù)據(jù)平臺建設和管理方面可以參考TSV(三級視圖階梯)的模式,使元數(shù)據(jù)庫更加清晰明了。

參考文獻

[1]紀曉博.基于OAIS參考模型的檔案信息管理系統(tǒng)的設計與實現(xiàn)[D].中國科學院大學(工程管理與信息技術學院),2016.

[2]張馨月.基于SQLServer數(shù)據(jù)庫的銀行保險數(shù)據(jù)管理系統(tǒng)的設計和實現(xiàn)[D].吉林大學,2015.

[3]姜平,程昌秀,謝炯,陳榮國.空間數(shù)據(jù)庫中柵格元數(shù)據(jù)管理模型的設計與實現(xiàn)[J].遙感技術與應用,2012,27(02):315-321.

[4]劉海生.面向信息集成系統(tǒng)的內核數(shù)據(jù)管理技術的研究[D].暨南大學,2011.

[5]周震天.科技評價元數(shù)據(jù)管理系統(tǒng)設計與應用[D].湖南大學,2010.

作者:徐百盛 單位:廣東省紫金縣職業(yè)技術學校