為什麼要採集電子文件元數據
㈠ 什麼是元數據
元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(data about data)。
元數據作用是:
1、描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。
2、元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述並收藏數據的內容或特色,進而達成協助數據檢索的目的。
元數據的應用舉例:
1、數據結構:數據集的名稱、關系、欄位、約束等;
2、數據部署:數據集的物理位置;
3、數據流:數據集之間的流程依賴關系(非參照依賴),包括數據集到另一個數據集的規則;
4、質量度量:數據集上可以計算的度量;
5、度量邏輯關系:數據集度量之間的邏輯運算關系;
6、ETL過程:過程運行的順序,並行、串列;
7、數據集快照:一個時間點上,數據在所有數據集上的分布情況。
(1)為什麼要採集電子文件元數據擴展閱讀:
元數據的優點:
1、自描述:元數據自動提供 COM 中 IDL 的功能,允許將一個文件同時用於定義和實現。運行庫模塊和程序集甚至不需要向操作系統注冊。結果,運行庫使用的說明始終反映編譯文件中的實際代碼,從而提高應用程序的可靠性。
2、設計:元數據提供所有必需的有關已編譯代碼的信息,以供用戶從用不同語言編寫的 PE 文件中繼承類。用戶可以創建用任何託管語言(任何面向公共語言運行庫的語言)編寫的任何類的實例,而不用擔心顯式封送處理或使用自定義的互用代碼。
㈡ 元資料庫
元數據是「關於數據的數據」,存在於電子信息環境中,用於描述資源的屬性,呈現其關系,支持資源發現、管理與有效利用(徐筱紅,2006),是對所採集到的數據的說明。一般來說,它有兩方面的用途:首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據;其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在塔里木河流域生態環境動態監測及輔助決策支持系統綜合資料庫系統中,元數據機制主要支持以下幾類系統管理功能:①描述哪些數據在綜合資料庫中;②定義要進入資料庫中的數據和從資料庫中產生的數據;③記錄並檢測系統數據一致性的要求和執行情況;④衡量數據質量。
(一)元數據分級與特徵
1.元數據分級
基本元數據:提供地理數據源基本文檔所需要的最少的元數據元素集。
完全元數據:提供完整的地理數據源(單獨的數據集、數據集系列、各種地理要素)文檔所需要的必選的和可選的元數據元素集。它完整地定義全部元數據,以便標識、評價、摘錄、使用和管理地理信息。
2.元數據特徵
(1)名稱:賦給元數據實體或元素的標記。
(2)標識碼:計算機中使用的定義每個元數據實體和元素的唯一代碼。代碼結構為:XXXXXX
前2位為元數據子集,2位數字碼;中間2位為元數據實體/獨立元素,2位數字碼;後2位為元數據實體包含的元素,2位數字碼。
(3)定義:對元數據實體和元素的說明。
(4)性質:說明元數據實體或元素是否總是出現,或有時出現的描述符。描述符分別為:M-必選;C-一定條件下必選;O-可選。
(5)條件:說明何種條件下元數據子集、實體或元素是必選的。如果對所說明的條件成立,那麼該子集、實體或元素就是必選的。
(6)最大出現次數:指定元數據實體或元素在實際使用時,可能重復出現的最大次數。只出現一次的表示為「1」,重復出現的表示為「N」。
(7)數據類型:表示元數據元素的一組不同的值,例如,「文本」、「整型」、「短語」、「坐標串」、「實型」和「日期」。
(8)值域:指定每個元數據元素的取值范圍。「任意長文本」表示所述內容不受限制,實型數和基於代碼的整型數等只能使用一個限定的(閉合的)值域內的值。
(二)元資料庫主要內容
塔里木河流域生態環境動態監測系統的元數據包括數字影像圖、數字柵格圖、數字高程模型、數字線劃圖等。大部分數據都有相應的國家或行業元數據標准規范,有國家或行業標準的按照標准規范採集;沒有規范的,按照元數據的分級特徵進行定義。主要包括有關數據源、數據分層、成果歸屬、空間參照系、數據質量(包含數據精度和數據評價)、數據更新、圖幅接邊等方面的信息(周騁等,2006)。其主要內容描述如下:
(1)標識信息:是唯一標識數據集的元數據信息。包括數據集名稱、發布時間、版本、語種、摘要、現狀、空間范圍(地理范圍、時間范圍)、表示方式、空間解析度、信息類別。
(2)數據質量信息:是數據集質量的總體評價。包括數據集內容完整性說明、數據集在概念、值域、格式和拓撲關系等方面的一致性程度、位置精度(空間位置絕對精度和相對精度)、時間精度(表示時間的精確程度、現勢性、有效性)、屬性精度(數據集屬性分類正確性、屬性值的精度和正確性)、數據質量保證措施。
(3)數據字典信息:包含數據集應用、數據源及生產數據集時所用工藝方法等信息。
(4)空間參照系信息:數據集使用的空間參照系統的說明。包括基於地理標識的空間參照系統、基於坐標的空間參照系統。
(5)內容信息:描述數據集的主要內容。包括主要要素類型名稱及相應的屬性名稱、影像數據集內容概述(波長、波段、灰階等級、合成處理方式)、柵格數據集內容概述(格網尺寸、格網尺寸單位、格網行列數、格網起始點坐標)。
(6)元數據參考信息:包括元數據發布或更新的時間,以及建立元數據單位的聯系信息。
以上6類由兩個公共數據類型聯系,公共數據類型包括:
(1)覆蓋范圍信息:數據集的空間范圍(經緯度坐標、地理標識符)、時間范圍(起始時間、終止時間)、垂向范圍(最小垂向坐標值、最大垂向坐標值、計量單位)。
(2)負責單位聯系信息:與數據集有關的單位標識(負責單位名稱、聯系人、職責)和聯系信息(電話、傳真、通信地址、郵政編碼、電子信箱地址、網址)。
(三)元數據入庫
元數據信息是一個純文本文件,在生產時採集了多項數據,它是與圖形數據、屬性數據緊密聯系在一起的,按照每幅圖一個文本文件存儲。為了實現資料庫系統中元數據與數據體的集成化管理,以及元數據與數據體的一體化相互檢索查詢,需將元數據信息空間化。採取的技術方法就是將元數據文件與圖幅結合表聯系起來,將每一幅圖形的區域作為一個目標對象,所採集的多項元數據信息作為其屬性項,構成一個以圖幅結合表為基礎的矢量格式元數據集。同圖形數據坐標系統一樣,元數據採用地理坐標系統,整個流域則以Coverage格式整體存儲,數據處理完成後全部導入到Oracle9i資料庫中。
㈢ 電子政務信息資源庫建設中,元數據有什麼作用
Metadata存在於任何對數據和數據關系中,例如程序集清單信息也被稱為程序集元數據。 元數據省去了源代碼編譯時對頭文件的依賴,在含有實現類型和成員的IL代碼文件當中,已經包含了所有被引用的類型和成員的信息。編譯器可以直接從託管模塊中讀取
㈣ 請問元數據保證文件真實性的原理是什麼啊
根據國內外眾位學者們對元數據的分析和描述,我們可以發現元數據具有以下特點。首先,它具有動態性。因為元數據是對文件的產生、保管、利用、銷毀等整個過程的真實性記錄,它隨著文件的產生而產生,伴隨人們對文件進行的各種管理活動而不斷地增加。其次,它具有多元性。本來在信息環境下針對不同的資源類型就已經存在了多種元數據格式,人們往往為了不同層次或角度的應用,又會產生各種各樣的元數據格式,從而積累下大量的、格式多樣的元數據。再次,它具有數量龐大性。一方面,為了全面真實地反映各種業務活動和個人活動,我們要從多個角度和層次來進行記錄;另一方面,為了完整地記錄文件管理的整個過程,我們需要記錄下各種操作活動,必然會產生大量的元數據信息。明確了元數據的特點,我們就可以有針對性的採取一些方法和措施來進行捕獲。 在電子文件管理系統中,元數據一般是通過系統自動記錄與手工記錄相結合的方式獲得的。對於有些元數據,我們可以預先設計好其所對應的標記,將它們標志在所描述的對象上,如對於收文和發文可做不同的標記,文件是否歸檔、對象是否是文件或是文件的一個組成部分、文件的密級、保管期限等。對於本單位系統發文,系統會自動彈出元數據項目供文件形成者填寫,像文件的題名、形成日期、起草人、形成部門、內容提要等;對於外單位系統來文,系統會自動抽取所需的上述相關信息。而文件的另一部分元數據項目則由系統自動生成,如所用的字體、版面格式、邏輯格式與系統的軟硬體說明等,而對於在電子文件利用過程中的利用信息也由系統自動記錄並作為元數據保存。為保證較高的准確性,元數據須保持緊跟現狀的變化。確保元數據准確並維護良好的唯一方法就是盡可能使維護過程自動化。我們不必了解應用程序系統編寫的情況,就能看到只依賴過程來維護元數據的結果。一般元數據量通常都很大,最實用的方法是只收集變化,而不是定期刷新整個元數據集,特別是動態性很強的使用信息,應定期追加而不是改變現有的信息。 解素芳 元數據,從定義上講,是關於數據的數據,或者說是關於數據的結構化數據。元數據作為一個概念提出的時間並不長,但是元數據本身並不是一個新事物。自從有對人類所產生的信息與知識進行分析、分類與管理之日起,元數據就扮演了一個重要的角色。傳統的檢索工:具,像目錄卡片、案卷目錄、案卷封面、分類表等都屬於元數據的范疇,圖書的版權說明、磁碟的標簽等也都是元數據。元數據這一概念起源於計算機科學,由Myers在1960年提出,當時是指能夠有效描述資料的方式,後來面對電子信息所特有的分散式、變動性與多元性,元數據再度引起更廣泛的關注,現在元數據研究的重點主要還是網路環境下數據的描述與數據管理問題。 元數據可以處理各種形式的信息,包括還未電子化和電子化信息,特別是能較好地解決網路環境—下信息的發現、控制和管理問題,因此目前已廣泛應用於圖書館、檔案館、電子政務等領域。下面我主要談談電子政務系統中元數據的應用。 當前我國正在加緊實施電子政務建設,面對大量而分散的政府信息資源,從政府機關的角度而言,如何組織、控制、管理網路環境下的信息資源,並提供高效優質的信息服務是其努力的目標;對廣大用戶而言,如何利用網路跨越政府機關多層組織的障礙,搜尋、判斷、獲取有價值的政府信息則是其關注的焦點。因此利用元數據對政府信息做更深一步的描述和管理,發展新一代獲取政府信息的檢索機制,顯得尤其重要。 目前政府信息的元數據格式主要有兩種:GILS (Government lnformation Locater Service,政府信息指引服務)和DC(Dublin Core,都柏林核心元數據集)。其中依照GILS發展信息指引服務的國家有美國、加拿大、日本等;而英國、澳大利亞、紐西蘭等國在電子政務建設中,則是以DC為基礎制定了用於電子政務系統的元數據集。 李新利 目前,在檔案界關於元數據的解釋有很多種:國際檔案理事會《電子文件管理指南 (1997)》中指出:「元數據是關於文件的背景信息和結構的數據。」澳大利亞《聯邦機構電子文件管理元數據標准(1999)》對元數據的定義如下:「元數據是關於電子文件背景信息的著錄信息」。英國國家檔案館(電子文件管理指南(1999))中所提出的定義:「元數據是單份電子文件和文件組合的背景及其相互關系的結構化著錄數據」。 從上面列舉的定義可以看出,元數據與著錄信息或著錄數據之間有著密切的關系,但是,二者所描述的范圍是否完全等同呢?事實上,二者所描述的內容範圍並不完全一致,而是相互交叉的:系統自動著錄的元數據中有些可以直接作為著錄信息,而有些著錄信息也是元數據未加描述的,如對文件內容特徵的概括說明等,而且,元數據的描述范圍要比電子文件的著錄范圍寬泛的多。國際社會就此還開展了一些電子文件元數據研究項目,形成了不同類型的元數據結構體系(有的稱為「元數據模板」),如美國《匹茲堡大學元數據研究項目》;澳大利亞莫納西大學的蘇·麥克凱米什負責開展的《網路化環境中為發揮信息資源的行政、社會和文化作用,建立文件保管無數據標准》;加拿大哥倫比亞大學的露西亞娜·杜蘭蒂主持的InterPARES項目(《電子系統中文件冀實性的永久保障國際研究項目》)等等。它們的劃分標准各不相同,由此產生了不同的元數據模板。但無論其如何劃分,都是盡可能地包括所有描述文件、文件集合、機構、系統以及與之相關的各種信息。 元數據的應用不僅減少了大量手工著錄的工作量,而且對於保證電子文件的真實可靠也有著獨特的優勢。建立電子文件管理系統,對電子文件的形成、傳遞、保管、利用等各個環節的運行情況進行全程跟蹤記錄,隨時將關於文件形成時間、地點、人員、活動、系統、結構和內容等方面的有關信息記錄下來,而且,元數據一經形成就被封裝起來,使其只能被寫入和讀取,不能被改動和刪除,形成的元數據與文件一並保存,可以作為檢驗電子文件真實性與可靠性的依據和憑證。 盧曉慧 元數據一詞是隨著Internet的發展而產生的。Internet的快速發展,使網上大量的信息需要有效地組織,以便更好的被檢索和使用。雖然有關的網路查詢工具(如搜索引擎)能自動從網路資源中提取信息並編制索引供檢索,但我們常常發現其查准率和查全率較低,查找到的實際相關有用信息並不多。而傳統的信息組織方法非專業人員難以完全掌握,而對專業人員來說,要完成數量巨大的網路資源的組織與整理而所需的人力和成本又太大。我們需要更有效、更簡便、更准確的組織方式來描述整理網上資源,元數據結構就是在這樣的情況下被提出來的。 隨著信息網路的迅速發展,信息的主要形式正逐步從傳統的印刷型資料過渡到網路化、多媒體化和分布式的數字化信息資源,因此其描述與發現機制也隨之發生著深刻的變化。因此,網路信息的描述與發現也就成為了受人關注和需努力解決的問題。而元數據正是被用來描述Internet上的數據和資源的屬性的。通過元數據,能促進Internet上的信息的組織和發現,進行信息的識別、定位、發現、描述和選擇等。同時也能夠了解某個Internet信息站點的資源類型,某個政務信息Web頁的標題、作者、主題、關鍵詞及內容摘要等。分布在全球Inter- net上的Web像是一個龐大的有許許多多電子文獻的圖書館,它的信息資源需要有序的、按一定標准組織起來,用如像圖書館的目錄去組織和查找。而元數據在本質上具有電子目錄的功能,它可以揭示各類型電子信息的內容和其他特徵,進而達到網路信息的組織、分類、索引等目的。 任鳳仙 近幾年來,互聯網的發展異常迅速,網路中的信息資源也在爆炸性地增加,在這種情況下,信息匱乏的問題可以說是已經解決了,但是網上的信息種類繁多,浩如煙海,不可避免的帶來了一個亟需解決的新問題,即如何從中找到自己所需的信息。其實這並不是一個全新的問題。可以回想一下在圖書館查資料的情形。我們想要查找的資料可能是一篇特定的著作、期刊中一篇特定的論文,某作者的論著,或某出版社出版的書刊,也可能我們沒有具體的信息,只是希望找到與某一主題相關的內容。圖書館里收藏著眾多藏書,要從中找到自己所需的資料,就要求圖書館中的藏書必須滿足一些條件,首先,圖書館中的藏書必須是按照一定的分類標准進行分類,並且按照一定的順序排架的,其次,很多時候我們還需要有目錄、索引等工具的輔助。在網路上查找資料的情況與圖書館類似,我們不能採用大海撈針的方法一個個網頁看過來,可行的方法是借鑒人們處理圖書館藏書的原理來解決這個問題,其中的關鍵就是元數據的使用。 國家圖書館的多資料庫檢索中的多欄位檢索的元數據項主要有主題、責任者、題名、出版者、語言、年代、資料類型和定位等項;而英國國家圖書館書目的元數據元素包括search text、search type, search type包括title、author(creator browse)、 subject browse、call number browse、lccn—is— bn—issn、keyword、command keyword等。 於慧敏 首先要明確元數據是抽象概念。目前關於元數據的定義很多,比較常規的是:元數據是關於數據的數據(data about data),這個定義過於簡潔和寬泛。元數據是描述某種類型資源(或對象,obiect)的屬性,並對這種資源進行定位和管理、同時有助於數據檢索的數據。當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據。在數據設計過程中,也使用抽象術語描述現實世界的各種現象。比如人們把人物、地點、事物和數字組織或指定為職員、顧客或產品數據。在軟體設計過程中,資料庫結構可以概括為開發和設計人員能夠理解的元數據分類方案。表或表單由對象派生出來,而對象又由類派生。在元數據中有多個抽象概念級別。可以描述一個數據實例,然後對該描述本身進行描述,接著再對後一個描述進行描述,這樣不斷重復,直到達到某個實際限度而無法繼續描述為止。通常情況下,軟體開發中使用的元數據描述可擴展為二至三級的抽象概念,就像集合中一層一層的真子集,我們可以這樣理解,元數據是不可再分的數據,是最小的數據單元。 相對於元數據的概念,其用途就比較易理解,可以像使用任何類型的應用程序或數據設計元素一樣使用元數據類型和實例信息。將設計信息表達為元數據,特別是標准元數據,可以為再次使用、數據檢索、共享和多工具支持提供更多的可能性。就海量信息利用而言,對數據檢索有很高的要求,理論上說元數據是不可再拆分的數據,所以提高了檢索的准確性。這里還要特別指出一點,共享元數據是未來的大趨勢,共享元數據是跨異類平台和開發環境部署數據和應用程序結構的一種方法。它能提供公用定義,使得工具和應用程序可以解釋相同的元數據定義,並將它轉化為應用程序特定的結構。元數據是一個集成點,因為它是抽象概念,包含一些基本的詳細信息,不管實現策略是否改變,這些信息都保持不變。這種靈活性使元數據非常適用於設計工作,因為它可以將設計與實現分離開來。當使用預定義的元數據時,可以用最適合需要的開發工具實現具體的設計。共享元數據對檔案信息的管理利用應該具有很大的意義,依託於互聯網的數字檔案館建設需要共享元數據,避免重復信息,真正地做成大型資料庫,便於社會使用。 其實對元數據管理與共享利用的過程就是標准化的過程,就檔案界來說,必須在彼此認同的標准指導下才能實現數字檔案館計劃。伴隨著檔案界研究與利用元數據,相信未來的檔案信息世界會更精彩。 劉彩霞 元數據(Metadata)是為了有效地解決網路資源檢索所存在的問題而產生的。其本質含義是關於數據的數據,它用來描述原始數據的特徵和屬性,例如對文獻信息資源而言,元數據可以是目錄、索引、摘要及主題等文獻特徵和屬性。元數據所包含的數據元素集可以用來描述信息對象的內容和位置,使網際網路上的Web頁面更像一個圖書館內整齊擺放的文獻,而不是—堆滿地亂扔的書籍,以便能在網路中方便地查找和檢索。 由於網上數字資源的形態各異,既有論文、會議錄等普通電子文本,也有圖像、聲音、網頁等,不同形式的數字資源對數據格式的要求也不同,因此,目前有多種描述網路數字資源的元數據標准。國外已經產生並得到實際應用或試驗的元數據標准就有二十餘種。 我國在中文元數據建設方面不同單位之間還未達成共識,沒有採取聯合、協作、共享的策略。例如,中文元數據方案中相關數據項的數量相差較大,國家圖書館聯合其他單位建立的「中文核心元數據規范」使用了近80個數據項,清華大學使用的元數據項則只有16個,且主要以DC元數據集為主要依據。因此中文元數據標准化和規范化目前還難以實現。 就今後我國元數據的建設而言,應加強中文元數據標准化的研究,學習和借鑒國際上先進、通用的元數據標准或應用方案,在充分考慮中文資源應用特點的前提下,制定出符合中文資源應用需求的、單位之間、社會各界共享信息所需要的、大眾化的元數據標准。 陳曉 元數據,存在於各個領域。其定義隨著不同領域的理解不同而不同。這里,筆者參考匹茲堡項目研究成果,從檔案學的角度透視比特時代的「元數據」。 元數據,用來描述一份文件的電子信息,是數據的數據,是信息的信息。匹茲堡項目運用元數據來保證電子文件的證據功能,將其聚合在幾個同中心的元數據層中。這些元數據,系統能自動捕獲一部分,而其餘的則靠人工輸入。元數據的構成元素,分為處理層(handle)、術語和條件層(terms and conditions)、 結構層 (structure)、 背景層(context)、內容層(content)和使用歷史層(history of use)。電子文件的檢索通常是以文件為單位的,因此,為了對文件進行定位和檢索,元數據是必需的。雖然元數據的各層必須出現在系統中,但不是每層所有的元素都是必要的。為了檢索文件,組織需要確定元數據的數量和種類,確保文件受到保護,不會被隨意更改和刪除。對於紙質文件的檢索,一般是先確定可能裝有所需文件的相關卷宗,再徹底一份份檢查這些相關的卷宗。在20世紀早期,登記室工作制度為紙質文件記錄了大量的元數據。筆者聯想到我國的「全宗卷」。《檔案管理學》註:全宗卷是「由在全宗管理活動過程中所形成的管理記錄性材料構成的一個案卷」,它實質上「是全宗管理過程活動中所形成的『檔案』,是檔案管理活動的原始記錄」,是檔案的檔案。它單獨另行存入並實施統一管理,不能與全宗混在一起,更不能將其作為全宗內的一個案卷對待。與之相比,二者具有相似的特點: 1.二者都是檔案或文件的管理與檢索工具。全宗卷是適應紙質環境中的檔案管理而產生的,元數據是適應比特時代的電子文件管理而形成的。通過它們,可以對檔案或文件進行合理的管理,起到著錄說明、查找利用、節約人力物力、方便工作的開展。 2.二者都是被單獨管理的。全宗卷要求要單獨存放,不能作為原全宗的一個案卷。元數據與文件雖然封裝在一個實體內,邏輯上作為整體保管,但物理上是與文件分開,單獨保管的。 因此,筆者贊成這種觀點,「元數據」並不是新出現的事物。在我國紙質環境下,「元數據」思想已經有了萌芽。「元數據」是與比特時代的文件特點相結合而產生的一種工具。通過捕獲文件的背景信息,記錄文件形成、辦理、保管、利用及最後的處置過程中的文件工作,起到說明、管理、檢索和憑證等多重作用。比特時代,文件的證據作用成為人們最關注的問題,匹茲堡項目順應社會趨勢,選擇集中研究證據功能所需的元數據,認為應該捕獲的元數據包括與文獻相關的結構信息、內容信息、背景信息、存取和保管期限的業務規則信息。文件和元數據的同時捕獲,尤其系統能自動捕獲信息,大大改變了元數據的質量。匹茲堡項目建議,完成元數據和文件內容的同時捕獲,可以採取「封裝」 (encapsulation)方式,即將文件和它的元數據放在一個計算機文檔里。元數據與文件清晰相連,確保文件及其元數據不會隨著時間的變化而分離,保證文件不被隨意的更改與破壞。同時,當檢索文件時,因為文件與所有相關信息都被檢索出來,文件自身可以進行「自我說明」。大多數的元數據並不是唯一的對應於某個文件,而是應用於一系列文件。所以,產生了大量存貯在文件保管系統中的拷貝信息。給元數據的管理和控制帶來了很大的不方便。這個問題需要得到進一步的解決。 比特時代,文件的不同功能則需要不同的元數據加以保證。研究元數據,一定要先明白元數據所對應的功能。這是個新興的熱點問題,期待更多的關注。
㈤ 數據的採集
數據的採集是獲取已生成的「裸文件」和捕捉的「純數據」的行為。除「裸文件」和「純數據」外,還有它們的結構信息、數據的背景信息。結構信息與背景信息在地質資料管理中又稱元數據。內容信息與純數據是採集的主體,結構信息與背景信息是用來說明這些「裸文件」、「純數據」內容和數據是什麼,是由誰生成的,什麼時候生成的,「裸文件」生成後是否經過改動,數據的現場處理過程,生成時的設備和軟體平台備忘。結構信息與背景信息的採集目的是為了保證信息整體有用性和完整要求。數據是採集來的,哪些數據需要採集,它的模板設計就涉及地質找礦工作研究與地質資料管理上的需要,一般由地質研究人員、地質資料管理人員共同商定。
在地質資料管理程序中,本來是在歸檔過程中出現的程序性工作提到「前端」來了。於是,檔案管理工作中的鑒定與數據倉庫中的數據採集工作中的數據審查部分重合了。有人將數據採集工作項,必須採集的數據設計成工作表,嵌入到相關軟體中,對數據的真實性進行專人審計驗收把關並簽字以示責任,同時按照既定的元數據體系,錄入電子文本、數據體的結構信息與背景信息。如數據生成的儀器設備型號(如錄井儀型號、測井儀型號、色譜儀型號等)、工程施工單位、責任人、數據或電子文本格式,生成時間、關鍵詞、主題詞或著錄項等。這些電子文件與數據是數據池建設所需要的資源,也是地質資料需要前端控制的元數據。
㈥ 十六、什麼是元數據
謝海洋 王素娟 元數據,英文拼寫為Metadata,目前已被廣泛應用於各種信息資源的管理領域中。在檔案界,最早使用「元數據」的是美國的電子文件管理專家戴維?比爾曼,他在20世紀90年代初發表的有關電子文件管理方面的論文中首先使用了元數據這一術語。 元數據的概念目前在檔案界還沒有一個統一的定論,目前比較有代表性的描述有: 1.元數據是「關於數據的數據(Data about Data)」,其中,後一個Data是指被描述的信息資源,前一個Data則是指為理解該信息資源而存儲的有關信息,即元數據。這是元數據目前公認最為經典、通俗和簡潔的定義。 2.國際檔案理事會《電子文件管理指南》(1997)認為「元數據是關於文件的背景信息和結構的數據,是有關電子文件的技術性信息。」 3.《澳大利亞聯邦機構電子文件保管元數據標准》(1999)認為「文件保管元數據是關於電子文件背景的描述信息。」 4.英國國家檔案館《電子文件管理指南》(1999)認為「元數據是關於文件和文件集合的背景及其相互關系的結構化描述和編目數據。」 5.馮惠玲主編的《電子文件管理教程》認為元數據是「由電子文件系統自動記錄的關於文件形成時間、地點、人員、活動、文件系統、結構及內容方面的具體數據。」 6.「元數據可以理解為用來描述資源的屬性與特徵的信息。」-劉家真《電子文件管理理論與實踐》,科學出版社2003年版。 7.「元數據是對數據對象規范描述所形成的數據集合,通過計算機可讀的開放語言來標記元數據,就能在系統間發現、交換、轉換和理解相應的數字對象,支持系統間互操作。」-張曉林《開放元數據機制:理念與原則》,《中國圖書館學報》2003年3期。 以上描述雖然表述各不相同,但我們可以發現一個共同點,即元數據主要是動態地描述電子文檔各種特徵的信息數據集合,並且它能為分散的、由多種數字化資源有機構成的檔案信息體系提供整合的工具與紐帶。隨著研究的深入,我們對元數據的認識在逐步深化。 檔案工作人員為便於理解,可以簡單把電子文檔的元數據視為兩方面:一是「著錄信息或著錄數據」。其中,「元數據元素就是著錄項目,元數據格式就是著錄項目之間關系的結構化表示,元數據編碼就是著錄信息的編制。」(劉越南《對電子文件管理元數據的再認識》,《檔案學通訊》2005年2期);二是電子文檔的內容、背景和結構等方面的信息。 國外學者將元數據喻為電子文件管理系統中的「血液」,足見元數據在數字檔案館電子文件管理中發揮著舉足輕重的作用。元數據的作用主要可以概括為以下幾方面: 1.元數據能協助數字檔案館構建信息檢索機制。元數據具有動態跟蹤功能,能夠即時動態地獲取電子文件管理的各項信息。在數字檔案館的海量信息庫中,藉助元數據,可以快速發現並獲取特定的信息單元。 2.元數據能維護信息的識別與讀取。電子文件所攜帶的元數據信息可以完整地記錄電子文件的原始狀態,能夠系統地映射出電子文件的信息內容、背景和結構等;還能夠映射出電子文件的生成環境和行政管理環境。只有在獲取數據對象的同時也獲取這些元數據信息,被檢索到的數據單元才是可理解的、可讀的。 3.元數據能保障電子文件的真實性與憑證性。元數據系統能夠跟蹤記錄電子文件從產生那一刻起的載體、設備及所用技術的變遷史以及使用干預該文件的整個歷史過程,即不論載體、設備、技術如何更新換代,不論使用者、使用人數的多少都全部作為歷史數據保存下來,記錄備案。這些為數字信息單元真實性和憑證性提供了重要的佐證。
㈦ 什麼是元數據為何需要元數據
元數據是關於數據的組織、數據域及其關系的信息,簡言之,元數據就是關於數據的數據。需要元數據是用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。
描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能。
一般認為,所謂元數據是關於數據的數據,或關於數據的結構化的數據。從已有的結論看,元數據的含義是逐漸發展的。元數據一詞,早期主要指網路資源的描述數據,用於網路信息資源的組織;其後,逐步擴大到各種以電子形式存在的信息資源的描述數據。元數據這一術語實際用於各種類型信息資源的描述記錄。
此外,元數據在地理界,生命科學界等領域也有其相應的定義和應用。
(7)為什麼要採集電子文件元數據擴展閱讀
元數據的基本特點主要有:
a)元數據一經建立,便可共享。元數據的結構和完整性依賴於信息資源的價值和使用環境;元數據的開發與利用環境往往是一個變化的分布式環境;任何一種格式都不可能完全滿足不同團體的不同需要;
b)元數據首先是一種編碼體系。元數據是用來描述數字化信息資源,特別是網路信息資源的編碼體系,這導致了元數據和傳統數據編碼體系的根本區別;元數據的最為重要的特徵和功能是為數字化信息資源建立一種機器可理解框架。
元數據體系構建了電子政務的邏輯框架和基本模型,從而決定了電子政務的功能特徵、運行模式和系統運行的總體性能。
電子政務的運作都基於元數據來實現。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由於元數據也是數據,因此可以用類似數據的方法在資料庫中進行存儲和獲取。如果提供數據元的組織同時提供描述數據元的元數據,將會使數據元的使用變得准確而高效。用戶在使用數據時可以首先查看其元數據以便能夠獲取自己所需的信息。