計算機檢索技術論文

  近年來,計算機技術的發展促進了整個資訊檢索技術領域的發展,下面是小編整理了,有興趣的親可以來閱讀一下!

  篇一

  檔案資訊計算機的檢索

  一、檔案資訊計算機檢索的特點

  一是資訊儲存量大、檢索速度快、檢索效果好。二是檢索途徑多元化。三是檔案資訊的檢索對計算機系統的依賴性強。運用計算機檢索檔案資訊的查全率、查準率與檔案工作者、利用者熟練掌握計算機檢索文件的知識及檢索技能的掌握有著密切的關聯,特別是在檔案資訊服務經濟建設和服務民生工作中,要求檔案工作者不僅要掌握計算機檔案檢索知識,而且要向廣大的利用者普及檔案檢索知識,才能有效地提高檔案資訊的利用效益,極大地擴充套件檔案工作的社會影響力,提高檔案工作的社會地位。

  二、檔案計算機檢索系統的建立

  建立功能完善的檔案計算機檢索系統,應科學地進行檢索流程和檔案資訊檢索級別設計。

  ***一***計算機檢索流程設計。檔案計算機檢索流程包括檔案文獻資訊的輸入和檔案文獻資訊的輸出兩部分,具體流程如圖所示。

  1 檔案文獻資訊的輸入。計算機文獻檢索系統的基礎是資料庫的建立,包括文獻的選擇、標引、加工和輸入等一系列的過程,資料庫的資料數量和質量對於計算機檢索系統的效能具有直接影響。為適應檔案現代化管理需要,建立統一的檔案檢索和管理體系,更好地開發檔案資訊,實現檔案資訊共享,目前,我國各省***市***國家檔案館均制定了《綜合檔案館電子目錄資料庫結構與交換格式》。該標準分別制定了適用於文書立卷改革前的檔案目錄的《案卷級目錄資料庫結構與著錄格式》和適用於按照DA/T22-2000《歸檔檔案整理規則》整理的檔案目錄的《檔案級目錄資料庫結構與著錄格式》。文件管理系統機讀目錄輸入規範,採用1992月1日實施的《檔案著錄規則DA/T 18-1999》的著錄項,文件管理軟體在案卷級著錄和檔案級著錄選取的主要著錄專案欄位有:題名、並列題名、檔案編號、責任者、附件、稿本和文種、密級與保管期限項、檔案形成時間項、載體型別、數量及單位、分類號、檔案館代號、檔號、電子文件號、縮微號、主題詞或關鍵詞。

  2 檔案文獻資訊的輸出。利用者根據對檔案文獻的資訊需求,編制恰當的檢索條件,形成檢索表示式,並將其輸入計算機,在資料庫查詢後將結果輸出。

  ***二***檔案資訊檢索級別設計。檢索級別是衡量檢索深度和檢索精度的重要標準。檔案資訊計算機檢索,檢索級別越小、越低、內容越具體,說明檢索的精度越高、檢索的深度越深。

  1 案卷級檢索。案卷級檢索是指檢索出的檔案只能是案卷級目錄,而無法一次檢索出其卷內的具體檔案,其檢索依據是用案卷目錄來建立的案卷級目錄資料庫。檔案工作者都知道擬寫案卷題名是一件比較困難的事情,規定字數不能超過五十個漢字,且題名要儘可能涵蓋卷內檔案的內容,即案卷題名的內涵儘可能等於卷內檔案的外延。由於檔案工作者水平不一,擬寫的案卷題名涵蓋不了該案卷所有的檔案內容。檢索文書檔案內容方面,檔案館***室***很少採用案卷級檢索功能,而在科技檔案和專門檔案檢索中經常使用。

  2 檔案級檢索。利用計算機檢索工具不僅可以按著錄專案進行單項檢索,還可以把若干專案結合起來檢索,均可檢索出具體的檔案***即檔案級檢索***,以滿足利用者獲取檔案資訊的需求。作為檔案級檢索,是檔案館***室***經常採用的檔案文獻檢索手段,其具有一次輸入、多次輸出、多樣化輸出的功能。檔案級檔案文獻的查準率和查全率,取決於操作者對檔案著錄專案的組合而設定檢索條件,凡輸入計算機的每一個檢索著錄條目為一個檢索***,如把檔案的責任者、題名、時間3專案結合起來檢索,可以獲得滿足這3個檢索條件的檔案文獻。在檢索工具中還可通過主題標引和分類標引的手段揭示出文件內容所涉及到的概念性主題或所屬邏輯類別,這類檢索有時被稱為“內容級檢索”。但因檔案內容不能脫離開檔案而單獨存在,檢索成果依然是一份份的檔案,所以“內容級”嚴格說起來無法成立,只能歸入“檔案級”。

  3 全文檢索。全文檢索是計算機程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置。當用戶查詢時根據建立的索引查詢,類似於通過字典的檢索字表查字的過程。全文檢索系統是按照全文檢索理論建立起來的用於提供全文檢索服務的軟體系統。在功能上,全文檢索系統需要具有建立索引、處理查詢返回結果集、增加索引、優化索引結構等功能。結構上,全文檢索系統具有索引引擎、查詢引擎、文字分析引擎和對外介面等。全文檢索彌補了檔案級檢索存在的不足之處,因為有的檔案標題擬寫不準確,或綜合性的檔案很難用標題完全表達,造成了計算機誤檢或漏檢現象時有發生。全文檢索系統是自然語言處理技術與海量內容管理技術的完美結合,它對網頁、文字、電子文件和影象等非結構化的資訊提供強大的管理功能,能有效地解決以上問題。

  4 多媒體檔案文獻檢索。所謂多媒體檔案,是集聲、光、電多種媒體於一體的檔案。這種檔案可以更真實地記錄人們的社會活動,實現高密度儲存和遠距離傳輸,得到最為理想的利用效果。多媒體檔案文獻檢索有案卷級檢索和檔案級檢索,案卷級檢索可檢欄位有案卷題名、立檔單位、主題詞、起始年代、起始月份、起始日期。檔案級檔案目錄的檢索一二級分類與檔案相同,可檢欄位有檔案題名、責任者、主題詞、檔案年代、檔案月份、檔案日期、檔案代字、檔案年號、檔案編號。

  三、檔案資訊計算機檢索策略

  運用計算機進行檔案資訊檢索,使用者對檔案資訊的需求是精細的,其感興趣的是某一檔案的具體內容,即根據使用者的查詢表示式,如通過電子檔案著錄項***電子文件號、題名與責任者、密級與保管期限、時間項等***在資訊源中檢索出相關型別的電子檔案。檔案檢索策略是人們進行檔案檢索的方案和計劃,編制檔案檢索策略包括選擇檢索途徑和檢索詞***檔案著項***,及確定檢索詞***檔案著項***之間邏輯關係。檢索策略的編制是根據使用者檢索檔案常用的邏輯思維式而制定表達方式,在計算機檔案資訊檢索模組最常用的有以下3種邏輯表示式。

  一是通過計算機設定邏輯與關係***AND的表示式,限定檔案內容之間的關係,兩個檢索詞之間一般用符號“★”表示,使用者輸入計算機的檢索詞必須滿足兩個檢索條件。例如,檢索有關員工績效考核方面的檔案資訊,在檢索***輸入“員工★績效考核”,用來表示兩個內容之間的重合關係,對於專題與檔案內容較為明確的情況下,使用邏輯與關係有利於提高查準率。   二是採用邏輯或關係***OR***表示兩個檢索詞之間的任選關係,為檔案資訊利用人員提供模糊檢索功能。檢索檔案資訊一般在檔案題名、檔案編號和檔號檢索視窗使用“+”連線多個查詢關鍵字,滿足檔案資訊利用者輸入的關鍵字其中之一,即可查詢到相關的檔案資料。例如:“檔案+專業技術職務”表示檢索有關檔案人員評聘專業技術職務方面的檔案資料。檔案館***室***日常的查詢檔案資料工作中,在檔案題名檢索***最經常使用的是邏輯或關係檢索檔案資訊內容,這種關係在檢索***使用越多,那麼計算機選擇使用者需求的檔案資料範圍就越大,一般情況下使用邏輯或關係有助於提高查全率。

  三是採用表示否定關係的邏輯非關係***NOT***,用排除法控制檢索結果,有利於提高查準率。例如:“教師——副教授”表示檢索有關教師非副教授的檔案資料。

  以上三種不同邏輯的計算機檢索法,軟體人員在設計檔案檢索程式時,已經嵌入到檔案管理軟體的檢索系統。檔案利用人員檢索檔案資訊時,在檢索***靈活使用檢索邏輯,有助於提高檔案資訊的查準率和查全率。

  四、檔案資訊計算機檢索技巧

  我國各地國家公共檔案館和機關、企事業單位檔案***館***室使用的文書檔案管理系統,都具有檔案資訊計算機檢索功能。計算機檔案資訊檢索模組最常用的邏輯與關係***AND***、邏輯或關係***OR***和邏輯非關係***NOT***3個表示式,為計算機檔案檢索系統的程式設計規範。提供給檔案資訊獲取者使用的檢索介面,基本上按照《檔案著錄規則DA/T 18-1999》的著錄項設定檢索***。

  在檔案資訊檢索中,掌握一些檢索技巧能夠極大地提高檔案利用者檔案資訊檢索能力。

  ***一***題名錶述準確。檔案資訊計算機檢索最基本同時也是最有效的技巧,就是選擇合適的檢索詞。檔案檢索系統會嚴格按照檔案利用者提交的檢索詞去檢索檔案資訊。為此,檢索詞表達準確是獲得良好檢索結果的必要前提。常見錯誤是對檔案資訊的表達不準確。例如,要查詢《國有企業資產與產權變動檔案處置暫行辦法》,檢索詞可以是“國有企業資產與產權變動檔案處置暫行辦法”,如果把“暫行辦法”檢索詞換成“管理規定”,檢索結果不能滿足需求。另一類典型的表達是不能掌握不同歷史時期檔案檔案的題名用語。例如,

  “知識青年上山下鄉”,在題名檢索***輸入“知識青年農村勞動”,就沒有“知識青年上山下鄉”的檔案出現。還有一種型別是檢索詞中包含錯別字。例如,要查詢“檔案專業任職資格”,用“檔案專業任職資格”,就可以檢索出有關檔案專業任職資格的檔案,但如果寫錯了字,變成“檔案職業任職資格”,其檢索準確率就達不到檔案查詢的指標要求。

  ***二***正確選擇檔案資訊檢索專案。檔案軟體檢索介面,基本上包含了《檔案著錄規則DA/T 18-1999》的所有專案,但在檔案館***室***日常查詢檔案資料工作中,並不是所有的機讀著錄條目都要輸入檢索條件。我們把機讀著錄條目按照使用頻率分為三級:一級為使用頻率較多的著錄條目,包含:題名、檔案編號、責任者、檔號、檔案形成時間項。二級為使用頻率一般的著錄條目,包含:分類號、檔案館代號、電子文件號、縮微號、主題詞或關鍵詞、密級與保管期限。三級為使用頻率較少的著錄條目,包含:並列題名、附件、稿本和文種、項載體型別、數量及單位。

  ***三***檢索詞的主題關聯與簡練。為提高檔案資訊資料的查全率,在檔案題名檢索***把查詢檔案的主題提煉成簡單的,而且與希望找到的資訊內容主題關聯的檢索詞,檔案利用者最好學會使用兩個關鍵詞檢索,兩個關鍵詞中間用“+”關聯,並且合理地與使用頻率較多的一級著錄條目進行檢索條件組合。例如,查詢《城市建設檔案歸屬與流向暫行辦法》檔發字***1997***20號,國家檔案局1997年7月28日印發。檢索條件組合如下:

  題名:“城市+建設檔案+歸屬”

  責任者:國家檔案局

  時間:199701-199812

  或題名:“城市建設+檔案+流向”

  檔案編號:檔發字***1997***

  時間:19970101-19971231

  輸入檢索主題的質量關係到檔案的查準率。實踐中得出經驗,題名檢索***每個關聯片語不要超多5個漢字,因為大多數的檔案利用者輸入漢字越多與計算機檔案級資料庫匹配運算吻合機率越低。在檔案檢索中,檔案資訊利用者要養成使用多個關鍵詞檢索的習慣,在檔案資訊檢索時大多數情況下使用兩個關鍵詞檢索已經足夠了,關鍵詞與關鍵詞之間以“+”隔開,關鍵詞以2至4個漢字為宜。

  檔案資訊檢索正向全文文字、多媒體、多載體、跨平臺等新型資訊檢索的方向發展,為提高檔案資訊的利用效果,檔案資訊利用者掌握檔案資訊檢索知識與檢索技巧能極大地提高檔案資訊的查全率和查準率,檔案工作服務能力得到顯著提高。

點選下頁還有更多>>>