網頁資訊表格化提取程式的論文

網頁資訊表格化提取程式的論文

  摘 要:

  本文介紹了基於MSHTML設計開發的網頁資訊表格化提取程式的原理、程式結構和工作流程,使用網頁資訊提取、網頁元素解析、採集配置管理三大功能模組,實現對網頁及其內部關聯資訊的提取、解析、整理和表格化顯示,創新使用了對網頁屬性值和樹路徑值進行確認的二元檢查機制,能夠實現對指定資訊的準確提取。本文還舉例說明了程式的操作步驟和實際效果。

  引言

  當今是網路高速發展、資訊量急劇膨脹的資訊時代,人們透過資訊來互相交流,認識世界。在資訊中存在著大量有價值的資訊要素,這些有價值的資訊要素大都以網頁的形式存在,其內容和格式千差萬別。如果透過瀏覽器進行瀏覽和閱讀不存在問題,但若需要將感興趣的某類資訊及其內部關聯資訊儲存下來並進行整理,目前常用的工具普遍存在著某些缺點,比如網路蜘蛛等爬蟲工具無法實現對內部關聯資訊的提取。因此,本人作者使用MSHTML語言設計了網頁內部表格化提取的自動程式,可以完成對網頁及內部關聯資訊的儲存、整理和表格化顯示,能夠明顯提高對資訊的利用效率。

  1、資訊提取原理分析

  人們透過瀏覽器所看到的頁面,是由很多的頁面元素組裝在一起的,其中既有常見的圖片和文字,也有專門的結構元素,所有這些頁面元素經過一定的組合形成了我們看到的頁面。對網頁進行進行提取,實質上就是使用一定技術方法將指定的網頁元素進行解析、特徵匹配和顯示的過程。

  網頁資訊的元素可以分為以下三種級別:

  頂級元素(Top-level element):共有html、body和frameset三種,屬於高階塊級元素,表現類似塊級元素。

  塊級元素(Block-level element):能夠獨立存在且元素之間可以換行分割,常用的塊級元素有p、div、ul、table等。

  內聯元素(inline element):依附其他塊級元素存在,緊接於被聯元素之間顯示並且不換行,常用的內聯元素包括img、span、li、br等。

  2程式的設計思想

  2.1 採集原理

  2.2 二元檢查機制

  2.3 程式功能設計

  3 程式結構及工作流程

  3.1主要功能

  3.2 執行流程

  4程式的主要功能實現方法

  4.1採集配置管理

  4.2網頁元素解析

  5 執行測試

  5.1 讀取頁面

  5.2 配置採集

  5.3 採集網頁資訊

  5.4檢視採集結果

  6、結語

  隨著網路化的`快速發展,人們對網頁元素的需求越來越轉向個性化分類和精確提取,以往面向全部內容的野蠻採集方式已經無法滿足目前的需求,對其進行針對性的研究有著積極意義。

  網頁資訊表格化提取程式透過網頁資訊提取、網頁元素解析、採集配置管理三大功能模組的分工協作,實現對網頁及其內部關聯資訊的提取、解析、整理和表格化顯示,不僅克服了以往網頁資訊抓取工具不能提取內部關聯網頁資訊的不足,使得程式的適用性、擴充套件性明顯提高,而且程式中創新使用的對網頁屬性值和樹路徑值進行確認的二元檢查機制,能夠實現對指定資訊的準確提取,極大提升了程式結果的精確性。

  雖然網頁資訊表格化提取程式在精確性、適用性和擴充套件性上取得了進步,但也存在一些不足,希望以後能找到更好的解決方法....

最近訪問