網路讀者訪問流量統計分析系統的研究與實現
1 前言
隨著數字圖書館的建設,圖書館館藏資源數字化的快速發展,圖書館以網站的形式向讀者提供資訊資源的服務越來越多,這些服務有圖書館門戶、館藏資源檢索、光碟資料映象、電子書刊、網路資料庫、自建資料庫和虛擬參考諮詢等等,為了揭示網路環境下讀者對這些資訊資源的瀏覽情況、閱讀情況以及訪問變化趨勢,準確瞭解讀者需求分佈和需求增長等情況,從而對網路讀者的資訊資源尋求行為模式進行研究,以便能為讀者提供更好的服務,圖書館須瞭解以下幾個問題:網路讀者是如何訪問網站的,這些資訊資源是如何被訪問使用的,如何評價這些資訊資源的利用情況等等。為了回答這些問題,我們通過本系統對圖書館多個資訊資源釋出網站進行讀者訪問流量統計、熱點網頁訪問統計、讀者訪問來源統計析及各項專題訪問統計等研究,並根據統計結果反映的讀者需求分佈和需求增長等資料對信啟、資源網站的架構、介面的設計、釋出的內容加以修改和調整,以滿足讀者需求為目標,吸引了讀者的目光,提高了圖書館資訊資源建設和服務水平。
2 系統的實現
訪問量的多少是衡量網站是否成功的重要標準,但對於圖書館網站是遠遠不夠的,圖書館需要獲取完整的讀者訪問流量統計資料,來對圖書館資訊資源的使用情況進行分析,網路資訊計量學方法是目前網路界普遍採用的網站績效評估計量法,被認為是可以用科學的方法檢驗網站訪問資料的一種工具。它的目的包括瞭解網路讀者的行為、確定網站是否吸引適當的讀者來訪、評定網站建設策略是否得當。其實施步驟可分為三個階段:
2分析記錄資料;
3為網站建設策略的改進提供依據。
2.1 系統原理
由於網路釋出站點和資料庫本身具備了訪問計量功能,各自的資訊資源收藏狀況便於人們掌握,並且能自動記錄讀者訪問的登入情況,如登入名、登入時間、瀏覽檔案、讀者的來源地址等,這些資料資料能夠準確反映讀者訪問資訊和來源分佈等情況,所以依據圖書館網路讀者訪問統計的工作內容,制定相應的分析指標,並收集網路讀者訪問圖書館資訊資源釋出站點形成的日誌檔案,然後利用日誌統計工作軟體定時對日誌檔案進行處理,得到統計資料,並動態生成各種表達形式的能滿足圖書館各項統計分析工作的報表。最後把生成的分析報表匯入到釋出資料庫中釋出出去。
圖書館各個網路資源站點建設人員可通過瀏覽網路讀者訪問流量統計分析報告,分析和了解讀者的訪問需求,從而做好網路資訊資源的建設工作。
讀者行為分析研究則可通過對分析報告進行質化研究,並結合一般調查法、諮詢研究法對讀者的資訊尋求行為進行研究。
本系統還可利用統計分析的結果來對系統自身工作進行評估和調整。
2.2 分析指標
傳統圖書館的分析指標和計量方法,雖然和數字化圖書館有很多不同,但使用的目的及計量的準則並沒有太大實質性差異[4]。
參考傳統圖書館的分析指標以及國內外類似的研究結果選定了下列10個分析指標:
1讀者到訪人數和潛在讀者人數的百分比;
2到訪讀者表現了閱讀的興趣的百分比(採取明顯的閱讀行動);
3可能的讀者轉為經常的讀者的百分比(經常閱讀、下載資料);
4讀者的持續度(重複到訪讀者);
5讀者的忠誠度(網頁瀏覽次數、再度到訪的次數及時間長度);
6讀者停止閱讀行為的百分比(閱讀行為半途中止);
7讀者耗損率(現有讀者中停止閱讀行為者的百分比);
8讀者動搖率(耗損的讀者/到訪讀者的總數);
9讀者最近到訪時間(據上次到訪的間隔時間);
10讀者到訪頻率(多久到訪一次)。
就此引數,我們可以從一個客觀的角度來觀察和評估圖書館網路讀者訪問情況。
2.3 系統框圖
網路讀者流量統計分析系統功能框圖
2.4 工作方法
本系統工作方法主要是採集網路讀者訪問過程日誌進行量化分析法,它的優缺點見表1。
讀者訪問過程日誌分析法優缺點
量化分析法重視量的分析,本系統通過對訪問過程日誌以量的方法加以統計分析,首先根據為了研究讀者需求分佈和需求增長情況這一目的將研究內容歸類成若干分析單元,接著將分析單元以數量的方式加以表達,進而以此為解釋讀者資訊尋求行為的依據。
2.5 技術實現
1系統結構
本系統是以瀏覽器/伺服器/資料庫體系結構作為基本架構,通過ASP方式實現互動式、動態的讀者訪問日誌統計分析系統。系統結構框架如圖2所示:
讀者訪問日誌統計分析系統結構框圖
2系統組成模組
本系統有六個模組組成:訪問日誌入庫、訪問流量分析、被訪頁面分析、來訪讀者分析和統計分析圖表。
3系統執行環境與開發平臺
本系統執行環境和開發平臺如表2。
讀者訪問日誌統計分析系統模組
表2 系統執行環境及開發平臺一覽表
軟體類別 軟體名稱
資料庫 SQL Server 2000+FastTrends Database
作業系統 Windows 2000 SP4 Server+Aix 4.3.3
Web伺服器軟體 IIS 5.0+Apache 3.0
瀏覽器軟體 IE5.5
網頁製作 Frontpage2000+JavaScriPt
ASP工具 Editplus Text Editor
程式語言 Visual Basic 6.0
圖表軟體 Excel2000
4程式流程與程式碼實現
該系統由main.asp(主介面程式)、flux.asp(小時、日、星期流量分析)、target.asp(被訪頁面分析)、visitor.asp(來訪讀者分析)、chart.asp(統計分析圖表)五個組成。
我們以“被訪頁面分析”模組的程式流程和程式碼說明系統組成模組的實現過程,該模組程式流程圖如圖4。
“被訪頁面分析”程式流程圖
相應程式碼:
<table
<td class=定義的表格形式及表頭>
Set conn=server.creatobjectl"adodb.connection"
conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"
Set re=server.creatobject"adodb.recorderset"
re.activeconnection=conn
dbname=Application"logtime"——資料表名稱
re.open“QL語句”
do while not re.eof
執行Recordset操作,伺服器進行統計計算
response.write——寫入統計表
re.movenext
loop
re.close
程式中一些程式碼說明:
①Recordset的Open方法:允許使用者向資料庫發出請求,通常是執行sql命令。如:Sqlquery="select logtime from intemetlog where daylogtime=daygetdateand monthlogtime=monthgetdateand
yearlogtime=yeargetdate"Dbrs.open sqlquery,dbconnection,3,3
②Recordset的RecordCount屬性:可以取得當前在Recordset物件中的記錄條數。如:set dbrs=server.createobject"ADODB.recordset"amount=dbrs.recordcount
③Recordset的MoveNext方法:移動指標到Recordset物件的下一條資料。如:Dbrs.movenext
④Response的Write方法:負責將字串資訊輸出的使用者端。如:Response.write“頁面總訪問量:“& amount &”<br>
⑤Recordset的Close方法:可以用來關閉指定的Recordset物件。如:Dbrs.close
2.6 系統執行過程
下面以西安交通大學圖書館網站為統計分析物件說明該系統執行過程。
首先我們用FTP工具抓取網址為
對日誌分析系統進行執行引數設定:讀者訪問時間間隔設為20分鐘;從最新QQ顯IP版軟體中匯出讀者IP地址分配資料,轉換格式後匯入到日誌分析系統的地址表中,以便對讀者分群;設定過濾規格檔案濾掉一些無用的訪問資訊,如背景圖片、圖書館Logo,頁面美化圖片和伺服器漏洞掃描日誌等日誌資訊,然後對伺服器訪問日誌進行初步統計分析,儲存統計分析結果準備進行進一步統計分析。
最後利用精緻多樣的統計分析方法對初步統計結果進行統計分析,統計分析出的資料有:一年內資源點選與訪問計數;一年內網站中最常使用的資源與服務;一年內點選次數最多的讀者;一年內務分群讀者的點選次數比例;一年內點選次數與閱讀次數的變化;一年內上網的讀者與累積成長趨勢;一週各天的平均點選次數;一天內各時段的平均點選次數;校內各區讀者點選次數比例;各項相關資源被使用的情形等等。這些資料可用Eexel軟體生成直觀的統計分析圖表,部分圖表詳見實際應用一節中。本系統的研究主要採用訪問過程日誌分析法,以內容分析法、問卷調查法輔助研究。主要考慮:一是這種方法在電子商務和其它網路應用的量化分析,已經有許多研究成果,可使我們的研究更為便利;二是可以經濟的,較具體客觀的分析到網路讀者資訊需求特性;三是通過定量的計算,定質的分析,形成一種綜合分析的方式,以求分析結果更為客觀和科學。
3 實際應用
從2002年開始,我們從圖書館入口網站讀者訪問計數開始了網路讀者訪問統計工作,從最初的圖書館首頁訪問計數到現在應用網路讀者訪問流量統計分析系統到以資訊資源釋出站點、資料庫為單元的訪問利用上,取得了不少研究成果,下面我們介紹以2003年西安交通大學圖書館網站讀者訪問日誌為統計物件,獲得的一些統計分析結果。
表3是2003年圖書館網站的資源瀏覽次數,訪問次數與訪問讀者數的統計表,我們看到一年內資源的瀏覽次數是10,222,296,訪問次數是
1,617,166,訪問讀者是310,628,對照2003年西安交大統計公報教職工5341人,在校學生32766人的資料表明圖書館網站有很高的訪問量。另外網路訪問讀者310,628遠遠大於學生和教職工的總和,表明有相當多的讀者使用本館的資源,這說明本館的資訊資源豐富,吸引了很多讀者。網站不足之處是自建的外文資源很少。從表3看,來自國內訪問佔3%,來自國外訪問佔0.01%。綜合以上資料,西安交大圖書館網站為校內外讀者提供了方便、豐富的資源服務,吸引了大量的讀者,但在國外的知名度很低,現有資源不能吸引國外讀者,對此圖書館採取一些措施,來解決這個問題。
①建設網站的英文版本;
②把本校和本地一些有特色的文化資源數字化後,做成中英文全文資料庫。如錢學森多媒體資料庫、江南製造局多媒體資料庫;
③參與中外資料庫合作建設專案,如中美百萬圖書專案。
表3 圖書館網路讀者和資源瀏覽訪問統計01/01/2003-12/31/2003
瀏覽網頁數 網頁訪問數(資源) 10,222,296
平均每日的訪問網頁數 28,006
訪問者會話數 訪問者會話數 1,617,166
平均每日訪問者會話數 4,430
國際範圍內的訪問者百分比 0.01%
未知區域內的訪問者百分比 39.55%
來自China的訪問者百分比 60.43%
訪問者數 單一訪問者數 310,628
接著我們看一年間網路讀者常使用的網站資源與服務,圖5顯示的是讀者最常使用的前十項網站資源與服務以及它們佔全部瀏覽次數的百分比。從圖中我們觀察到前十項佔了訪問量的43%,第一項是圖書館首頁,然後依次是網路資料庫、聯機公共目錄查詢、中國期刊網……,這說明圖書館網站的資源內容設計與規劃合理,讀者訪問資源方便,相關資訊更新及時,受到了讀者的歡迎。另外,網路資料庫和聯機公共目錄訪問比例接近說明讀者並重利用印刷型資源和數宇化資源,數字化資源對科研和教學的作用日益明顯。從圖5中我們還觀察到所有的電子資料庫訪問所佔比例值呈現出指數下降的趨勢,這說明較少數資料庫的訪問量較大,而較多數資料庫訪問量較少,根據這個特點,圖書館在採購資料庫時可採取不同的採購策略,對於使用量大的資料庫保證資料的更新量和連續性,則可滿足約80%的讀者資訊需求,對於較多的使用量少的資料庫可採用合夥採購共同使用的辦法,來滿足約20%的讀者資訊需求。
圖書館網站前十名資源與服務以及它們佔全部訪問次數的比例01/01/2003-12/31/2003
接下來我們來分析常訪問的讀者及其來源,首先,圖6中表示網路讀者訪問次數的分佈,從圖6中可以看出75.15%的讀者只訪問過一次,9.86%的讀者訪問過兩次,9%的讀者則經常訪問圖書館網站,這說明作為一個為大學教育和科研服務的資訊中心,圖書館的網路資源已經有了固定的讀者,但還有大量讀者的資訊需求不能滿足,為此圖書館通過參加一些文獻資訊資源建設專案和組織,如中國高等教育文獻保障體系CALIS,陝西省科技情報協作網等,以便獲取更多優質的文獻資訊資源,增強圖書館文獻資訊資源的保障能力。另外,圖書館資訊資源大多數有訪問權的限制,校外的讀者無法接觸到,為此圖書館採取了一些辦法,如建立電子資料庫導航庫,電子期刊導航庫,提供文獻傳遞等服務來滿足校外讀者的資訊需求。表4是常來圖書館網站的讀者統計資料,可以觀察到前二十名讀者絕大部分是西安交大校園網的讀者佔全部來訪數的4.61%。如果以其上網所屬機構來劃分來訪的網路讀者,圖7是前十名各類機構網路讀者的訪問。從圖7中,我們可以清楚的看到本校的使用者佔73%,其中來自科學館的訪問佔3.23%,圖書館的讀者佔3.18%,西一樓的2.34%,可見西安交大的校園網比較普及,讀者能夠很方便的進入圖書館資源網站,這也表示圖書館提供給讀者閱讀電子資源的電子閱覽室滿足了讀者需要。在圖7中資料顯示,外校的讀者也經常訪問圖書館網站,如西安理工大學的讀者佔0.33%,長安大學的佔0.31%,北京大學的佔0.05%,西北工業大學的佔0.17%,上海交大佔0.08%等等,這些讀者主要使用聯機公共目錄查詢和使用自建資料庫,這說明高校間的資訊共享正在發展,圖書館應該加強自建特色資料庫的建設,增強文獻傳遞和館際互借服務,滿足這些讀者的資訊需求。
表4 訪問圖書館網站次數最多的前20名讀者及他們佔的比例01/01/2003-12/31/2003
網路讀者訪問統計
訪問者 點選數 點選率 訪問者會話數
1 202.117.14.71 293,444 0.54% 2,893
2 202.117.14.15 112,249 0.2% 2,846
3 202.117.29.37 347,223 0.64% 2,554
4 202.117.0.9 80.700 0.15% 2,487
5 202.117.29.59 121,184 0.22% 2,427
6 202.117.39.47 114,629 0.21% 2,290
7 202.117.48.45 174,130 0.32% 2,120
8 202.117.14.24 147,500 0.27% 1,997
9 202.117.35.11 56,312 0.1% 1,985
10 202.117.48.51 96,210 0.17% 1,839
11 202.117.35.79 223,565 0.41% 1,792
12 202.117.48.101 107,631 0.2% 1,785
13 202.117.48.103 110,180 0.2% 1,775
14 202.117.24.84 14,652 0.02% 1,764
15 202.117.48.44 92,776 0.17% 1,726
16 202.117.29.58 121,756 0.22% 1,678
17 64.241.242.18 2,131 0% 1,673
18 202.117.48.77 51,682 0.09% 1,654
19 202.117.29.136 103,924 0.19% 1,623
20 202.117.27.13 109,429 0.2% 1,605
以上訪問者合計 2,481,207 4.61% 40,513
總數 53,733,901 100% 1,617,166
接下來我們來觀察各類讀者在每個月訪問網路資源的比例變化圖,見圖8是各類網路讀者訪問前十名網路資源的變化圖,總體訪問變化的趨勢和學校的校歷安排有明顯的關係,每個資料庫的訪問量變化則和各類讀者的資訊需求不同有關係。這反映了讀者的結構影響著網站的使用情形。
網路讀者訪問圖書館網站次數分佈01/01/2003-12/31/2003
前十名各類主機訪問圖書館網站的訪問次數01/01/2003-12/31/2003
各類網路讀者對前十名網路資源訪問變化圖01/01/2003-12/31/2003
由於篇幅有限,我們簡單介紹了本系統對圖書館網站網路讀者訪問流量的統計分析結果,在以上的討論中,可以觀察到讀者利用網路資訊資源是聯機公共目錄檢索和資訊檢索並重,且大部分讀者是本校的。
通過上述討論,我們知道本系統還有許多值得進一步研究之處,下一步的研究方向是收集更完整的讀者訪問日誌,包括更長期的和所有與圖書館資源訪問相關的。並且嘗試利用精緻的統計方法來分析,以達到對網路讀者行為更精確的解讀。
4 結語
經實際應用證明,該系統對我館資訊資源建設起到了重要的促進作用。首先,在控制我館資訊資源存放空間問題上,雖然目前看來效果不明顯,但如果越來越多的資訊資源雜亂無章地佔據信息空間,將會大大降低資訊檢索的效率,干擾核心資訊源的利用。本系統可以提供調整資訊存放的定量依據,在探明各型別資訊資料數量特徵的基礎上,分析其增長和老化規律,判斷資訊的價值和時效性,使有價值的資訊充分地發揮作用,使資訊空間得到有效的利用。
其次,在“以人為本”的理念指導下,圖書館走出了單純提供館藏資訊資源為中心的定位,著眼於滿足讀者廣泛的資訊需求。在本系統的指導下能實現這個目標:一是根據資訊資源規律反映出的學術動態和資訊利用規律反映出的需求動態,指導圖書館的館藏資源建設。二是通過對資訊資源利用規律的研究,使計算機資訊檢索系統走向科學化、規範化,從而方便使用者查詢。
在整個研究過程中,取得了一些研究成果,也發現有不少問題等待我們進一步的研究,首先是無法取得確實充分的資料,主要問題是圖書館提供的網路資料庫是聯接到廠商的資料庫中去檢索的。如果圖書館自己沒有服務主機,那麼就要請廠商提供訪問資料,雖然廠商都會提供月報表,但是能夠判讀的資料不多,或是他提供的資料不標準,或是他提供資料不是圖書館想要的。其次不易解釋資料,有了訪問過程記錄資料,可是怎麼去解釋它?讀者從哪裡來,做什麼,這個比較容易解釋,可是要知道讀者做某件事的動機,就沒有辦法從資料中去解釋了。
【參考文獻】
1 Wonsik Shim,Charles R.McClure,John Carlo Bertot & James T.Sweet.ARL E—Metrics Statistics and Performance Measures to DescribeElectronic Information
Services and Resources for ARL One ReportTallahassee, Use Management and Policy Institutc,School oflnformation
Studies,2000. Sep.10.2001
2 詹麗萍.E-metrics在數字圖書館使用評估的應用.數字圖書館與數字博物館趨勢研討會,2001:21-30
3 鄒菲.試論網路資訊計量學在數字圖書館中的應用.圖書情報知識,20011:16-20
4 邱均平.資訊計量學(一).情報理論與實踐,20001:75-80
5 徐潤萍,谷寧昌.利用ASP建立基於Web的MIS系統技術實現方法.計算機工程,200228:254-256