网络读者访问流量统计分析论文

时间:2022-01-17 05:26:00

导语:网络读者访问流量统计分析论文一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

网络读者访问流量统计分析论文

1系统的实现

访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:

(1)记录网站的访问数据;

(2)分析记录数据;

(3)为网站建设策略的改进提供依据。

1.1系统原理

由于网络站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到数据库中出去。

图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。

读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。

本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。

1.2分析指标

传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。

参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:

(1)读者到访人数和潜在读者人数的百分比;

(2)到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);

(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);

(4)读者的持续度(重复到访读者);

(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);

(6)读者停止阅读行为的百分比(阅读行为半途中止);

(7)读者耗损率(现有读者中停止阅读行为者的百分比);

(8)读者动摇率(耗损的读者/到访读者的总数);

(9)读者最近到访时间(据上次到访的间隔时间);

(10)读者到访频率(多久到访一次)。

就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。

1.3系统框图

网络读者流量统计分析系统功能框图

1.4工作方法

本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。

读者访问过程日志分析法优缺点

量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。

1.5技术实现

(1)系统结构

本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:

读者访问日志统计分析系统结构框图

(2)系统组成模块

本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。

(3)系统运行环境与开发平台

本系统运行环境和开发平台如表2。

读者访问日志统计分析系统模块

表2系统运行环境及开发平台一览表

软件类别软件名称

数据库SQLServer2000+FastTrendsDatabase

操作系统Windows2000SP4Server+Aix4.3.3

Web服务器软件IIS5.0+Apache3.0

浏览器软件IE5.5

网页制作Frontpage2000+javascript

ASP工具EditplusTextEditor

编程语言VisualBasic6.0

图表软件Excel2000

(4)程序流程与代码实现

该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。

我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。

“被访页面分析”程序流程图

相应代码:

<table

<tdclass=定义的表格形式及表头>

Setconn=server.creatobjectl("adodb.connection")

conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=server.creatobject("adodb.recorderset")

re.activeconnection=conn

dbname=Application("logtime")——数据表名称

re.open“QL语句”

dowhilenotre.eof

执行Recordset操作,服务器进行统计计算

response.write——写入统计表

re.movenext

loop

re.close

程序中一些代码说明:

①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3

②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount

③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext

④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>

⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close

1.6系统运行过程

下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。

首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。

对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。

最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。

2系统的实现

访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:

(1)记录网站的访问数据;

(2)分析记录数据;

(3)为网站建设策略的改进提供依据。

2.1系统原理

由于网络站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到数据库中出去。

图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。

读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。

本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。

2.2分析指标

传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。

参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:

(1)读者到访人数和潜在读者人数的百分比;

(2)到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);

(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);

(4)读者的持续度(重复到访读者);

(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);

(6)读者停止阅读行为的百分比(阅读行为半途中止);

(7)读者耗损率(现有读者中停止阅读行为者的百分比);

(8)读者动摇率(耗损的读者/到访读者的总数);

(9)读者最近到访时间(据上次到访的间隔时间);

(10)读者到访频率(多久到访一次)。

就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。

2.3系统框图

网络读者流量统计分析系统功能框图

2.4工作方法

本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。

读者访问过程日志分析法优缺点

量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。

2.5技术实现

(1)系统结构

本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:

读者访问日志统计分析系统结构框图

(2)系统组成模块

本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。

(3)系统运行环境与开发平台

本系统运行环境和开发平台如表2。

读者访问日志统计分析系统模块

(4)程序流程与代码实现

该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。

我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。

“被访页面分析”程序流程图

相应代码:

<table

<tdclass=定义的表格形式及表头>

Setconn=server.creatobjectl("adodb.connection")

conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=server.creatobject("adodb.recorderset")

re.activeconnection=conn

dbname=Application("logtime")——数据表名称

re.open“QL语句”

dowhilenotre.eof

执行Recordset操作,服务器进行统计计算

response.write——写入统计表

re.movenext

loop

re.close

程序中一些代码说明:

①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3

②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount

③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext

④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>

⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close

2.6系统运行过程

下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。

首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。

对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。

最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。

3实际应用

从2002年开始,我们从图书馆门户网站读者访问计数开始了网络读者访问统计工作,从最初的图书馆首页访问计数到现在应用网络读者访问流量统计分析系统到以信息资源站点、数据库为单元的访问利用上,取得了不少研究成果,下面我们介绍以2003年西安交通大学图书馆网站读者访问日志为统计对象,获得的一些统计分析结果。

表3是2003年图书馆网站的资源浏览次数,访问次数与访问读者数的统计表,我们看到一年内资源的浏览次数是10,222,296,访问次数是1,617,166,访问读者是310,628,对照2003年西安交大统计公报教职工5341人,在校学生32766人的数据表明图书馆网站有很高的访问量。另外网络访问读者310,628远远大于学生和教职工的总和,表明有相当多的读者使用本馆的资源,这说明本馆的信息资源丰富,吸引了很多读者。网站不足之处是自建的外文资源很少。从表3看,来自国内访问占6.43%,来自国外访问占0.01%。综合以上资料,西安交大图书馆网站为校内外读者提供了方便、丰富的资源服务,吸引了大量的读者,但在国外的知名度很低,现有资源不能吸引国外读者,对此图书馆采取一些措施,来解决这个问题。

接着我们看一年间网络读者常使用的网站资源与服务,图5显示的是读者最常使用的前十项网站资源与服务以及它们占全部浏览次数的百分比。从图中我们观察到前十项占了访问量的43%,第一项是图书馆首页,然后依次是网络数据库、联机公共目录查询、中国期刊网……,这说明图书馆网站的资源内容设计与规划合理,读者访问资源方便,相关信息更新及时,受到了读者的欢迎。另外,网络数据库和联机公共目录访问比例接近说明读者并重利用印刷型资源和数宇化资源,数字化资源对科研和教学的作用日益明显。从图5中我们还观察到所有的电子数据库访问所占比例值呈现出指数下降的趋势,这说明较少数数据库的访问量较大,而较多数数据库访问量较少,根据这个特点,图书馆在采购数据库时可采取不同的采购策略,对于使用量大的数据库保证数据的更新量和连续性,则可满足约80%的读者信息需求,对于较多的使用量少的数据库可采用合伙采购共同使用的办法,来满足约20%的读者信息需求。

图书馆网站前十名资源与服务以及它们占全部访问次数的比例(01/01/2003-12/31/2003)

接下来我们来分析常访问的读者及其来源,首先,图6中表示网络读者访问次数的分布,从图6中可以看出75.15%的读者只访问过一次,9.86%的读者访问过两次,6.49%的读者则经常访问图书馆网站,这说明作为一个为大学教育和科研服务的信息中心,图书馆的网络资源已经有了固定的读者,但还有大量读者的信息需求不能满足,为此图书馆通过参加一些文献信息资源建设项目和组织,如中国高等教育文献保障体系(CALIS),陕西省科技情报协作网等,以便获取更多优质的文献信息资源,增强图书馆文献信息资源的保障能力。另外,图书馆信息资源大多数有访问权的限制,校外的读者无法接触到,为此图书馆采取了一些办法,如建立电子数据库导航库,电子期刊导航库,提供文献传递等服务来满足校外读者的信息需求。表4是常来图书馆网站的读者统计数据,可以观察到前二十名读者绝大部分是西安交大校园网的读者占全部来访数的4.61%。如果以其上网所属机构来划分来访的网络读者,图7是前十名各类机构网络读者的访问。从图7中,我们可以清楚的看到本校的用户占73%,其中来自科学馆的访问占3.23%,图书馆的读者占3.18%,西一楼的2.34%,可见西安交大的校园网比较普及,读者能够很方便的进入图书馆资源网站,这也表示图书馆提供给读者阅读电子资源的电子阅览室满足了读者需要。在图7中数据显示,外校的读者也经常访问图书馆网站,如西安理工大学的读者占0.33%,长安大学的占0.31%,北京大学的占0.05%,西北工业大学的占0.17%,上海交大占0.08%等等,这些读者主要使用联机公共目录查询和使用自建数据库,这说明高校间的信息共享正在发展,图书馆应该加强自建特色数据库的建设,增强文献传递和馆际互借服务,满足这些读者的信息需求。

接下来我们来观察各类读者在每个月访问网络资源的比例变化图,见图8是各类网络读者访问前十名网络资源的变化图,总体访问变化的趋势和学校的校历安排有明显的关系,每个数据库的访问量变化则和各类读者的信息需求不同有关系。这反映了读者的结构影响着网站的使用情形。

网络读者访问图书馆网站次数分布(01/01/2003-12/31/2003)

前十名各类主机访问图书馆网站的访问次数(01/01/2003-12/31/2003)

各类网络读者对前十名网络资源访问变化图(01/01/2003-12/31/2003)

由于篇幅有限,我们简单介绍了本系统对图书馆网站网络读者访问流量的统计分析结果,在以上的讨论中,可以观察到读者利用网络信息资源是联机公共目录检索和信息检索并重,且大部分读者是本校的。

通过上述讨论,我们知道本系统还有许多值得进一步研究之处,下一步的研究方向是收集更完整的读者访问日志,包括更长期的和所有与图书馆资源访问相关的。并且尝试利用精致的统计方法来分析,以达到对网络读者行为更精确的解读。

4结语

经实际应用证明,该系统对我馆信息资源建设起到了重要的促进作用。首先,在控制我馆信息资源存放空间问题上,虽然目前看来效果不明显,但如果越来越多的信息资源杂乱无章地占据信息空间,将会大大降低信息检索的效率,干扰核心信息源的利用。本系统可以提供调整信息存放的定量依据,在探明各类型信息资料数量特征的基础上,分析其增长和老化规律,判断信息的价值和时效性,使有价值的信息充分地发挥作用,使信息空间得到有效的利用。

其次,在“以人为本”的理念指导下,图书馆走出了单纯提供馆藏信息资源为中心的定位,着眼于满足读者广泛的信息需求。在本系统的指导下能实现这个目标:一是根据信息资源规律反映出的学术动态和信息利用规律反映出的需求动态,指导图书馆的馆藏资源建设。二是通过对信息资源利用规律的研究,使计算机信息检索系统走向科学化、规范化,从而方便用户查询。

在整个研究过程中,取得了一些研究成果,也发现有不少问题等待我们进一步的研究,首先是无法取得确实充分的数据,主要问题是图书馆提供的网络数据库是联接到厂商的数据库中去检索的。如果图书馆自己没有服务主机,那么就要请厂商提供访问数据,虽然厂商都会提供月报表,但是能够判读的资料不多,或是他提供的数据不标准,或是他提供资料不是图书馆想要的。其次不易解释数据,有了访问过程记录数据,可是怎么去解释它?读者从哪里来,做什么,这个比较容易解释,可是要知道读者做某件事的动机,就没有办法从数据中去解释了。

【参考文献】

1WonsikShim,CharlesR.McClure,JohnCarloBertot&JamesT.Sweet.ARLE—MetricsProject:DevelopingStatisticsandPerformanceMeasurestoDescribeElectronicInformationServicesandResourcesforARLLibraries:PhaseOneReportTallahassee,FL:InformationUseManagementandPolicyInstitutc,SchooloflnformationStudies,2000./stats/newmeas/emetrics/phaseone.pdf(AccessedSep.10.2001)

2詹丽萍.E-metrics在数字图书馆使用评估的应用.数字图书馆与数字博物馆趋势研讨会,2001:21-30

3邹菲.试论网络信息计量学在数字图书馆中的应用.图书情报知识,2001(1):16-20

4邱均平.信息计量学(一).情报理论与实践,2000(1):75-80

5徐润萍,谷宁昌.利用ASP建立基于Web的MIS系统技术实现方法.计算机工程,2002(28):254-256