定制论文·联系客服·网站地图·收藏本页·设为首页
计算机应用当前位置:中国论文库 > 计算机论文 > 计算机应用> 正文

一种灵活的网络学习行为数据采集与分析系统

时间:2011-04-08作者:廖竞1 张晖2来源:中国论文库
字号:T|T

摘要:网络学习正在日益兴起,在多样化的教与学过程中充分利用网络上日益丰富的学习资源,满足不同层次求学者的需要。对网络学习中学习者的各项学习行为进行分析,从中

标签:

     摘要:网络学习正在日益兴起,在多样化的教与学过程中充分利用网络上日益丰富的学习资源,满足不同层次求学者的需要。对网络学习中学习者的各项学习行为进行分析,从中找出学习者群体的特征和个体的特点,从而帮助教育者促进网络教与学的建设是目前迫切学要解决的问题。本文结合当前主流的学习行为数据采集和分析的方法的优点和不足,提出了一种基于数据流获取的网络学习行为数据采集与分析的方案,详细介绍了数据采集和数据分析的方法,并探讨了实现这套方案的软件系统设计。该软件系统具有较强的灵活性和实用性,能够帮助学习者和教育者进行更加有效网络教与学。 

     关键词:网络学习;学习行为数据采集;学习行为分析;数据流获取;文本挖掘

    1.引言

    现代教育教学除了传统的课堂教学和实践培训外,越来越多地采用了网络学习的方式。网络学习可以分为两种类型,一种是集中式网络学习,比如远程网络教育以及企事业内部网络的业务培训;一种是发散式网络学习,比如在学生在互联网上广泛、分散地查阅资料等自主学习。不论哪一种方式的网络学习都能在多样化的教与学过程中,充分利用网络上日益丰富的学习资源,满足不同层次求学者的需要。

    对网络学习中学习者的各项学习行为进行分析,从中找出学习者的学习规律,可以帮助教育者不断修正目前还不成熟的网络学与教,促进网络教育的建设。

    对网络学习者的学习行为进行分析,首先需要采集学生在网络学习过程中的学习行为信息数据,然后对这些数据进行集成、分类和分析。目前,基于计算机和网络平台的网络学习行为数据采集与分析的常用方法主要有两类,一是基于Web服务(Web Services)的方法[1][2],一是基于Web日志挖掘(Web Usage Mining)的方法[3][4]。目前,基于Web Services的方法应用较多,但这种方法也存在比较明显的不足,主要是:只能得到在该网站进行学习的注册学习者的学习行为数据,并对他们的学习行为进行分析,具有局限性;这样的系统开发要与网站程序的设计以及数据库设计同步进行,才能做到无缝集成,专用性强,灵活性较差。Web Usage Mining的不足在于Web日志和客户端数据不容易得到,即使得到了,也和Web安全的相关原则有冲突,而且这些数据都是学习者通过该Web服务器时留下的,同样存在局限性。

    通过实际对比分析和研究发现,如果能结合上述两者,就将是一种比实用的解决方案。本方案的基本思路是:在服务器或网关上使用netmate进行数据流捕获,然后处理并输出为文本,然后使用文本挖掘的成熟算法进行处理,得到网络学习者学习的特点、偏好等学习规律,帮助教育者进行教育学分析,从而有效地指导网络学习和教学的建设。

    2.学习行为数据采集

    学习行为数据的采集是进行学习行为分析的前提,是整个方案的基础。学生网络学习行为数据的采集是一种基于开源软件netmate的数据流自动获取,这种方式很容易对流经节点服务器或网关的数据流进行实时获取,然后回根据netmate提供的接口,生成文本已备后续的文本处理。

    2.1数据流获取

    数据流获取是网络学习行为数据采集的第一步。这种获取是实时的、基于随机样本的,由于样本容量可以取很大,即使出现丢包的情况,也能够接近实际情况。由于经过节点服务器或者网关的数据流既有流入的也有流出的,因此既能够获取到学习者在学习网站或者内部网络上的集中式学习的行为数据,又能够获取到学习者通过服务器或网关进入互联网络的发散式学习的行为数据。由此可见,这样的基于数据流的网络学习行为数据采集能够满足前述两种主要的网络学习方式。

    首先要在节点服务器或者网关计算机上安装好netmate及配套的库(libpcap、readline),然后根据数据获取的需求在配置文件(netmate.conf.xml)中进行配置,主要是根据需求制定自己的规则(rule)。在netmate工作过程中,根据制订好的规则,会将获取到的数据流以指定的形式进行输出。

    由于netmate部署的位置可以根据需要而改变,获得的文本可以通过传送工具传到指定的目的主机,因此具有很强的灵活。在集中式网络学习中,如果获取点在远程教育网站上,则可以获取在该网站学习的所有学习者的学习信息,如果获取点在校园网的Web服务器上,就可以获取该校校园网络学习资源的利用情况;在发散式网络学习中,如果获取点在校园网的网络服务器上,就可以获取全校学生在互联网上的学习情况,如果获取点在某个院系的网关服务器上,就可以获取该院系的学生在实验室在各个时段的网络学习情况。

    3.学习行为的文本挖掘

    文本挖掘也被称作文本数据挖掘,是指从文本中得到高质量的、事先未知的、可理解的信息的过程。在得到通过节点服务器的数据文本后,就可以进行文本分类,从中找出网络学习行为的特点以及一些规律。

    3.1文本预处理

    在进行文本分类之前,须先对文本文档进行预处理,并将信息存放在比文本数据更适合处理的数据结构中。对英文单词而言,动词的不同时态一般在动词后加后缀表示(ing或ed),而单词的基本意义还是在原形式上,这时就需要进行词根还原,将一个词加后缀后的形式还原为它们基本形式。对中文文本的理解在于正确地断句,由于中文词与词之间没有空格,因此在进行中文文本挖掘之前,需要对文本进行分词处理,把中文的汉字序列切分成有意义的词。

    在预处理的末期,将得到非常巨大的向量空间,这时需要进行特征降维处理。由于不同的标准对同一学习行为的界定原本就不是很明确,因此采用了卡方统计(CHI)算法进行特征选择,接下来采用聚类方法进行特征提取。转贴于中国论文库 http://www.lwkoo.com

相关阅读

推荐论文

热门

最新

推荐