定制论文·联系客服·网站地图·收藏本页·设为首页
计算机应用当前位置:中国论文库 > 计算机论文 > 计算机应用> 正文

学前教育师资信息素养的挖掘模型设计

时间:2011-09-28作者:郑频捷来源:中国论文库
字号:T|T

  摘 要:数据挖掘模型的设计,对于整个挖掘过程起到了至关重要的作用,本文针对学前教育信息素养的调查表,围绕着数据库设计、数据准备、挖掘方法的选用、模型建立四个方面

标签:

  摘 要:数据挖掘模型的设计,对于整个挖掘过程起到了至关重要的作用,本文针对学前教育信息素养的调查表,围绕着数据库设计、数据准备、挖掘方法的选用、模型建立四个方面进行阐述,针对调查表中的若干重要的问题进行分析、研究,从而建立挖掘模型,为最终的数据挖掘做好准备.

  关键词:学前教育;信息素养;数据挖掘;模型设计

  前言

  围绕着学前教育师资信息素养体系,国内各个机构对其研究较为缺乏,没有一个现成的模式可以借鉴,本人参考《江苏省东台市幼儿园的信息素养调查研究报告》为参考,请教学院的学前教育领域专家,与一线教师交流,根据自身多年信息技术教学的经验,形成了《学前教育师资信息素养调查表》,从教师基本信息、信息意识与态度、信息知识与技能、信息整合与创新、信息道德与安全、信息技术的培训等六个方面进行研究,对厦、漳、泉、莆田等地公办、民办、私立幼儿园的教师展开调查,希望通过数据挖掘技术,发现幼儿园教师的信息素养现状及其影响因素.

  1 “学前教育师资信息素养”数据库设计

  首先,利用Access的建表功能,先建立“学前教育师资信息素养”数据库,根据调查表中设置的六大部分,分别创建6个表,分别为“教师基本信息”(grxx)、“关于信息意识和态度”(ystd)、“关于信息知识和技能”(zsjn)、“关于信息整合与应用”(zhyy)、“关于信息道德与安全”(ddaq)、“信息技术培训”( jspx).对各部分中的每个问题设立一字段,以缩写形式为字段名,如“信息技术自评”的字段名为“Jszp”,“家庭上网条件”的字段名为“Jtswtj”.而每个问题的答案都是以选项形式填写,所以每个字段的数据类型均设置为文本.为了便于管理,我们对每个教师都进行了编号,并将编号设为每个表的关键字.

  2 数据准备

  2. 1 数据收集本文数据的来源主要通过两种渠道:网上问卷调查以及网下问卷收集,研究对象为厦门、漳州、泉州、莆田、龙岩等五个地区的学前教育一线教师.

  由于泉州儿童发展职业学院多年来都是面向厦门、漳州、泉州、莆田、龙岩等五地招生,毕业生也基本上分布在这五个地区,因此本文收集的数据有一定的区域特点,即调查对象具有较相似的教育教学背景,这样给统计、分析提供了很大的方便,使得数据更加精确.

  我们根据事先设置的《学前教育师资信息素养调查表》的内容,将调查表以网页的形式发布在网上,供教师填写;有了网络工具,我们能收集到更多的数据,从而使调查结果更加准确.在服务器端收集的数据,直接以Access数据库形式保存下来,然后添加到SQL Server数据库中.

  2. 2 清洗数据

  该过程用于提高数据质量,使数据达到分析所要求的标准.数据清洗过程包括子数据集的选择和缺失值的处理.

  因为数据质量是决定挖掘成功与否的关程中对一些重要字段进行数据质量检查是十分必要的.

  缺失值是指数据集中无法知道、没有搜集或者错误录入的值.一般来说对于它们所属的字段这些值是无效的.对于此类问题需要观察缺失值情况,考虑舍去其后对预测的结果是否有较大的影响.

  本文中,利用问卷形式收集来的数据,在手工录入的过程中,发现了有许多字段存在缺失值问题,表现为:有的题目中没有“D”选项,但老师的答案中却出现了“D”的选择;

  有的题目答案为空;还有的选择不合逻辑,比如“年龄”选择为“20 ~ 30”,而“教师职称”却选择为“特级”.诸如最后一种选择,在此我们先不做处理,本文主要针对前两种缺失情况进行研究.

  第一种情形下,以“jjntff”字段(字段含义为“解决教育教学难题采用方法”)为例,选项中只有A、B、C三个选项,但结果中出现了7个D的选项,造成数据错误有可能是教师填写错误或者是录入员录入失误,在这里我们将这些错误值定义称缺失值,然后利用Excel工具,发现该题目中C出现频率最高,因此将7个缺失值修改为C.

  第二种情形,我们对于答案为空的题目先放空,然后在所有数据填写完整后,再采用类似第一种情况代替方式,以出现频率最高的选项填写之.

  2. 3 选择数据

  利用Business Intelligence Development Studio工具,新建一名为“信息素养挖掘”的Analysis Services项目,导入数据源,然后将数据源转化成数据源视图,再进行“选择数据”.

  “选择数据”是用来决定用于分析的数据.在整合数据过程中、构建数据库之后,有一些字段会和分析无关,这里就是要对字段进行过滤.

  选择数据是指对一些变量的选择取舍.选择数据过程包括字段的选择和记录的选择.我们这里主要针对字段进行选择.在调查表设置初期,由于对目标问题理解不够细致,虽然有幼教专家的指点,但在学前教育师资信息素养领域中,有关研究还是比较缺乏,因此我们在设置数据表时考虑也不够完善,有关字段设置可能是多余的,这也需要通过数据挖掘过程去发现.由于篇幅限制,本文只针对每部分中的典型项目进行挖掘研究.

  3 挖掘方法的选用

  在学前教育领域中,问题调查一般选项式、问答式的题目来实现,针对选项式的调查,以下我们将对本文涉及的问题进行研究.

  3. 1 关联规则的选用

  挖掘关联规则的过程,就是寻找具有内在、隐性联系信息的过程.随着收集和存储在数据库中的数据规模越来越大,人们可以从中挖掘出更可靠、更有价值的关联规则.参与关联规则挖掘的数据项可以没有显性的关联特征,正是要通过挖掘,探讨它们之间的内在联系.

  通过对调查表的分析,我们发现各字段之间的关系可分为两种情形.其中一种有着内在或外在联系,如在“教师职称结构与自评”中,教师年龄与教师职称字段之间有着隐形的联系,即不同年龄的教师具有不同的职称,而教师年龄与信息技术自评、教师职称与信息技术自评之间的关系则是用户所关心的问题,这个关系需要通过研究得出.根据关联规则的适用范围及其目的,我们发现只有关联规则最接近客户的要求:通过挖掘,得出不同年龄、不同职称教师对自我信息技术的评价,即相互间的制约、相互影响的规律.

  我们这里可以设定教师信息技术自评为预测字段,将年龄和职称设置成输入字段,这样通过挖掘,便可以得到年龄与信息技术自评、职称与信息技术自评的关联规则.

  从上面的例子我们可以发现,当问题相关的字段是不同范围的,或者有一项是不同范围的,则可以使用关联.

  3. 2 聚类方法的选用

  通过聚类,人们能够自动发现数据集中的数据由于其各自的相似性和相异性被分成不同的类,这些类别具有明显的特征,进而发现全局数据的分布模式,以及数据之间的有趣的、隐含的相互联系[13].转贴于中国论文库 http://www.lwkoo.com

相关阅读

推荐论文

热门

最新

推荐