定制论文·联系客服·网站地图·收藏本页·设为首页
计算机网络当前位置:中国论文库 > 计算机论文 > 计算机网络> 正文

基于数据挖掘技术的网页个性化推荐系统分析

时间:2012-02-26作者:穆瑞辉,张武强来源:中国论文库
字号:T|T

  摘要:介绍了―网络迷航现象及WEB数据挖掘技术,讨论了网站用户浏览行为及获得用户浏览行为模式的方法,构建了模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间. 

标签:

  摘要:介绍了―网络迷航现象及WEB数据挖掘技术,讨论了网站用户浏览行为及获得用户浏览行为模式的方法,构建了模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间.

  关键词:网络迷航;数据挖掘;数据过滤

  0引言

  校园网上的信息数据量巨大,数据之间的关联性强,学生可自由浏览不同的教学数据信息,这就容易使学生在网站上迷路,不清楚自己在网站上的位置,不知道真正需要哪些信息,就像在茫茫大海中迷失方向,却不知道该怎么办一样,我们将之称为网上学习中的―网络迷航‖现象[1].

  如何避免或消除学生在浏览网络的过程中出现―网络迷航‖现象,以取得良好的教学效果,是值得研究的问题.因此,在教学网站的建设上,要充分发挥超链接的优点,以技术优势调动学生学习的积极性,引导学生接受有效信息,提高学习效率,减轻心理压力,我们将其称之为导航[2-3].

  在网站上,我们必须设计适合学生学习的引导方法,这就要求我们要充分了解学生的浏览路径,挖掘、提取学生对某些页面的偏好度及浏览路径,这就是网站个性化推荐系统设计问题.

  1 WEB数据挖掘技术

  用户在网站上查阅数据信息时,总希望找到没有看到的数据信息,www.lwkoo.com这就产生了WEB数据挖掘技术[4],即分析、提取WEB网站数据库中的数据信息,找到有用的数据信息及其关联关系.

  WEB数据挖掘技术包括数据库数据挖掘的个性化技术、关联规则挖掘技术、分类挖掘技术、聚类挖掘技术和预测挖掘技术等[5].在这些挖掘技术中,关联规则挖掘技术是分析、提取数据信息,找到数据信息之间的潜在关联关系的挖掘技术.

  2网站用户浏览行为分析

  应用数据挖掘技术就是分析网站描述文件和日志文件,得到用户浏览模式,最后,将用户偏爱度高的网页推荐给用户.通过分析和提取用户浏览行为模式,调整网站站点的内容和结构,使网站更能满足不同浏览用户的不同需求,这就是网站个性化[5].

  根据网站个性化的理念,考虑浏览用户的教育背景、性别、兴趣、爱好、年龄等静态特征,根据其浏览行为,动态地充实和调整网站内容与结构,以满足用户的需求.为此,网站必须随时记录和跟踪浏览用户的浏览行为,由此推断用户的兴趣、爱好;把数据资源组织好、整理好、规划好;提取有个性化、针对性的数据信息,以文字或图片、图形的方式推荐给用户.

  我们可以通过外部数据信息和系统内部的数据信息实时跟踪用户,用户对系统推荐的数据信息资源的反馈信息和评价信息就是网站个性化系统的外部数据;所有的数据信息都是网站个性化系统自动完成的.

  通过用户的前进、后退、搜索(查找)网页内容、书签、滚动条和标记等行为来分析用户浏览行为模式,其中浏览用户搜索、查找网页内容和滚动条的行为最能体现其兴趣、爱好.

  分析、提取网站日志文件记录的信息,构建或及时调整用户描述文件,这些信息包括用户浏览某网页的频率、次序和停留时间等.虽然根据网页的点选次数获得的数据信息不完整,但网站个性化系统可以根据这些信息提供以下帮助:1)根据用户浏览网页的次序和频率,可以分析用户的偏爱度.2)可以根据用户对某网页的偏爱度,便于及时调整网站个性化系统.3)根据用户的浏览频率、次序和停留时间等数据信息,分析、推测用户下一步的意向,以便及时提供用户感兴趣的信息.

  网站日志记录挖掘技术是分析和提取数据库服务器、客户机和代理数据库服务器获得网站日志记录的技术,但由于Applet和Script上没有它的代理功能,或关闭了其代理功能,所以,现在大多数网站都是通过分析和提取数据库服务器提供的数据信息,应用网站日志记录挖掘技术的,网站日志记录可以收集用户访问数据信息的浏览行为,它有扩充记录文件格式和ASCII记录文件格式.

  网站个性化系统能够提供满足用户需求的数据信息,主要分析用户浏览行为模式,因为用户在某网页的存取次数、停留时间体现了他对该网页内容的偏爱度.网站个性化系统可以根据网站日志文件分析、提取有用信息,更好地掌握网站的访问量,了解用户的浏览行为,为增强网站个性化系统的功能提供帮助.关联规则算法就是众多数据挖掘算法中侧重分析用户浏览行为的算法.下面介绍关联规则.

  存在于事务之间的关联性就是关联规则.用形式化语言描述如下:P→Q(可称为P关联Q或Q关联于P),可信度和支持度是关联规则算法的分析评价准则.1)可信度.其公式是:同时出现项目P和项目Q的交易数量/项目P出现的交易数量.2)支持度.其公式是:交易数量中项目P和项目Q同时出现的数量/总交易数量.关联规则的支持度和可信度的设定值不能过高,也不能过低,过高就会使得一些潜在的关联规则被排除在外,过低就会产生一些毫无关联的规则,误导分析和提取重要的数据信息,因此,这两个标准的设定值一定要适宜.用户在浏览网页时是根据自己的兴趣、爱好来决定取舍的,并依靠网页上超链接功能访问的,所以,可以通过分析用户浏览行为模式,提取用户对某个网页的偏好度和对网页内容的兴趣爱好.分析用户浏览行为方式的目的,是为网站个性化管理系统提供参考数据,以便更好地调整网站结构,为用户提供优质服务.

  3结束语

  通过介绍―网络迷航‖现象、WEB数据挖掘技术,讨论了网站描述文件和记录文件的数据挖掘、信息过滤和分析问题,得到用户浏览行为模式;分析了用户偏好度和页面间的相关性,挖掘与用户浏览网页关联度高的页面,通过导航栏的方式推荐给用户.

  参考文献:

  [1]王咸伟,李克东.基于Web的远程网络教学系统开发的关键技术[J].上海师范大学学报,2000,12(11):50-56.

  [2]HAIN J.Neural Networks A Comprehensive Foundation[M].影印版.北京:清华大学出版社,2001:600-622.

  [3]范斌.基于Web服务的分布式数据挖掘系统研究[D].武汉:武汉理工大学计算机科学与技术学院,2004.

  [4]Kantard.数据挖掘—概念、模型、方法和算法[M].四清,等.译.北京:清华大学出版社,2003:99-103.

  [5]王永庆.人工智能原理与方法[M].西安:西安交通大学出版社,2000:54.

转贴于中国论文库 http://www.lwkoo.com

    相关阅读

    推荐论文

    热门

    最新

    推荐