数据挖掘论文实用4篇
【导言】此例“数据挖掘论文实用4篇”的范文资料由阿拉题库网友为您分享整理,以供您学习参考之用,希望这篇资料对您有所帮助,喜欢就复制下载支持吧!
数据挖掘论文1
摘要:数据挖掘是指从海量数据中找到人们未知、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。将计算机数据挖掘技术应用于高校学籍预警机制的研究中,在大量以往的教学管理数据库中挖掘出未知、可能有用的、隐藏的规则,促进教育的改革和发展。
关键词:数据挖掘;DataMining;学籍预警机制
本文针对学分制背景下高校学籍预警机制存在的问题和现状,用计算机数据挖掘(DataMining)技术对学籍预警机制进行分析,通过数据挖掘有关方法对搜集到的学生学籍数据进行分析和处理,以求能够挖掘出大量的隐含在学籍信息系统中的有价值的资源,用以预测可能发生的预警事件,为教学管理者进行危机管理提供帮助。随着高校招生规模不断扩大,如何保证高校的教学质量最终完成人才培养方案,成为一个重要的问题,具有重要研究价值。
一、高校学籍预警机制的现状及问题
20xx年8月教育部对“学籍预警”这一词语做出了解释:是一种高等教育管理方式。普通高校学籍的预警方式一般采用学校和院系双向管理,学校负责统一制定学籍预警标准,通过学习进度推进的不同阶段划分学分预警标准,在达到一定学分线开始预警,分为考勤预警、选课预警、成绩预警、学籍异动预警、毕业预警。根据高校教学管理系统,对缺课达到一定数目的学生进行提醒教育,期末统计学生完成的学分来评估学生学习情况,并预测学生是否能够完成培养方案,通过教师提供的学生考勤记录、作业情况以及课堂表现等,针对学生的具体情况对其预警。教学考核工作与学生思想政治工作在学生管理方面相对独立,主要是事先警示教育、事后跟踪管理。目前的学籍预警主要是单方向的,原有的学籍管理制度大都是传统的事后处理型,具有延迟性。只有出现严重的学籍异常后,才会触发预警机制,采取相应的对策解决问题,家长对学生的在校学习情况了解不清,了解不及时,比如之前学期表现良好的学生本学期出现网瘾状态而不能及时发现,往往会错过对该生的最佳教育期。传统的学籍预警机制无法做到提前预知,对学生的学习和生活状况无法实时监管,问题的根源也无法追踪。
二、数据挖掘技术
数据挖掘(DataMining)是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。因此,将计算机数据挖掘技术应用于高校学籍预警机制的研究中,在大量以往的教学管理数据库中挖掘出未知的、可能有用的、隐藏的规则,促进教育的改革和发展。将计算机数据挖掘技术和传统的人力管理相结合,以学生为本,建立健全全方位学籍预警构架,做到“防微杜渐”,为学校顺利完成教育目标起到促进作用。
三、数据挖掘在学籍预警机制里的应用
随着计算机技术的进步,各大高校逐步建立了日益完善的学籍信息管理系统,累积了大量学籍信息数据库。目前,这些数据主要用来向各级管理部门上报和学校自行查看存档,但对于这些数据后面隐藏的价值并没有进行深度挖掘和利用,十分可惜。所以,应以高校学生信息管理系统为对象,研究深度数据挖掘的方法,“透过现象看本质”,综合分析出有价值的学籍预警信息,为管理提供参考。例如,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明显,这时通过数据挖掘分析挖掘最近10年所有有过不及格课程的学生的成绩,发现有较高比例的学生来自西部地区,而且还发现有较高比例的学生家庭收入非常高或者非常低(生源地和经济情况问题)。针对此可以在学生管理上提前采取有针对性的管理措施。制定好目标标准,挖掘学生的学习习惯及学习特长,辅助教师指导学生,指导学生改正自己的。不当行为,提高学习能力。从教学管理系统中所记载的学生基本资料、学习成绩、学习经历、学习喜好以及知识体系结构等内容,发现学生学习习惯,辅助学生改正自身学习行为。提高学生各方面综合素质。利用数据挖掘的关联分析辅助师生行为预警干预。各高校学籍管理系统中记载着各院系各专业学生与教师的学习工作,社会活动,奖励处罚情况,可从中分析出师生各种活动之间的内在联系,假定有规则“A∪B∈C”,那么当在实际活动中,某学生已有A和B行为,马上可以分析出产生下个行为的概率,可即时预警,提前制止C行为的发生。利用数据挖掘为课程设置提供合理依据。高校学生的课程安排设置是循序渐进的,每门课程之间都有一定的关联和前后顺序,在学习一门专业课程之前必须先修一门基础课程,基础知识没学好势必影响专业课程的学习。而且,同一年级不同专业学生之间,由于教师或教师专业背景知识不同,各个学生总体成绩相差有时会很大。数据库中记载着以往各专业学生各学科考试成绩,使用数据挖掘的关联分析与时序分析技术,能分析出原因,在此基础上对课程进行合理设置。
综上所述,将基于计算机数据挖掘技术应用于高校的教学管理,以提高教学管理的预知性,增加教法选择的参考性,加强教学过程的指导性,提高教学质量。
参考文献:
[1]陈东民,等。数据仓库与数据挖掘技术[M].北京:北京电子工业出版社,20xx
[2]杨悦。数据挖掘在高校招生工作中的应用前景[J].教育科学,20xx
[3]胡侃。基于大型数据仓库的数据采掘[J].软件学报,1998
阅读是学习,摘抄是整理,写作时创造。山草香为大家分享的4篇数据挖掘论文就到这里了,希望在数据挖掘的写作方面给予您相应的帮助。
数据挖掘论文2
网络经济的关键在于能够为商品的供应商及其合作者之间提供一个交流的平台,但是即便是最权威的搜索引擎也只能够搜索到三分之一的web网页,并且这些Web都是没有结构的、动态的、复杂的形式出现。人们要从各种各样的文本网站中寻找自己想要的信息进而变得更加困难。网络数据挖掘技术就是用来解决这一问题的好办法,利用数据挖掘技术能够有效发现在web网页中隐藏着的对用户有力的数据信息,在对数据的分析中总结出规律。如何实现用户对于Web上的有效数据的深度挖掘,使其成为工商管理领域中的重要应用,成为了当代许多网络工作者所关注的话题。
一、数据挖掘概述
(一)数据挖掘
数据挖掘(DataMining)指的是,在大量的、不规则的、随机的、复杂的、有噪声的实际应用数据中,获得一些信息和知识,能够对用户祈祷潜在作用的效果的过程。将数据挖掘用通俗的话来描述就是在数据库中发现潜在有用的知识发现(KDDKnowledgeDiscoveryinDatabase)。在这个定义中主要包含了以下几方面的含义:首先数据源的特性是大量、随机、不规则、噪声;信息是客户所感兴趣的对象;选取的知识必须是在可接受、可理解、可运用的范围内的,并不是全部符合要求的都可以,对于问题要有一定的针对性。也就是说对于所发现的知识的筛选是有一定的约束和限制条件的,同时也要符合用户的理解和学习能力,最好还能够用通俗的语言来表达最终的结果。
(二)Web数据挖掘
Web数据挖掘实际上是属于数据挖掘的范畴的。概括的来说,Web数据挖掘的数据库特定的就是Web服务器上的数据文件,从中发现用户感兴趣并有所应用潜能的知识。Web数据挖掘主要针对的就是页面内容、页面之间的结构、用户访问信息、电子商务等内在信息,通过数据挖掘技术来获得有价值的信息。Web数据和传统数据库存在着很大的差异,传统的数据库都是在一定的数学模型范围之内的,通过模型来描述其中的数据;但是web数据库相对来讲就要复杂许多,没有通用的模型来描述数据,每个网页都有其独特的数据描述方式,丙炔数据自身都是可变的、动态的。因而,Web数据虽然具有一定的结构性,不能用架构化的形式来表达,也可以称其为半结构化的数据。Web数据的最大特点就是半结构化,加上Web数据的信息量极大,导致整一个数据库成为一个巨大的异构数据库。
二、网络数据挖掘的类型
(一)网络内容挖掘
网络内容挖掘的对象是网页的内容、数据、文档,这通常也是网页在急性搜索的时候需要考察的访问对象。由于网络信息繁多,按照信息源的不同可以划分为Gopher、FTP、Usenet等已经隐藏到WWW形式之后的资源,我们称之为WWW信息资源,存储于数据库管理信息系统中的数据,以及不能直接访问的私人数据。按照网络资源的形式又可以划分为文本、图像、音频、视频等数据。
(二)网络结构挖掘
网络结构挖掘的对象就是Web潜在的链接结构模式。这种类型最早出现在引文分析,在建立web自身的链接结构模型的时候借鉴了网页链接和被链接数量以及对象。在网页归类的时候往往会采用这种模式,还能够得到不同网页间相似度及关联度的相关数据。网络结构挖掘能够帮助用户在相关领域中找到最有分量的网站。
(三)网络用法挖掘
网络用法挖掘的目的在于掌握用户的一系列网络行为数据。网络内容挖掘、网络结构挖掘针对的都是网上的原始数据,而网络用法挖掘针对的是用户在上网过程中的人机交互的第二手数据,主要有用户的网页游览记录、代理服务器日志记录、网页维护信息、用户简介、注册信息、聊天记录、交易信息等等。
三、网络经济环境下数据挖掘在工商管理中的运用步骤
(一)识别网站访问者的特征信息
企业对电子商务网站的数据进行挖掘的第一步,就是要明确访问者的特点,找出访问者使用的'条款特征。访问者特征主要有入口统计、心理状态和技术手段等要素。人口统计并不是一成不变的,比如家庭地址、收入、购买力等因素都会不断改变。心理状态指的是在心理调研中展现出的个性类型,比如对商品的选择去世、价格优惠心理、技术兴趣等。随着访问者数量的增加,相关数据也会不断累积。条款的交互信息主要包括购买历史、广告历史和优选信息。网站统计信息是指每次会话的相关要素。公司信息主要包括访问者对接的服务器所包含的一系列要素信息。
(二)制定目标
开展网上交易的最大优势在于企业对于访问者的反应有着更好的前瞻性。当厂商的目标是明确且具象的时候,就能够通过数据挖掘技术得到较好的效果。企业通常可以设定以下的目标:网页访问者的增加量;类此网页访问的浏览时间增加;每次结账的平均利润;退换货的减少;品牌知名度效应;回头客的数量等等。
(三)问题描述
开展电子商务的企业最关键要面对的一个问题就是如何进行商品的传播,要实现网页的个性化又要将商品的信息完整的展现给顾客,就需要了解同一类访问者的共有特征、估计货物丢失的数据并预测未来行为。所有这一切都涉及寻找并支持各种不同的隐含模式。
(四)关联分析
对顾客大量的交易数据进行关联规则分析,能够发现顾客购买组合商品的趋势。关联分析指的是在一次浏览或者会话中所涉及到的商品,也叫做市场分析。若电子商务网站能够将这些商品放在同一个网页中,就能够提高顾客同时购买这些商品的概率。如果在关联的一组商品中有某一项商品正在进行促销,就能够带动其他组合产品的销量。关联也能够用在静态的网站目录网页。在这种情况下,网站排序的主要依据是厂商选择的且是网站所要查看的第一页内容,将其以及其相关的商品信息放在网页的首页。
(五)聚类
聚类指的是将具有相同特征的商品归为一类,将特征平均,以形成一个“特征矢量”。聚类技术能够确定一组数据有多少类,并用其中一个聚类来表示其余大多数数据。通常在企业分析访问者类型的时候使用聚类技术。
(六)决策树
决策树描绘的是都想决定在做出的一系列过程中的问题或数据点。比如做出购买电视机这一决定就要经历对于电视机的需求、电视机的品牌、尺寸等等问题,最终确定好买哪一台电视机为止。决策树能够较一个决策过程进行系统的排序,以便选出最优的路径来尽可能减少决策的步骤,提高决定的质量和速度。许多企业将决策树体系添加到自己的产品选择系统中,能够帮助访问者解决特定问题。
(七)估计和预测
估计是对未知量的判断,预测是根据当前的趋势做出将来的判断。估计和预测使用的算法类似。估计能够对客户空白的项目做到预判。如果网站想知道某个访问者的收入,就可以通过与收入密切相关的量估计得到,最后通过与其有相同特征的访问者的收入来衡量这个访问者的收入和信用值。预测是对未来事项的判断。尤其是在某些个性化网页中显得尤为重要。企业通过数据的汇总增进对客户的了解。即使是对以往事件的分析中也可以得到有效的信息。预测能够对访问者的特征作出总结和汇总,以便企业能够找出更有针对性的组合商品来满足客户的需求。Web数据和传统数据库存在着很大的差异,最大特点就是半结构化,加上Web数据的信息量极大,导致整一个数据库成为一个巨大的异构数据库。能够帮助用户在特性是大量、随机、不规则、噪声的信息中发现感兴趣的对象。
数据挖掘论文3
摘要:随着计算机信息网络的快速发展,数据挖掘在软件工程中的地位越来越突出。软件工程数据挖掘是在冗余的数据中发现有用的数据,从而得到更好地利用。社会的发展,科技的进步使得社会进入了网络信息热时代,随之计算机软件也不断增加,人们获取的信息大部分是人手动操作软件获得的,这样的信息量具有一定的局限性。因此,为了满足当今社会的需要,必须借助于软件工程数据挖掘的手段。
关键词:软件工程;数据挖掘;研究现状
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(20xx)26-0020-02
利用数据挖掘技术对大量冗余的数据进行筛选从而得到少量精确的信息。冗余的数据是指既包含有用信息有包含无用信息,利用数据挖掘技术剔除掉多余的无用信息留下有用信息,这样既可以提高手机数据的质量又可以提高工作效率。所以,数据挖掘技术在当前的软件工程中起着越来越重要的作用。数据挖掘技术提取、筛选、分析和整理数据比人工操作软件获得的数据更精确更高效。同时,使用这种技术为软件开发者提供了有利的条件,它可以给软件开发者提供一些对其开发软件有用的信息。软件开发者想要更有效率的开发出更高质量的软件,就必须获得更多的更有用的数据,而想要收集和整理出有用数据就需要借助数据挖掘技术来实现,进而提高工作效率。
1 数据挖掘的基本概述
软件工程数据主要是指开发软件过程中所涉及的各类数据,如需求分析、可行性分析、设计等文档,开发商通信、软件注释、代码、版本、测试用例和结果、使用说明、用户反馈等信息数据,一般情况下其是软件开发者获取软件数据的唯一来源;而数据挖掘是指在海量数据中集中发现有用知识或信息的过程。
软件工程数据挖掘的工作原理 主要包括数据预处理阶段、挖掘阶段以及评估阶段三个方面。在挖掘阶段主要是运用分类、统计、关联、聚类、异常检测等一系列算法的过程。在评估阶段数据挖掘的意义主要在于其结果应易被用户理解,其结果评估主要有两个环节分别是模式过滤和模式表示。
数据挖掘在计算机软件工程中的研究相当多,它是分析数据的一种新颖方式。目前,随着社会工作的复杂度,需要更加完善的软件,因此对于软件代码的数量也在急剧增加进而导致了数据量的快速增长。而传统的数据计算方式已经不能满足目前对于大量数据进行分析的要求,所以,研究者希望能够发掘出一种新的数据分析方式更高效的整理出有用的数据信息。软件开发中会积累大量的数据,比如说文本数据,测试数据,用户信息数据以及用户体验反馈数据等等,软件开发者为了开发出更好的软件就必须分析和整理这些数据。但是,目前软件工程开发的软件越来越大,其数据越累越复杂对于数据的处理已经超出了人工处理的能力的范畴,所以说继续使用传统数据处理的方式来收集,整理和分析数据已经不可能实现。因此,推动了人们对于新的数据处理方式的研究,所以才提出了软件工程数据挖掘技术。
2 软件工程数据挖掘的应用
随着计算机软件工程的发展,可以发现传统的数据挖掘技术具有很多的不足,存在一定的缺陷。传统的数据挖掘技术的定位系统不完善,定位不精确,并没有体现出数据挖掘技术的高性能,它不足以满足当代对于数据处理的要求,因此需要对传统的数据挖掘技术进行改进和完善,这是我们目前的首要任务之一。为了迎合现代化网络信息技术的快速发展,需要发掘出新的数据处理模式,就是在这样的背景条件下,诞生了软件工程数据挖掘技术。相比于存在很多缺陷与不足的传统软件工程而言,软件工程数据挖掘技术更加简单、方便、高效以及精确。软件工程数据挖掘技术并不需要特定的技术平台,体现了其普适性。当前,我国已经开始深入的研究软件工程数据挖掘技术,但是,仍然需要更深的开发其性能以便更好地满足社会的需求。
3 软件工程数据挖掘面临的挑战
软件工程数据相比于普通数据更加复杂,所以对于软件工程数据进行处理具有很大的挑战性。处理软件工程的大量数据具有:软件工程数据复杂性,软件工程的数据处理非传统以及需要严格精确的软件工程数据的分析结果等三方面的困难。
对数据复杂性的分析
软件工程数据包括结构化数据和非结构化数据。软件工程中所产生的缺陷报告以及各种版本信息构成了结构化数据信息;而软件工程处理过程中所产生的代码信息和文本文檔信息构成了非结构化数据信息。由于这两类数据包含的具体内容不同,所以需要分别处理这两种数据,需要使用不同的算法对他们进行处理。虽然说需要不同方式处理这两种数据但是并不表示这两种数据之间没有任何联系,事实上,它们之间存在着重要的对应关系。例如:代码中存在着缺陷报告,版本信息中存在着对应的文档信息,由于它们之间存在着这样的对应关系,所以使得人们不能很好地对其进行整体分析,这就促使了人们开发出一种新的算法,新的数据分析技术能够同时将结构化信息和非结构化信息这两种对应数据一起挖掘出来。
对数据处理非传统的分析
分析和评估软件工程数据挖掘出来的信息,这是数据挖掘过程的最后一步。客户是软件工程数据挖掘数据处理的最后宿体,软件开发者需要对最终挖掘出来的数据进行转变,格式转变是为了满足广大客户对于数据不同的要求。但是,由于需要对数据进行格式转变,相当于增加了一定的工作量,那么软件工程数据挖掘的效率则会被大大降低。对于客户而言,他们需要的信息各种各样并不单一,比如说客户可能会同时需要具体的例子和编程代码等;或者说需要具体例子和缺陷报告等;或者三者皆需要。由此可见,我们仍然需要改进和完善软件工程数据挖掘技术来提高其效率。怎样才能做到让客户得到满意的数据挖掘结果呢?那么就需要高效的数据挖掘技术将各类信息进行归纳总结,改变其格式。这样的技术,不仅仅可以满足客户需求而且还可以使软件开发者从中得到更大的利益。
对数据挖掘结果好坏的评价标准
对于传统的数据挖掘技术而言,它也有一套自己的对于数据结果处理好坏的分析标准,而这个标准对于传统数据挖掘技术数据处理的分析较准确。但是,在当前的软件工程所要处理的数据量很大,传统的评价标准已经不能满足现在的数据分析要求;使用不同的数据结果评价标准来评判不同的数据挖掘结果。然而不同的评价标准之间的`联系并不紧密,因此就需要开发者针对不同的数据类型做出不同的评价分析标准以便满足客户需求。想要对数据分析结果是否准确,数据挖掘的信息是否合理等等这些不同的问题进行更加深刻的了解,就要求开发者有独特的见解,对于数据结果是否精确有一定的判断能力。总之,获取准确的信息就是软件工程数据挖掘的目的。所以,最后获得的数据是否满足要求就是评判软件工程数据挖掘结果是否完美的标准。endprint
4 对软件工程数据挖掘应用进行分析
对软件数据挖掘技术进行分析
在软件开发的过程中,数据挖掘技术包括两个方面:(1)程序编写;(2)程序成果。在这个过程中,程序结构和程序功能技术的主要作用就是检索出有效的信息。提升信息的有效性需要联系到客户的实际需要,同时也需要对程序编写过程进行智能化培训。将调用、重载和多重继承等关系家合起来进行有效的记录各种相关信息,重视静态规则的同时利用递归测试的方式来分配工作,从而更有效的掌握关联度之间的可信性。
做好软件维护中的软件工程数据挖掘工作
在软件维护的过程中,软件修复和软件改善工作依赖于数据挖掘技术。数据挖掘技术在软件缺陷以及软件结构等也起到了重要的作用。软件修复即维护者通过依据缺陷分派进行有效的评估并改善缺陷程序进而确定修复级别或者维护者可以选择缺陷修复方式,无论哪种方式最终目的都是进行软件修复来保证数据挖掘的高效性。缺陷分派即将缺陷转化为文本类型,采取有效措施来进行修复。但是,这样的方式它的实际准确率并不高,因而需要利用强化检测来完善缺陷报告技术。
注重高性能数据挖掘技术开发工作
数据挖掘技术体现在软件开发工作中的创新性不可或缺,在实际的工作过程中,目前的软件工程数据挖掘更加重视两个工作:(1)规则分析方式;(2)项目检索工作。总而言之,想要高效快速地寻找病毒,并对其进行全方位分析和评估得到准确的病毒数据需要高性能数据挖掘技术。只有提升数据分析的可行性,提升软件开发安全性能,才能更好地实现软件工程的良好发展。
5 总结
综上所述,數据挖掘技术的应用非常广泛,比如说分析代码、软件故障检测以及软件项目管理等三个方面应用较多。值得关注的是,当前对于数据挖掘技术的研究还不够成熟。因此,研究者需要对软件工程数据挖掘技术进行深入的研究,从而能够促进软件更好地开发和管理。相信在不久的将来,我们一定可以在数据挖掘方面取得非常好的优化效果。
参考文献:
[1] 江义晟。软件工程数据挖掘研究进展[J].电子技术与软件工程,20xx(22).
[2] 胡金萍。探析软件工程数据挖掘研究进展[J].电脑知识与技术,20xx(34).
[3] 马保平。关于对软件工程中的数据挖掘技术的探讨[J].电子技术与软件工程,20xx(19).
[4] 徐琳,王宁。数据挖掘技术在软件工程中的应用分析[J].数字通信世界,20xx(8).
数据挖掘论文4
1、大数据概述
大数据用来描述和定义信息爆炸时代所产生的海量数据,它是计算机和互联网互相结合的产物,计算机实现了信息的数字化,互联网实现了信息的网络共享化。随之兴起的则是从海量数据中挖掘预测出对人类行为有效的方法和结果,即数据挖掘技术[1]。数据挖掘(Datamining)指从大量的数据中通过算法搜索隐藏于其中的信息的过程,是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示[2]。
2、大数据时代下的高校机房现状
顺应时代潮流的发展,各高校都开设有计算机专业,非计算机专业也在大一或大二时期开设公共计算机课程,计算机成为教育领域内不可或缺的教学设备,随着高校的进一步扩招,教育事业的不断更新发展,学校的机房建设也随之增多,其任务由原来的面向计算机专业发展到面向全校的所有专业开设公共计算机教学、承担各种计算机考试等多项任务。因此机房管理系统在日常教学和考试任务中积累了海量数据,一般这些数据都保存在主服务器上仅供查询使用[3]。利用数据挖掘技术,对学校机房信息管理系统所积累的大量学生上机数据进行深入分析与挖掘,将挖掘得到的预测结果辅助学生成绩管理决策,能合理利用机房资源,提高学生成绩管理质量。本文利用关联规则,从现有的机房信息管理系统中收集到的海量学生上机记录数据中挖掘出隐藏在数据中的。学生上机规律和上机效率,进而预测学生的期末考试成绩,提前告知,学生可以在随后的学习中通过人为干预学习过程:比如挖掘预测出某生成绩将会较差,则可以在其后的学习中调整学习方式和学习态度,以修正期末考试结果,提高学习效率和考试通过率,为以后的就业做好铺垫,因此不管是对于当前利益还是长远利益,都有深远的意义。
3、数据挖掘阶段
1)定义问题:明确数据挖掘的预期目标。本次挖掘目标旨在从海量机房学生登录信息中找出能预测成绩的相关规则。
2)数据准备:提取数据挖掘的目标数据集,并进行预处理[4]。本次挖掘数据对象为吉首大学设备中心六楼公共计算机机房的学生上机信息表,并检查数据的有效性、一致性、完整性,并去除噪声,进行预处理。
3)数据挖掘:根据上个步骤所提取数据的特点和类型选择相应合适的算法,并在预处理过的数据集上进行数据挖掘。根据问题定义,本次选择关联规则算法Apriori算法,进行关联规则发现并预测。
4)分析挖掘结果:解释评价数据挖掘的结果,并将其转换成能被用户所理解的规则。
5)运用规则:通过分析挖掘结果,可以适当进行人工干预,修正学习行为,使得最终结果达到理想学习效率。
4、数据挖掘在机房管理系统中的应用
关联规则算法
Apriori算法采用逐层搜索的迭代方法,不需要复杂的理论推导,易于实现,是利用挖掘布尔关联规则频繁项集的一种算法。基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来[5]。
关联结果分析
以吉首大学实验室与设备管理中心为例,吉首大学实验室与设备管理中心下设置的公共计算机实验教学中心,负责学校公共计算机实验室建设与管理,组织实施公共计算机实验教学与开放,完成基于计算机平台进行的计算机等级考试、普通话测试、各类社会化考试等测试工作。其中承担公共计算机教学的机房共有7间,每个机房平均配置95台学生用计算机和一台教师教学用计算机,每台电脑上都安装有奥易机房管理软件,学生每次上机都必须通过奥易软件登录界面输入自己的学号和密码才能进入系统使用计算机,从而收集到学生的上机登录时间、离开时间,教师端可以利用奥易软件对任意学生电脑端进行调换、抓屏、控制屏幕、考试、答疑等操作,所有数据存储在机房管理端的后台数据库中,通过调用后台数据库中的学生上机情况数据,进行挖掘分析。由于数据量庞大,所以采用从起始顺序抽样的方法,抽取出20xx年11月5日的部分学生上机的相关数据,去除不完整、不一致、有缺失的数据,进行预处理,为达到预测挖掘目标提供正确的数据源。表1中的数据前六列是从奥易软件后台数据库中提取到的原始数据,我们设置第二、三、五列数据与学习情况有关联。将这些数据存在于整合表中,剔除学号异常的记录,即只要是学号异常,强制设定其上机情况为较差(异常学号学生,应为重修生,是学习重点关注对象),为了方便系统分析,将关联整合后的数据转化为布尔类型。登录时间:S1:10:00;S2:迟到五分钟;S3:迟到十分钟;S4:迟到十分钟以上。学号:N1:正常学号;N2:异常学号。下课时间:E1:正常下课时间;E2:提前五分钟下课;E3:提前五至十分钟下课;E4:提前十分钟以上下课。利用关联算法产生频繁项集情况分析Q:Q1:优秀;Q2:良好;Q3:一般;Q4:较差。利用Apriori算法挖掘关联规则,可以得到学生上机情况规律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4评价结果:按照正常上课时间上机并且坚持不早退的同学学习情况为优秀;上课准时但是提前五分钟之内下课的同学学习情况为良好;上课迟到五分钟以内且下课也提前五分钟的同学学习情况为一般;上课迟到十分钟以上并且下课早退十分钟以上的同学学习评估为较差。如果利用关联算法得出某个学生的学习情况有三次为较差,就启动成绩预警,提示并干预该生以后的上机学习,督促其学习态度,提高学习效率,以避免期末考试挂科现象。
5、结束语
借数据挖掘促进治理主体多元化[6],借关联分析实现决策科学化[7].,本文利用关联规则思路和算法,将吉首大学设备中心机房中存在的大量学生上机情况数据进行分析挖掘,尝试从学生上机相关数据中预测其学习情况,并根据预测结果有效提示学生的期末考试成绩走向,引导该生在随后的学习应该更加有效,以达到避免出现最坏结果,从而提高期末考试通过率。
参考文献:
[1]李涛,曾春秋,周武柏,等。大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,20xx(4):57-80.
[2]王梦雪。数据挖掘综述[J].软件导刊,20xx(10):135-137.
[3]袁露,王映龙,杨珺。关于高校计算机机房管理与维护的探讨[J].电脑知识与技术,20xx(18):4334-4335.
[4]李明江,唐颖,周力军。数据挖掘技术及应用[J].中国新通信,20xx(22):66-67+74.
[5]胡文瑜,孙志挥,吴英杰。数据挖掘取样方法研究[J].计算机研究与发展,20xx(1):45-54.
[6]黄梦桥,李杰。因素挖掘法在投资学课程中的教学实践[J].吉首大学学报:自然科学版,20xx(4):80-83.
[7]尹鹏飞,欧云。基于决策树算法的银行客户分类模型[J].吉首大学学报:自然科学版,20xx(5):29-32.