基于weka的数据挖掘技术在银行借贷需求分析中的应用

来源:网络 时间:2022-03-19

  摘要:数据挖掘就是通过分析存在于数据库里的数据来解决问题 在数据挖掘中计算机以电子化的形式存储数据并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式进而挖掘出潜在的有用的信息。本文用WEKA软件作为工具结合某银行实例数据对借贷需求的数据进行分析。
  关键词:数据挖掘 关联规则 回归 聚类 weka一、引言
  数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。在人工智能领域,习惯上又把数据挖掘称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。
  二、数据挖掘算法简介
  1.Apriori算法简介
  Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的选代方法,k-项集用于探索(k+1)-项集。首先,找出频繁i-项集的集合,该集合记作L1 。L1用于找频繁2-项集的集合L2而L2用于找L 3 ,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
  2.ID3决策树算法
  ID3 决策树算法是 J.Ross Quinlan 1986年提出的该算法引入熵来标识信息的不确定性,熵值越小,系统越有序,反之则越无序.ID3算法中使用信息熵来度量对数据集进行划分所需要的信息量,算法选择信息增益最大的属性作为分裂属性,自顶向下递归地构建决策树,直到所有实例都属于同一个类,没有更多的属性用来产生划分,则采用多数表决产生叶子节点.由于该算法是自顶向下的贪心算法, 所以不能保证全局最优.
  三、基于weka的实验
  1.基于分类的预测
  选择Preprocess选项中的open file选项把我们的训练数据集导入weka中选择“trees”下的“J48”,这就是我们需要的ID3算法,它没有变灰色,表示当前数据集可用该算法进行挖掘。点“Start”按钮开始让算法生成决策树模型。用文本表示的一棵决策树中可以看出孩子属性重要性最高离根节点最近,在后续子树的构造中,由于设置了剪枝阈值,当划分中类值对应实例个数所占比例超过剪枝阈值,则直接返回该类值所对应的类标号,所以sex属性没有出现在决策树中树的分类精度虽然略有下降,但决策树更加简洁,树的深度及叶子节点的数目都相应减少,符合最优决策树的要求。也就是说有孩子的贷款的可能性就大一些,没有孩子的贷款的可能性就小一些。这个矩阵是说,原本“pep”是“YES”的实例,有99个被正确的预测为“YES”,有39个错误的预测成了“NO”;原本“pep”是“NO”的实例,有18个被错误的预测为“YES”,有144个正确的预测成了“NO”。99+39+18+144=300是实例总数,而(99+144)/300=0.81正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。
  2.基于Apriori算法的实验
  在Apriori算法中我们来验证孩子属性和贷款可能性之间的关联规则,首先需要对数据进行相应的处理,把原始数据中的属性列除了孩子属性和可能性属性外都删除。切换到“Associate”选项卡,点击“Choose”按钮后选择“Apriori”参数设置从第二个开始依次表示的意思:c-1-类索引为-1输出项集设为真,D 0.05-递减迭代值为0.05,M 0.1-最小支持度下届设为0.1, T 0?C度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度),C 0.9?C度量的最小值为0.9,N 10 -规则数为10,I-输出项集,若设为false则该值缺省,S-1.0-重要程度为-1.0,U1.0-最小支持度上界为1.0。从上表的分析可以看出来有孩子并且有贷款需求可能的是93条记录,有孩子没有贷款需求的记录是78条,而且最佳关联规则结果集中是空的,这个说明贷款需求的可能性跟有没有孩子并不一定存在着一定的关系。
  四、总结
  数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。
  参考文献:
  [1]Stephen Haag,Maeve Cummings,James Dawkins.Management Information Systems for the Information[J] Age.McGraw-Hill.Companies, Inc: 1998
  [2]毛国君等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
  [3]陈文伟等.数据挖掘技术[M].北京:北京工业大学出版社,2002

网站声明 | 联系我们 | 代写价格 | 常见问题 CopyRight@2008 - 2022 左翼论文中心 本站所有的文章都是来自网络,并不是我们写作的文章,属于免费文章,只供游客观看,并不用于出售。

毕业论文写作 硕士毕业论文写作 毕业论文写作 学位论文写作 定制论文 硕士论文指导 硕士毕业论文写作 如何写论文 本科专科论文写作 毕业论文写作网 毕业论文写作 文章写作 医学职称论文写作 毕业论文写作 定做毕业论文