计算机毕业论文,毕业论文,毕业设计 毕业论文免费检测 知网论文检测

基于RFID的购物数据挖掘推荐系统研究与设计 毕业设计(论文)开

时间:2013-11-20 10:24来源: 骆驼毕业论文网 作者:编辑部
SHANGHAI JIAO TONG UNIVERSITY 本科生毕业设计(论文)开题报告 论文题目: 基于RFID的购物数据挖掘推荐系统研究与设计 学生姓名: 杨凯翔 学生学号: 专 业: 软件工程 指导教师: 学院 (系): 软件学院 教务处制表 填表说明 1.根据《上海交通大学关于本科生毕

QQ交谈计算机毕业设计,毕业设计,毕业论文,计算机毕业论文

 
SHANGHAI JIAO TONG UNIVERSITY

本科生毕业设计(论文)开题报告

 

 

论文题目:  基于RFID的购物数据挖掘推荐系统研究与设计
学生姓名:         杨凯翔       
学生学号:       
专    业:        软件工程     
指导教师:           
学院 (系):       软件学院     
教务处制表


填表说明

1. 根据《上海交通大学关于本科生毕业设计(论文)工作的若干规定》要求,每位学生必须认真撰写《毕业设计(论文)开题报告》。
2. 每位学生应在指导教师的指导下认真、实事求是地填写各项内容。文字表达要明确、严谨,语句通顺,条理清晰。外来语要同时用原文和中文表达,第一次出现的缩写词,须注出全称。
3. 开题前,须进行文献查阅,要求与论文研究有关的主要参考文献阅读数量不少于10篇,其中外文资料应占一定比例。参考文献的书写请参照《上海交通大学本科生毕业设计(论文)撰写规范》。
4. 毕业设计(论文)开题报告总字数应满足本院(系)要求。
5. 请用宋体小四号字体填写,并用A4纸打印,于左侧装订成册。
6. 该表填写完毕后,须请指导教师审核,并签署意见。
7. 《上海交通大学本科生毕业设计(论文)开题报告》将作为答辩资格审查的主要材料之一。
8. 本表格不够可自行扩页。  

 


 

毕业设计(论文)开题报告
论文题目 基于RFID的购物数据挖掘推荐系统研究与设计
课题来源  课题性质  项目编号 
课题研究目的和意义(含国内外研究现状综述):

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。
其实这些经典的数据挖掘的算法各有优缺点。比如:C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。所以说对于不同的情况,我们要使用不同的算法,但是究竟哪种算法适合什么情境,显然现在还没有一个定论。对于商场购物数据的挖掘,我们一定要选取相对更有的算法才能使得研究人员准确、高效地挖掘出数据的隐藏信息。
在挖掘出了数据隐藏信息以后,怎样很好地利用这些信息也是现今社会需要关注的问题。不过现在一些商家对于客户的购买数据(频度、消费金额等)的挖掘结果处理得还是很到位的。一些商家会使用一些建模工具对所得到的数据进行建模分析,然后对客户进行等级的细分,然后依据这些细分的结果对不同级别的客户进行有针对性地实施不同的政策,比如:当一个客户是购买频率很高,购买金额很高,那这样的客户商家是需要极力保持的,所以对于这样的客户,商家需要做出相应地优惠政策,比如年底做出积分赠品等回馈政策。

课题研究内容:

在此次毕业设计中,我打算集中做如下两方面的研究:
第一:对大悦城的客户的RFID标签的数据以及对大悦城店铺、商品以及客户商业数据分类和分析并且在原有系统的基础上对多种数据挖掘算法进行分析比较,以甄选出适合此系统的最优算法。打算分析的算法主要集中在几种成熟的数据挖掘的算法:C4.5算法、K-Means算法、Apriori算法。
分类主要集中在以下4种个体进行:
1、RFID数据:主要研究客户到店的方位以及频度以分析客户的潜在需求。
2、店铺:主要分析店铺的商品销售额。
3、商品:主要分析商品之间的关联度。
4、消费者信息:对消费者的消费特征,包括消费者的年龄、学历、地区、薪水以及优选楼层进行分类。

第二:通过在此系统中构建RFM模型(最近消费Recency、消费频率Frequency、消费金额模型Monetary)进行客户细分,客户等级分类,Customer Level Value得分排序等(主要采用Kohonen、K-means和Two-step算法进行聚类)以对商家进行推荐分析并提出相应的建议,从而实现增加销量的目的。
 

研究方法和研究思路(技术路线):

一.分类时所采用和比较的几种算法及模型:
1. C4.5
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。

3. The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
 
4. Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

当然,这些算法都是各有优缺点,甚至也有可能最终产生的结果都不令人满意,所以此时需要找出相对较优的算法。

二.对商家推荐:
(RFM模型部分我打算参照http://shenhaolaoshi.blog.sohu.com/178101622.html
http://www.kuqin.com/datawarehouse/20120123/317555.html
的思想做)

对于RFM模型中的R、F、M(Recency. Frequency, Monetary)三个字段进行聚类分析,聚类分析主要采用:Kohonen、K-means和Two-step算法。对RFM各变量的指标权重问题,Hughes,Arthur认为RFM在衡量一个问题上的权重是一致的,因而并没有给予不同的划分。而Stone,Bob通过对信用卡的实证分析,认为各个指标的权重并不相同,应该给予频度最高,近度次之,值度最低的权重;
这里我们采用加权方法:WR=2 WF=3 WM=5的简单加权法;具体选择哪种聚类方法和聚类数需要反复测试和评估,同时也要比较三种方法哪种方式更理想。

预期研究结果:(可选填)

预期会实现一个完整的系统。该系统首先会对大量的已有的真实的大悦城消费数据进行不同属性的(RFID数据、店铺、商品、消费者信息)按照不同的算法进行挖掘分类然后系统输出多个算法的分类结果并且对不同结果进行比较。

同时,系统会通过所构建好的RFM模型对客户进行等级细分。然后并对商家进行推荐。
 

计划进度安排:


2012年:
11月15日到12月15日:阅读文献以确定毕业设计选题以及分析当今所做内容的现状。
12月16日到12月25日:撰写开题报告。

2013年:
1月1日到3月15日:通过读论文以及上网深入研究技术(包括要用到的算法以及开发的软件技术)。

3月18日到4月19日:进行编码、算法以及其他功能的实现。并对系统进行测试以及对测试结果进行深入分析

4月22日到5月15日:撰写毕业设计论文。

 

参考文献:

[1] 李敬社, 张小木. 数据挖掘技术的方法和最新进展[R]. 西安:西安电子科技大学, 2011.

[2] 冯馨. 数据挖掘的现状与未来发展[J]. 电脑知识与技术, 2012(14).

[3] 冯震东. Web数据挖掘的研究现状及发展[J]. 经营管理者, 2010(14).

[4] J.Han. Data Mining: Concepts and Techniques[R]. 2000

[5] Ratner B. Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data[M]. CRC Press/Taylor & Francis, 2011, 2011.

[6] JiongYang, WeiWang, SYu P. Discovering High-Order Periodic Patterns[R]. UIUC: 2003

[8] D. H. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2(2), 1987.

[8] J. Han, Y. Cai, and N. Cercone. Knowledge discovery in databases: An attribute oriented approach. In Proc. of the VLDB Conference, Vancouver, British Columbia, Canada, 1992.

[9] 周爱华. 决策树技术在实验室评估中的应用研究[D]. 中国石油大学, 2011.

[10] 沈浩. RFM模型分析与客户细分[R]. 搜狐博客, 2012.


指导教师意见(课题难度是否适中、工作量是否饱满、进度安排是否合理、工作条件是否具备、是否同意开题等):

 

 

 

 

 

 

 

 

 

                                     指导教师签名:               
                                              年    月    日
学院(系)意见:
              

 

 

审查结果: □  同 意    □  不 同 意


                             学院(系)负责人签名:             

                                                  年    月    日

 

本文内容只是论文部分简介,如需了解更多详情请咨询本站客服! QQ交谈计算机毕业设计,毕业设计,工程硕士论文,计算机毕业论文
毕业论文搜集整理:毕业论文网 计算机毕业设计 计算机毕业论文 毕业设计


顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
计算机毕业设计
计算机毕业论文
论文发表