俗话说,忘记历史就是背叛自己,今天这篇用此做开场再合适不过。
这一篇将根据一个虚拟的故事,来介绍如何通过历史数据来帮助一个销售人员发现规律信息从而辅助他来做一些决策信息。
本文的主角是Tim,Tim在一个销售部门,部门最近决定做新一轮销售计划,然后根据计划结束时,各个销售人员的销售业绩来进行KPI考核。
Tim的部门在确定了销售任务后,其它人很快的投入到店面的销售工作中去,而Tim则跑到了公司的IT维护部门,向IT 部门要了一份历史的客户数据。
此时已经有人在责怪Tim,说你一个销售不去外面跑业务,怎么跑到IT部门"不务正业"来了,而且,专门要以前的客户数据,居然不去不关心新客户。
其实,Tim还有一个搞IT的朋友,James,他是一位数据分析师,在零售行业也有一定的经验。Tim的第一个想法就是找 James给些建议。
平时两个人聊天的过程中,James给Tim讲了无数多次关于商业智能的知识。虽然Tim是搞销售的,但是受到James的经常灌输,自己对里面的知识也有了一些印象,比如,数据挖掘,当然这个概念对于搞销售的Tim来说简直就是天书,正所谓隔行如隔山,但是有一点他非常理解,那么就是:从数据到信息,也就是说,从数据中获取信息。
于是,销售任务一开始,Tim就跑到了IT部门要了这样一份数据,来看看James到底能从这里头得到什么样的信息,从而能帮助Tim更准确的知道因该给什么样的人推荐产品才比较靠谱。
James拿到Tim的数据之后,大概的浏览了一下:
数据的具体结构如下:
从这份数据中,James看到,里面包含了客户的性别,婚姻状况,年收入以及家庭相关的和教育等基本信息。其中最后一列关键信息,就是客户是否购买过产品。如果购买过就记为1,否则就记为0。
James拿过来这个Excel文件,首先做了一个关键影响因素分析。
根据这个工具,首先指定关注的列,就是客户是否购买了产品的标记:
这里选择BikeBuyer。
然后再点击Choose Columns to be used for analysis。
这里,James根据经验指定了需要分析的列。很明显,DataFirstPPurchase是没什么用的,James果断把这列剔除掉以免影响到分析的准确性。
然后系统会根据James的设置自动处理这些历史数据。
处理完毕后,系统生成了一份报告:
于是,James给Tim发了一封邮件:
Dear Tim,
我分析了你提供给我的数据,并且从数据里得到几点规则。
首先,关注没有车,有一个小孩,以及来自Pacific,还有平时上班路程不是太远的用户,他们很有可能是你的潜在客户。
此外,对于有两台车的客户,就不要去推荐了,从你们的业务记录来看这类客户购买产品的可能性实在不大。
还有小孩数量比较多,上班距离太远,超过65岁的成为你客户的可能性也很小。
以上。
Best wishes!
James.
某年某月某日
Tim收到这封邮件之后非常高兴,因为这样一下子就可以让他判断出一个新客户是否会购买产品,从而不会在本身就不会有购买需求这类客户身上花费太多时间,这样就能把精力投入到更多的目标客户中去。
不过很快,Tim又有了一个问题,就是单凭这样的判断太笼统,容易丢失部分极特殊的客户,所以Tim希望能自己根据客户的情况做更详细的判断。
收到Tim的这个请求之后,James在Excel中建立了一个挖掘计算器。
首先,点击预测计算工具。
在工具中设置需要预测的列。
点击Run,Excel通过SQL Server的分析服务开始处理数据。
数据处理完毕后,在Excel中生成了几张报告:
在第一份报告中,James得到了列表,里面标识了每个属性对一个未知客户会购买产品的影响程度。
在另外一份报告中,根据这份分析数据,包含一个动态的操作表格。
每一个属性的值都变成了一个下拉列表,各个属性的Impact影响值加在一起最后得出一个分数,这个分数如果达到一定的高度,那么就表明这个客户很有可能会购买产品。
于是,James把这个Excel文件发给了Tim,这样Tim就可以根据收集到的客户信息对应选择里面的项,然后通过计算知道用户是否是潜在客户。
这个文件帮了Tim不少的忙,也准确的识别了一些客户。但Tim也往往抱怨,在出去跑业务的过程中,电脑不是总带在身边,所以往往很难及时的做出判断。
James知道Tim的这个烦恼后,告诉他,你把第三份分析报告中的表格打印出来就可以了。
这个表格把每个属性的值都列了出来,并且它们对应的分数也在后面。Tim打印出来后,可以自己手动在上面做计算。
算好总分后,对比下面的分数,也就是说分数最起码要达到601才有可能是一个潜在客户。
于是,对于IT系统的操作不是很熟悉的Tim就可以每次对着这个单子来对新客户作出潜在客户的判断。
在这个故事里,James并没有用到什么太复杂的数据,通篇他只在用一个软件,就是Excel,Excel从2007版本开始通过SQL Server的功能扩充可以实现简单的数据挖掘功能,它通过SQL Server Analysis Services分析服务来生成临时的挖掘模型,通过样本数据以及挖掘模型和算法来发现数据中存在的一些规律,相关性等信息。
通过Excel对SQL Server数据挖掘功能的封装,使得用户即使不清楚数据挖掘的具体算法也可以实现数据挖掘的功能从而做挖掘预测分析来辅助决策,甚至都不需要用户了解什么样的挖掘模型算法适合解决什么样的问题,只需要关注Excel里所带的表分析工具就可以做简单的预测分析。
总之,数据挖掘,不是已不是数据分析师们的专属,有了Excel,你也可以。
在Excel中的使用数据挖掘,需要下载SQL Server Data Mining Tools Add-ins for Office。
其中Office 2010对应版本的下载页面是:
http://www.microsoft.com/en-us/download/details.aspx?id=29061
分别有对用不同的语言版本和x86和x64版本。
此外可以查看微软官方的Excel数据挖掘视频,虽然是英文版,但是有中文字幕:
http://msdn.microsoft.com/zh-cn/library/dd299412(v=sql.100).aspx
同时,针对购物篮这一应用场景,有我的另外一篇随笔:
使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能
http://www.cnblogs.com/aspnetx/archive/2013/02/25/2931603.html
这个系列中的前三篇用SQL Server Analysis Services到前端应用详细的介绍了如何实现一个商品推荐功能。
后两篇就是在Excel中如何实现这个推荐功能。
分享到:
相关推荐
信息素养与数据化决策作文.docx信息素养与数据化决策作文.docx
煤矿安全数据的深层次挖掘和分析对提高煤矿事故预警能力与安全管理决策水平至关重要,根据我国煤矿信息化水平和安全管理特点,分析了煤矿安全数据分析与辅助决策云平台的功能需求,确定了煤矿事故综合分析、煤矿生产...
1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12...
4.3 编程实现基于信息熵进行划分选择的决策树算法,并为西瓜数据集3.0中的数据生成一颗决策树。 4.4 编程实现基于基尼指数进行划分选择的决策树算法,为西瓜数据集2.0生成预剪枝、后剪枝决策树,并与未剪枝决策树...
为此学校教务决策者需要新的技术来弥补原有数据库系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从操作数据中提取有用的信息,帮助他们在教务管理和发展上作出即时、正确的判断。基于数据仓库的决策...
机器学习决策树算法中特征选项的算法实现——信息熵 首先我们将信息熵的定义进行阐述: 熵经验熵 我们这里以网上数据贷款申请为例:数据来自(https://blog.csdn.net/c406495762/article/details/75663451) 在...
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
该论文具体阐述了数据挖掘中的决策树算法在成绩分析中的应用,帮助观察成绩的总体情况以及成绩的分类等
基于大数据时代下的数据信息呈现出爆炸式增长的态势,在此过程中,各个产业的企业也都逐渐认识到了数据的应用优势,现阶段,数据的多元化已经远远超出了传统数据库和人工处理的容量,与此同时,计算机的性能语法强大...
在“表格统计”选项卡中以列表形式显示数据,在工具栏中提供了更改表题、导出数据表到Excel表格、保存数据表以及可能生成的统计图为PDF格式的文件和改变表格固定列数量的功能。在“图形分析”选项卡中,通过修改工具...
被广泛用于各种企事业单位的信息管理和决策支持活动,但DSS也有部分收集、处理、传递信息的功能:MIS则主要完成例行的日常信息处理任务,但它也能通过提供信息和数据支持人们的决策活动。两者部分功能交叉。那么,...
决策树一般采用贪心策略**自顶向下**递归的分治方式构造,从训练元组集和与之相关联的类标号开始,随着树的构建,训练集递归地划分成较小的子集。构造过程大致如下: 1. 构造**根结点**,根据**属性选择度量**...
决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,易于理解、精度较高,特别适合大规模的数据处理,在知识发现...
对于正确率相同的节点,选取优先遍历的属性作为根节点,与基于信息增益进行划分选择的方法相比,可知两种方法绘制的决策树正确率均为100%,但对率回归方法容易忽略在同一正确率下划分较佳的节点,从而使决策树层数...
智慧校园大数据决策平台方案---校园大数据分析应用平台建设方案 智慧校园是指以人工智能、大数据、云计算和物联网为基础的智慧化校园工作、学习和生活一体化环境。 它将管理、服务、教学、科研等全域大数据汇聚、...
论文研究-不完全信息下非常规突发事件应急决策缺失数据处理模型.pdf, 针对层次分析法和网络分析法在"情景-应对"型非常规突发事件应急决策中应用时, 由于决策时间的紧迫...
针对传统电力数据信息管理系统在面对电网调度运行业务的信息化建设与电网运行过程中产生的大量业务数据与实时运行数据只能进行增删查改,无法挖掘、分析和利用隐含在数据之下的深层关系与知识等问题,文中研究和设计...
以下数据集是经过确认的西瓜属性,请根据这些信息,利用决策树方法判定另外一批西瓜的质量。 1.学习有关决策树的相关知识 2.构建每个属性的信息增益,并写入到文件Gain.txt中 3.绘制决策树,保存成文件, Decision_...
C4.5决策树是对ID3决策树的改进。ID3决策树以息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题...首先能够通过ID3决策树上述提到的算法计算出数据集的信息增益,得到信息增益后再计算信息增益比。
使用ChatGPT进行数据分析和营销决策支持,可以从以下几个方面入手: 1. 数据收集和清洗:首先,需要收集大量的数据,包括用户行为数据、销售数据、竞争数据等。然后,对收集到的数据进行清洗和过滤,去除无效数据和...