1. excel做决策树
excel不可以作为数据库。execl与数据库是不同的软件,两者没有可比性。
excel是电子表格,其特点是可视性强、操作简单。excel不需编程就能制作相对复杂的表格,适合不会编程的大多数人群。
数据库是按照数据结构来组织、存储和管理数据的仓库。在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。
2. Excel决策树
1.其实可以用TreePlan 是一款EXCEL上的插件。有了它就可以非常轻松的利用决策树做决策(完全不用懂计算和原理)。
2.TreePlan 不需要安装。直接双击打开就行。发现菜单栏“加载项”下多了一个菜单命令。点击“Decision Tree”,生成一颗新树。
3.选中节点,添加分支。默认只有2支,因此你还需要添加2个分支。并且在单元格内输入对应的文字。
3. 适合做决策树的数据
决策树算法的最大深度,也就是其max_depth参数,代表了决策树的复杂程度,即上述例子中做出问题判断的数量,问题判断数量越多,就代表决策树的深度越深,这个模型的计算也越复杂。
max_depth:决策树最大深度,决策树模型先对所有数据集进行切分,再在子数据集上继续循环这个切分过程,max_depth可以理解成用来限制这个循环次数。
4. excel决策树加载项
材料/工具:Excel2007
1、首先我们打开我们电脑上面的excel,然后我们点击左上角的office按钮;
2、弹出的界面,我们点击excel选项;
3、弹出的界面,我们点击加载项;
4、弹出的界面,我们点击管理边上的下拉箭头;
5、弹出的界面,我们点击禁用项目;
6、之后我们点击转到;
7、弹出的界面,此处我们可以看到没有禁用项目,如果有的话,我们选中禁用的项目,然后我们点击启用就可以了。
5. 决策树 例子
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。这里通过一个简单的例子来说明决策树的构成思路:
给出如下的一组数据,一共有十个样本(学生数量),每个样本有分数,出勤率,回答问题次数,作业提交率四个属性,最后判断这些学生是否是好学生。最后一列给出了人工分类结果。
6. 决策树和决策表的例子
在所有的黑盒测试方法中,基于决策表(也称判定表)的测试是最为严格、最具有逻辑性的测试方法。
决策表的概念:决策表是分析和表达多逻辑条件下执行不同操作的情况的工具。
决策表的优点:能够将复杂的问题按照各种可能的情况全部列举出来,简明并避免遗漏。因此,利用决策表能够设计出完整的测试用例集合。
在一些数据处理问题当中,某些操作的实施依赖于多个逻辑条件的组合,即:针对不同逻辑条件的组合值,分别执行不同的操作。决策表很适合于处理这类问题。
7. 如何做决策树
如何利用R软件建立决策树模型
1、根据Age、Number、Start三个变量对kyphosis进行分类。
#程序包
library(rpart)
library(rpart.plot)
library(rattle)
#数据
data(kyphosis)
head(kyphosis)
2、定义参数并建立模型。
#参数
control <- rpart.control(minsplit=10,
minbucket=5,
xval=10,cp=0.1)
#决策树模型
model<- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis,
method="class",control=control,
parms = list(prior = c(0.6,0.4), split = "information"))
3、查看模型结果。summary可以查看模型的详细过程。
summary(model)
asRules(model)
4、绘制决策树图。可以从图中看到每一类的观测数及占总数的比例。
fancyRpartPlot(model)
5、查看交叉验证结果,并绘图。
model$cptable
plotcp(model)
grid()
可以看到结果中有交叉验证的估计误差(“xerror”),以及标准误差(“xstd”),平均相对误差=xerror±xstd 。
6、根据交叉验证结果,找出估计误差最小时的cp值,并重新建立模型。
#选择交叉验证的估计误差最小时对应的cp
xerr <-model$cptable[,"xerror"]
minxerr <- which.min(xerr)
mincp <-model$cptable[minxerr, "CP"]
#新模型
model.prune <- prune(model,cp=mincp)
fancyRpartPlot(model.prune)
扩展资料
决策树算法中,会对数据特征不断提问,然后根据每次回答逐步对数据进行分类。
节点(Node)的分类:节点分为根节点(Root Node)与叶节点(Leaf Node)。其中根节点位于决策树最顶部,它是分类的起始点,位于最底端且没有子节点的节点成为叶节点。
在决策树中,对各节点提问题,并根据回答对节点进行分叉,从而实现分类数据的目的。‘不纯度’(impurity)用作评估数据分离程度的标准,将一个节点数据划分为2个子节点时,最好的提问能够使子节点的不纯度降至最低。
节点中含有的分类越多,不纯度越高。反之,只有一个分类的时候,不纯度最低。
原文链接:https://blog.csdn.net/RH_Wang/java/article/details/81703151
8. excel 树
每一个Excel中的电子工作表可以有多个SHEET,每一个SHEET是二维结构。答案选B.二维结构
9. 如何在excel建立决策树
表格批量数值如何设置超出范围变色方法如下
可以用条件格式来实现。方法如下(假设>80为浅蓝,<50为橙色):
(1)选中数据的区域,点击开始选项卡,点击条件格式中的新建规则;
(2)点击新建规则;
(3)点击“使用公式去顶要设置格式的单元格”,在“为符合此公式的值设置格式”中输入=$B2>80,点击下方的“格式”;
(4)点击填充,选择浅蓝色,点击确定;
(5)点击应用后,>80的数据底色就变成浅蓝色了;
(6)同样的方法设置<50的数据底色变为橙色;
(7)点击确定即可设置不在50~80范围的数据变色。
Excel 是 Microsoft Office system 中的电子表格程序。您可以使用 Excel 创建工作簿(电子表格集合)并设置工作簿格式,以便分析数据和做出更明智的业务决策。特别是,您可以使用 Excel 跟踪数据,生成数据分析模型,编写公式以对数据进行计算,以多种方式透视数据,并以各种具有专业外观的图表来显示数据。简而言之:Excel是用来更方便处理数据的办公软件。
10. 决策树函数
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。条件概率可以用决策树进行计算。条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。
如果事件 B 的概率 P(B) > 0,那么 Q(A) = P(A | B) 在所有事件 A 上所定义的函数 Q 就是概率测度。 如果 P(B) = 0,P(A | B) 没有定义。 条件概率可以用决策树进行计算。
11. excel怎么做决策树
分析数据有两种,
1列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
这个要看你分析什么数据。
分析大数据,R语言和Linux系统比较有帮助,运用到的方法原理可以翻翻大学的统计学,不需要完全理解,重在应用。
分析简单数据,Excel就可以了。Excel本意就是智能,功能很强,容易上手。我没有见过有人说自己精通Excel的,最多是熟悉Excel。Excel的函数可以帮助你处理大部分数据。
一、掌握基础、更新知识。
基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识),多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。
数据库查询—sql
数据分析师在计算机的层面的技能要求较低,主要是会sql,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些sql技巧、新的函数,对你工作效率的提高是很有帮助的。
统计知识与数据挖掘
你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?
行业知识
如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。
一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业,在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于a部门来说,本月新会员有10万,10万好还是不好呢?先问问上面的这个问题:
对于a部门,
1、新会员的统计口径是什么。第一次在使用a部门的产品的会员?还是在站在公司角度上说,第一次在公司发展业务接触的会员?
2、是如何统计出来的。a:时间;是通过创建时间,还是业务完成时间。b:业务场景。是只要与业务发接触,例如下了单,还是要业务完成后,到成功支付。
3、这个数据是在哪个环节统计出来。在注册环节,在下单环节,在成功支付环节。
4、这个数据代表着什么。10万高吗?与历史相同比较?是否做了营销活动?这个行业处理行业生命同期哪个阶段?
在前面二点,更多要求你能按业务逻辑,来进行数据的提取(更多是写sql代码从数据库取出数据)。后面二点,更重要是对业务了解,更行业知识了解,你才能进行相应的数据解读,才能让数据产生真正的价值,不是吗?
对于新进入数据行业或者刚进入数据行业的朋友来说:
行业知识都重要,也许你看到很多的数据行业的同仁,在微博或者写文章说,数据分析思想、行业知识、业务知识很重要。我非常同意。因为作为数据分析师,在发表任何观点的时候,都不要忘记你居于的背景是什么?
但大家一定不要忘记了一些基本的技术,不要把基础去忘记了,如果一名数据分析师不会写sql,那麻烦就大了。哈哈。。你只有把数据先取对了,才能正确的分析,否则一切都是错误了,甚至会导致致命的结论。新同学,还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高,但是在行业、业务知识的是一点一滴的积累起来的,有时候是急不来的,这更需要花时间慢慢去沉淀下来。
不要过于追求很高级、高深的统计方法,我提倡有空还是要多去学习基本的统计学知识,从而提高工作效率,达到事半功倍。以我经验来说,我负责任告诉新进的同学,永远不要忘记基本知识、基本技能的学习。
二、要有三心。
1、细心。
2、耐心。
3、静心。
数据分析师其实是一个细活,特别是在前文提到的例子中的前面二点。而且在数据分析过程中,是一个不断循环迭代的过程,所以一定在耐心,不怕麻烦,能静下心来不断去修改自己的分析思路。
三、形成自己结构化的思维。
数据分析师一定要严谨。而严谨一定要很强的结构化思维,如何提高结构化思维,也许只需要工作队中不断的实践。但是我推荐你用mindmanagement,首先把你的整个思路整理出来,然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构,慢慢你会形成一套自己的思想。当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告,多问问他们是怎么去考虑这个问题的,别人的思想是怎么样的?他是怎么构建整个分析体系的。
四、业务、行业、商业知识。
当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。
这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。
如何提高业务知识,特别是没有相关背景的同学。很简单,我总结了几点:
1、多向业务部门的同事请教,多沟通。多向他们请教,数据分析师与业务部门没有利益冲突,而更向是共生体,所以如果你态度好,相信业务部门的同事也很愿意把他们知道的告诉你。
2、永远不要忘记了google大神,定制一些行业的关键字,每天都先看看定制的邮件。
3、每天有空去浏览行业相关的网站。看看行业都发生了什么,主要竞争对手或者相关行业都发展什么大事,把这些大事与你公司的业务,数据结合起来。
4、有机会走向一线,多向一线的客户沟通,这才是最根本的。
标题写着告诫,其实谈不上,更多我自己的一些心得的总结。希望对新进的朋友有帮助,数据分析行业绝对是一个朝阳行业,特别是互联网的不断发展,一个不谈数据的公司根本不叫互联网公司,数据分析师已经成为一个互联网公司必备的职位了。
- 相关评论
- 我要评论
-