找回密码
 注册
查看: 4740|回复: 0

R语言 tree包 prune.tree()函数中文帮助文档(中英文对照)

  [复制链接]
发表于 2012-10-1 11:54:59 | 显示全部楼层 |阅读模式
prune.tree(tree)
prune.tree()所属R语言包:tree

                                         Cost-complexity Pruning of Tree Object
                                         成本复杂性修剪的树对象

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

Determines a nested sequence of subtrees of the supplied tree by recursively “snipping” off the least important splits.
通过递归“剪断”关至少有严重的分歧,确定一个嵌套序列的子树所提供的树。


用法----------Usage----------


prune.tree(tree, k = NULL, best = NULL, newdata, nwts,
           method = c("deviance", "misclass"), loss, eps = 1e-3)

prune.misclass(tree, k = NULL, best = NULL, newdata,
               nwts, loss, eps = 1e-3)



参数----------Arguments----------

参数:tree
fitted model object of class tree.  This is assumed to be the result of some function that produces an object with the same named components as that returned by the tree() function.  
拟合模型对象的类tree。这被认为是一些函数,该函数产生的对象具有相同的命名组件tree()函数返回的结果。


参数:k
cost-complexity parameter defining either a specific subtree of tree (k a scalar) or the (optional) sequence of subtrees minimizing the cost-complexity measure (k a vector). If missing, k is determined algorithmically.  
成本复杂的参数定义了一个特定的子树tree(k标量)或(可选的)序列的子树,最大限度地降低成本,复杂性度量(k一个向量)。如果缺少,k确定算法。


参数:best
integer requesting the size (i.e. number of terminal nodes) of a specific subtree in the cost-complexity sequence to be returned. This is an alternative way to select a subtree than by supplying a scalar cost-complexity parameter k.  If there is no tree in the sequence of the requested size, the next largest is returned.  
整数请求一个特定的子树的成本要返回的复杂序列的大小(即终端节点的数量)。这是另一种方式来选择子树,而不是通过提供一个标量成本复杂性参数k。如果没有树中所要求的大小的顺序,下一个最大的将被返回。


参数:newdata
data frame upon which the sequence of cost-complexity subtrees is evaluated.  If missing, the data used to grow the tree are used.  
数据框在其评估成本复杂性的序列的子树。如果缺少,使用生长树中所使用的数据。


参数:nwts
weights for the newdata cases.  
权重newdata情况。


参数:method
character string denoting the measure of node heterogeneity used to guide cost-complexity pruning.  For regression trees, only the default, deviance, is accepted.  For classification trees, the default is deviance and the alternative is misclass (number of misclassifications or total loss).  
字符串表示节点异质性的衡量标准,用来指导成本复杂性修剪。对于回归树,默认情况下,只有deviance,被接受。对于分类树,默认是deviance和另一种方法是misclass数(错误分类或亏损总额)。


参数:loss
a matrix giving for each true class (row) the numeric loss of predicting the class (column).  The classes should be in the order of the levels of the response.  It is conventional for a loss matrix to have a zero diagonal.  The default is 0–1 loss.  
矩阵给每一个真正的类(行)的数字损失的预测类(列)。的类,应该是在顺序的响应的水平。它是常规的损失矩阵有一个零对角线。默认值是0-1损失。


参数:eps
a lower bound for the probabilities, used to compute deviances if events of predicted probability zero occur in newdata.  
较低的概率必然,用于计算deviances的,如果的预测概率为零的事件发生在newdata。


Details

详细信息----------Details----------

Determines a nested sequence of subtrees of the supplied tree by recursively "snipping" off the least important splits, based upon the cost-complexity measure.  prune.misclass is an abbreviation for prune.tree(method = "misclass") for use with cv.tree.
通过递归“剪断”关的最重要的分割,根据成本复杂性的措施,确定一个嵌套序列的子树所提供的树。 prune.misclass是prune.tree(method = "misclass")使用cv.tree的缩写。

If k is supplied, the optimal subtree for that value is returned.
如果k提供,该值,则返回的最优子树。

The response as well as the predictors referred to in the right side of the formula in tree must be present by name in newdata. These data are dropped down each tree in the cost-complexity sequence and deviances or losses calculated by comparing the supplied response to the prediction.  The function cv.tree() routinely uses the newdata argument in cross-validating the pruning procedure.  A plot method exists for objects of this class.  It displays the value of the deviance, the number of misclassifications or the total loss for each subtree in the cost-complexity sequence.  An additional axis displays the values of the cost-complexity parameter at each subtree.
的响应,以及在右侧中的公式tree的预测中的名称必须存在newdata。这些数据都掉了下来,每棵树的成本复杂性的顺序和deviances或比较提供的预测计算的损失。的功能cv.tree()经常使用newdata参数在交叉验证修剪过程。 Aplot方法存在这个类的对象。它显示值的偏差,错误分类,每个子树中的总损失的成本,复杂性序列。另外一个轴显示在每个子树的成本,复杂度参数的值。


值----------Value----------

If k is supplied and is a scalar, a tree object is returned that minimizes the cost-complexity measure for that k. If best is supplied, a tree object of size best is returned.  Otherwise, an object of class tree.sequence is returned.  The object contains the following components:
如果k被供给,并是一个标量,一个tree对象返回,最大限度地减少了成本的复杂性量度,k。如果best提供,tree对象的大小best返回。否则,一个对象的类tree.sequence的返回。该对象包含以下组件:


参数:size
number of terminal nodes in each tree in the cost-complexity pruning sequence.  
每棵树的成本复杂性剪枝序列的终端节点的数量。


参数:deviance
total deviance of each tree in the cost-complexity pruning sequence.  
每棵树的成本复杂性剪枝序列的总偏差。


参数:k
the value of the cost-complexity pruning parameter of each tree in  the sequence.  
序列中的每个树的成本,复杂性的修剪参数的值。


实例----------Examples----------


data(fgl, package="MASS")
fgl.tr <- tree(type ~ ., fgl)
plot(print(fgl.tr))
fgl.cv <- cv.tree(fgl.tr,, prune.tree)
for(i in 2:5)  fgl.cv$dev <- fgl.cv$dev +
   cv.tree(fgl.tr,, prune.tree)$dev
fgl.cv$dev <- fgl.cv$dev/5
plot(fgl.cv)

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-23 13:40 , Processed in 0.026102 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表