TWIX(TWIX)
TWIX()所属R语言包:TWIX
Trees with extra splits
额外的分割树
译者:生物统计家园网 机器人LoveR
描述----------Description----------
Trees with extra splits
额外的分割树
用法----------Usage----------
TWIX(formula, data=NULL, test.data=NULL, subset=NULL,
method="deviance", topn.method="complete", minsplit=20,
minbucket=round(minsplit/3), topN=1, splitf="deviance",
Devmin=0.01, tol=0.25, cp=0.01, level=30, st=1, score=1,
k=0, cluster=NULL, seed.cluster=NULL, cl.level=1, multicore=FALSE,
trace=TRUE, trace.plot=FALSE, ...)
参数----------Arguments----------
参数:formula
formula of the form y ~ x1 + x2 + ..., where y must be a factor and x1,x2,... are numeric or factor.
公式的形式y ~ x1 + x2 + ...,其中y必须是一个因素,x1,x2,...都是数字或因素。
参数:data
an optional data frame containing the variables in the model (training data).
一个可选的数据框包含在模型中的变量(训练数据)。
参数:test.data
This can be a data frame containing new data.
这可以是一个含有新数据的数据框。
参数:subset
an optional vector specifying a subset of observations to be used.
一个可选的向量指定要使用的观测值的一个子集。
参数:method
Which split points will be used? This can be "deviance" (default), "grid" or "local". If the method is set to:<br> "local" - the program uses the local maxima of the split function (entropy),<br> "deviance" - all values of the entropy,<br> "grid" - grid points.
将使用哪一个分割点呢?这可能是"deviance"(默认),"grid"或"local"。如果method设置为:<br>"local" - 该程序使用split函数的局部最大值(熵),参考"deviance"“ - 所有的熵值,< BR> "grid" - 网格点。
参数:topn.method
one of "complete"(default) or "single". A specification of the consideration of the split points. If set to "complete" it uses split points from all variables, else it uses split points per variable.
"complete"(默认)或"single"。一个规范的分割点的代价。如果设置为"complete"使用分割点,从所有的变量,否则它使用的分割点,每个变量。
参数:minsplit
the minimum number of observations that must exist in a node.
必须存在在一个节点中的观测的最小数目。
参数:minbucket
the minimum number of observations in any terminal <leaf> node.
中的观测值的最小数目任何终端<leaf>节点。
参数:topN
integer vector. How many splits will be selected and at which level? If length 1, the same size of splits will be selected at each level. If length > 1, for example topN=c(3,2), 3 splits will be chosen at first level, 2 splits at second level and for all next levels 1 split.
整数向量。多少拆分将被选中,在哪一级?如果长度为1,同样大小的分割,将选择在每个级别。如果length > 1,例如topN=c(3,2),3分割将选择在第一级,在第二层,所有1级分割分割。
参数:splitf
kind of the splitting function to be used. It can be one of "deviance"(default) or "p-adj". If set to "p-adj", the p-value adjusted classification tree will be performed.
种的分离功能被使用。它可以是之一"deviance"(默认)或"p-adj"。如果设置为"p-adj",p值调整分类树将被执行。
参数:Devmin
the minimum improvement on entropy by splitting. If "splitf" set to "p-adj", "Devmin" will be the significance level alpha.
最低的改进熵的分裂。如果"splitf"设置为"p-adj","Devmin"将是显着性水平α的。
参数:tol
parameter, which will be used, if topn.method is set to "single".
参数,该参数将被使用,如果topn.method设置为"single"。
参数:cp
complexity parameter.
复杂的参数。
参数:level
the maximum depth of the trees. If level set to 1, trees consist of root node.
树的最大深度。如果level设置为1,树由根节点。
参数:st
step parameter for method "grid".
步骤参数的方法"grid"。
参数:cluster
the name of the snow cluster, if parallel computing will be used.
雪聚类的名称,如果将被用于并行计算。
参数:seed.cluster
an integer to be supplied to set.seed, or NULL not to set reproducible seeds.
要被提供给set.seed,或NULL不设置重现种子的整数。
参数:cl.level
an internal parameter of parallel computing.
内部参数的并行计算。
参数:multicore
a logical value for parallel execution with package multicore.
一逻辑值,包multicore的并行执行。
参数:score
Specifies the method for model selection. This can be 1(default), 2 or 3.<br> If it is 1 the weighted correct classification rate will be used,<br> if it is 2 the sort-function will be used,<br> if it set to 3 the weigth-function will be used<br> score = 0.25*scale(dev.tr)+0.6*scale(fit.tr)+0.15*(structure)
指定模型选择的方法。这可能是1(默认),2或3。<BR>如果它是1的加权分类正确率将用于<br>如果它是2排序功能将被使用,<BR>的,如果它设置为3,将用于<BR>自重功能score = 0.25*scale(dev.tr)+0.6*scale(fit.tr)+0.15*(structure)
参数:k
k-fold cross-validation of split-function. k specify the part of observations which will be take in hold-out sample (k can be (0,0.5)).
K-折交叉验证的功能分割。 K表指定的部分意见,将在保持样品(k可以为(0,0.5))。
参数:trace
A logical for printing a training log.
一个合乎逻辑用于印刷的训练log。
参数:trace.plot
Should trace plot be ploted?
跟踪图ploted?
参数:...
further arguments to be passed to or from methods.
通过进一步的论据或方法。
Details
详细信息----------Details----------
This implementation can't handle missing values. Therefore, cases with missing values must be removed. For p-value adjusted classification trees, continuous and binary independent descriptors are implemented as predictors and a response variable must be categorical with two categories.
这个实现可以处理缺失值。因此,具有缺失值的情况下,必须清除。 p值调整后的分类树,连续和二进制独立的描述实现的预测和响应变量必须是分类型的两类。
值----------Value----------
a list with the following components :
与以下组件的列表:
参数:call
the call generating the object.
呼叫生成的对象。
参数:trees
a list of all constructed trees, which include ID, Dev, Fit, Splitvar, ... for each tree.
列表中的所有构造的树木,其中包括ID,Dev,Fit,Splitvar,...每棵树的。
参数:greedy.tree
greedy tree
贪婪树
参数:multitree
database
数据库
参数:score
score values
得分值
参考文献----------References----------
TWIX (Talk given at the 3rd Ensemble Workshop in Munich 2006).<br> http://theusrus.de/Talks/Talks/TWIX.pdf<br>
Assessment of Optimally Selected Prognostic Factors.<br> Biometrical Journal 46, 364-374.
参见----------See Also----------
get.tree, predict.TWIX, print.single.tree, plot.TWIX, bootTWIX
get.tree,predict.TWIX,print.single.tree,plot.TWIX,bootTWIX
实例----------Examples----------
data(olives)
### train and test data[##的训练和测试数据]
set.seed(123)
i <- sample(572,150)
ic <- setdiff(1:572,i)
training <- olives[ic,]
test <- olives[i,]
###[##]
### TWIX Ensemble: 729 classification trees[##TWIX乐团:729分类树]
TM <- TWIX(Region~.,data=training[,1:9],topN=c(9,9),method="local")
TM$trees
get.tree(TM,1)
pred <- predict(TM,newdata=test,sq=1)
### for correct classification rate[##分类正确率]
predict(TM,newdata=test,sq=1:36,ccr=TRUE)$CCR
###[##]
### the p-value adjusted classification tree[##p-值调整后的分类树]
library(mlbench)
data(PimaIndiansDiabetes2)
Pima <- na.omit(PimaIndiansDiabetes2)
### train and test data[##的训练和测试数据]
set.seed(1111)
N <- nrow(Pima)
icv <- sample(N,N/3)
itr <- setdiff(1:N,icv)
train <- Pima[itr,]
test <- Pima[icv,]
###[##]
### the p-value adjusted classification tree with alpha = 0.05[##p-值调整分类树与α= 0.05]
TMa <- TWIX(diabetes~.,data=train,splitf="p-adj",Devmin=0.05)
get.tree(TMa)
### for correct classification rate[##分类正确率]
predict(TMa,newdata=test,ccr=TRUE)$CCR
转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。
注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
|