OutlierPCOut(rrcovHD)
OutlierPCOut()所属R语言包:rrcovHD
Outlier identification in high dimensions using the PCOUT algorithm
在高维空间中的离群点识别使用PCOUT算法
译者:生物统计家园网 机器人LoveR
描述----------Description----------
The function implements a computationally fast procedure for identifying outliers that is particularly effective in high dimensions. This algorithm utilizes simple properties of principal components to identify outliers in the transformed space, leading to significant computational advantages for high-dimensional data. This approach requires considerably less computational time than existing methods for outlier detection, and is suitable for use on very large data sets. It is also capable of analyzing the data situation commonly found in certain biological applications in which the number of dimensions is several orders of magnitude larger than the number of observations.
该功能实现了计算速度快的过程,特别是在高维空间中有效识别异常值。该算法利用简单的属性的主要组成部分,以识别异常值,导致显着的高维数据的计算优势,在转化的空间。这种方法需要相当少的计算时间比现有的孤立点检测方法,并且适合用于在非常大的数据集。它也能够分析的数据的情况,通常发现在某些生物的应用程序,其中的维数是几个数量级大于观测值的数量。
用法----------Usage----------
OutlierPCOut(x, ...)
## Default S3 method:
OutlierPCOut(x, grouping, trace=FALSE, ...)
## S3 method for class 'formula'
OutlierPCOut(formula, data, ..., subset, na.action)
参数----------Arguments----------
参数:formula
a formula with no response variable, referring only to numeric variables.
没有响应变量的公式,只给数值变量。
参数:data
an optional data frame (or similar: see model.frame) containing the variables in the formula formula.
一个可选的数据框(或相似:model.frame),其中包含公式formula中的变量。
参数:subset
an optional vector used to select rows (observations) of the data matrix x.
的可选的向量选择行(观察)的数据矩阵x。
参数:na.action
a function which indicates what should happen when the data contain NAs. The default is set by the na.action setting of options, and is na.fail if that is unset. The default is na.omit.
一个函数,它表示当数据包含NA的,应该发生什么。默认设置是由na.action的options,是na.fail,如果是没有设置的。默认的na.omit。
参数:...
arguments passed to or from other methods.
传递的参数或其他方法。
参数:x
a matrix or data frame.
一个矩阵或数据框。
参数:grouping
grouping variable: a factor specifying the class for each observation.
分组变量:指定一个类为每个观测的一个因素。
参数:trace
whether to print intermediate results. Default is trace = FALSE
是否要打印的中间结果。默认是trace = FALSE
Details
详细信息----------Details----------
If the data set consists of two or more classes (specified by the grouping variable grouping) the proposed method iterates through the classes present in the data, separates each class from the rest and identifies the outliers relative to this class, thus treating both types of outliers, the mislabeled and the abnormal samples in a homogenous way.
如果数据集是由两个或多个类(指定分组变量grouping)所提出的方法遍历数据中存在的类,其余分隔每个类,并确定相对于这一类的离群值,在一个同质的方式对待这两种类型的异常值,标示错误和异常样本。
值----------Value----------
An S4 object of class OutlierPCOut which is a subclass of the virtual class Outlier.
S4对象的类OutlierPCOut这是虚拟类Outlier的一个子类。
(作者)----------Author(s)----------
Valentin Todorov <a href="mailto:valentin.todorov@chello.at">valentin.todorov@chello.at</a>
参考文献----------References----------
Outlier identification in high dimensions, Computational Statistics & Data Analysis, Vol. 52 1694–1711.
Robust tools for the imperfect world, To appear.
参见----------See Also----------
OutlierPCOut, Outlier
OutlierPCOut,Outlier
实例----------Examples----------
data(hemophilia)
obj <- OutlierPCOut(gr~.,data=hemophilia)
obj
getDistance(obj) # returns an array of distances[返回一个数组的距离]
getClassLabels(obj, 1) # returns an array of indices for a given class[对于一个给定的类,返回一个数组的索引]
getCutoff(obj) # returns an array of cutoff values (for each class, usually equal)[返回一个数组的临界值(每类,通常等于)]
getFlag(obj) # returns an 0/1 array of flags[返回一个0/1阵列的标志]
plot(obj, class=2) # standard plot function[标准的绘图功能]
转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。
注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
|