|
本帖最后由 genechip 于 2010-6-21 14:38 编辑
芯片处理过程中,会遇到多个探针代表一个基因的情况,通常可以用多个探针的均值代表这个基因的表达值。
本人编写一个小程序,用于处理重复探针样本。需要用的朋友可以试试
其中data_name代表数据中行的名字,即探针的名字
data代表芯片数据。下面用一套模拟数据做例子
mult_gene<-function(temp1,temp3){
temp2<-seq(length=30,from=2,to=3.5)
rownames(temp3)<-temp1
result<-array(NA,dim=c(length(unique(temp1)),dim(temp3)[2]))
for(i in 1:length(unique(temp1))){
lis<-temp3[is.element(temp1,unique(temp1)),]
if(class(lis)=="matrix"){
temp5<-sapply(dim(lis)[2],function(x) sapply(1:x,function(y) median(lis[,y])))
}else{
temp5<-lis}
temp55<-t(temp5)
result[i,]<-as.numeric(temp55)
rownames(result)<-unique(temp1)
}
print(result)
}
mult_gene(temp1=data_name,temp3=data)
生物统计家园 |
|