找回密码
 注册
查看: 1208|回复: 0

R语言 rGADEM包 GADEM()函数中文帮助文档(中英文对照)

[复制链接]
发表于 2012-2-26 12:53:59 | 显示全部楼层 |阅读模式
GADEM(rGADEM)
GADEM()所属R语言包:rGADEM

                                        Motif Analysis with rGADEM
                                         母题分析与rGADEM

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

It is an R implementation of GADEM, a powerful computational tools for de novo motif discovery.
它是一个强大的计算工具,de novo motif发现GADEMŕ实施。


用法----------Usage----------



GADEM(Sequences,seed=1,genome=NULL,verbose=FALSE,numWordGroup=3,numTop3mer=20,
       numTop4mer=40,numTop5mer=60,numGeneration=5,populationSize=100,
       pValue=0.0002,eValue=0.0,extTrim=1,minSpaceWidth=0,maxSpaceWidth=10,
       useChIPscore=0,numEM=40,fEM=0.5,widthWt=80,fullScan=0,slideWinPWM=6,
       stopCriterion=1,numBackgSets=10,weightType=0,



参数----------Arguments----------

参数:Sequences
Sequences from BED or FASTA file are converted into XString object view
从床上或FASTA文件的序列被转换到XString对象视图


参数:seed
When a seed is specified, the run results are deterministic
当指定种子,运行结果是确定性


参数:genome
Specify the genome
指定的基因组


参数:verbose
Print immediate results on screen [TRUE-yes (default), FALSE-no]. These results include the motif consensus sequence, number of sites (in sequences subjected  to EM optimization, see -fEM, above), and ln(E-value).
在屏幕上打印立竿见影的效果[TRUE,YES(默认),假的没有]。这些成果包括主题共识序列,网站的数量(在遭受电磁优化序列,有限元,以上),LN(E值)。


参数:numWordGroup
number of non-zero k-mer groups
数非零的k-MER组


参数:numTop3mer
Number of top-ranked trimers for spaced dyads (default: 20).
数间隔二人组合(默认:20)排名第一的三聚体。


参数:numTop4mer
Number of top-ranked tetramers for spaced dyads (default: 40).
数间隔二人组合(默认:40)排名第一的四聚体。


参数:numTop5mer
Number of top-ranked pentamers for spaced dyads (default: 60).
数间隔二人组合(默认:60)排名第一的五聚体。


参数:numGeneration
Number of genetic algorithm (GA) generations (default: 5).
遗传算法(GA)的后代数量(默认值:5)。


参数:populationSize
GA population size (default: 100).  Both default settings should work well for most datasets (ChIP-chip and ChIP-seq).  The above two arguments are ignored in a seeded analysis, because spaced dyads and GA are no longer needed (numGeneration is set to 1 and populationSize is set to 10 internally, corresponding to the 10 maxp choices).
GA人口规模(默认:100)。两个默认设置应该为大多数数据集(芯片的芯片和芯片SEQ)。在种子分析上述两个参数被忽略,因为间隔的二人组合和GA不再需要(numGeneration设置为1和populationSize内部设置为10,对应10 MAXP选择)。


参数:pValue
P-value cutoff for declaring BINDING SITES (default: 0.0002). Depending on data size and the motif, you might want to assess more than one value. For ChIP-seq data (e.g., 10 thousand +/-200-bp max-center peak cores), p=0.0002 often seems appropriate. However, short motifs may require a less stringent setting.
P值的截止申报结合位点(默认值:0.0002)。根据数据的大小和图案上,你可能要评估一个以上的值。为SEQ芯片数据(例如,10万+ /-200-bp的最大中心高峰核心),P = 0.0002常常似乎是恰当的。然而,短期的图案可能需要一个比较宽松的环境。


参数:eValue
ln(E-value) cutoff for selecting MOTIFS (default: 0.0). If a seeded analysis fails to identify the expected motif, run GADEM with  -verbose 1 to show motif ln(E-value)s on screen, then rerun with a larger ln(E-value) cutoff. This can help in identifying short and/or low abundance motifs, for which the default E-value threshold may be too low.
LN(E值)截止选择图案(默认值:0.0)。如果种子分析失败,以确定预期的图案,运行GADEM详细1显示在屏幕上的图案LN(E值),然后重新运行一个较大的LN(E值)截止。这可以帮助确定短期和/或低丰度的图案,默认为E值的阈值可能太低。


参数:extTrim
Base extension and trimming (1 -yes, 0 -no) (default: 1).
相应的延伸和修剪(1是,0)(默认是:1)。


参数:minSpaceWidth
Minimal number of unspecified nucleotides in spaced dyads (default: 0).
最小间隔二元关系不明核苷酸数(默认值:0)。


参数:maxSpaceWidth
Maximal number of unspecified nucleotides in spaced dyads (default: 10). minSpaceWidth and maxSpaceWidth control the lengths of spaced dyads, and, with exTrim, control motif lengths. Longer motifs can be discovered by setting maxSpaceWidth to larger values (e.g. 50).
行距二元关系中的不确定核苷酸的最大数量(默认值:10)。 minSpaceWidth和maxSpaceWidth控制间隔二人组合的长度,并与极其异常的条件,控制图案的长度。更长的图案,可以发现通过设置maxSpaceWidth较大的值(例如50)。


参数:useChIPscore
Use top-scoring sequences for deriving PWMs. Sequence (quality) scores are stored in sequence header (see documentation). 0 - no (default, randomly select sequences), 1 - yes.
得分最高的使用所产生的PWM序列。序列头(见文件)存储在序列(质量)分数。 0  - (默认情况下,随机选择序列),1  - 是的。


参数:numEM
Number of EM steps (default: 40). One might want to set it to a larger value (e.g. 80) in a seeded run, because such runs are fast.
步骤的EM数(默认:40)。有人可能会想将它设置为一个较大的值(例如80)在种子经营,因为这样的运行速度快。


参数:fEM
Fraction of sequences used in EM to obtain PWMs in an unseeded analysis (default: 0.5). For unseeded motif discovery in a large dataset (e.g. >10 million nt), one might want to set -fEM to a smaller value (e.g., 0.3 or 0.4) to reduce run time.
在EM用于获取在非种子选手的分析(默认值:0.5)的PWM序列的分数。对于非种子选手motif发现在大型数据集(如> 10万台币),可能需要设置一个较小的值(例如,0.3或0.4),以减少运行时的有限元。


参数:widthWt
For -posWt 1 or 3, width of central sequence region with large EM weights for PWM optimization (default: 50). This argument is ignored when weightType is 0 (uniform prior) or 2 (Gaussian prior).
对于posWt 1或3,大型EM重量为PWM优化(默认是:50)中央序列区的宽度。时weightType 0(统一前)或2(高斯之前),则忽略此参数。


参数:fullScan
GADEM keeps two copies of the input sequences internally: one (D) for discovering PWMs and one (S) for scanning for binding sites using the PWMs Once a motif is identified, its instances in set D are always masked by Ns. However, masking motif instances in set S is optional, and scanning unmasked sequences allows sites of discovered motifs to overlap.
GADEM保持两份内部的输入序列:(四)发现的PWM和一个()扫描的结合位点,一旦被确定一个主题,使用的PWM,它集D的实例总是由NS掩盖。然而,掩盖在集合S的图案实例是可选的,并允许网站发现图案重叠扫描东窗事发序列。


参数:slideWinPWM
sliding window for comparing pwm similarity (default : 6).
滑动比较PWM相似(默认是:6)的窗口。


参数:stopCriterion
Number of generations without new motifs before stopping analysis.
数代没有停止之前分析的新图案。


参数:numBackgSets
Number of sets of background sequences (default: 10). The background sequences are simulated using the [a,c,g,t] frequencies in the input sequences, with length matched between the two sets. The background sequences are used as the random sequences for assessing motif enrichment in the input data.
背景序列集的数量(默认值:10)。背景序列模拟[A,C,G,T]在输入序列的频率,使用两套之间的匹配长度。背景序列被用来作为评估主题浓缩在输入数据的随机序列。


参数:weightType
Weight profile for positions on the sequence. 0 - no weight (uniform spatial prior, default), 1 (gaussian prior) and 2 (triangle prior) - small or zero weights for the ends and large weights for the center (e.g. the center 50 bp). Consider using 1 or 2 if you expect strong central enrichment (as in ChIP-seq) and your sequences are long(e.g. >200 bp).
重量轮廓序列上的立场。 0  - 无重量(统一的空间之前,默认),1(高斯前)和2(前三角) - 小或为零的重量为中心的目的和较大的比重(如中心50个基点)。考虑使用1或2,如果你希望强有力的中央富集(SEQ芯片)和序列的长(如> 200 BP)。


参数:bFileName
Reading user-specified background models.
阅读用户指定的背景模型。


参数:Spwm
File name for the seed PWM, when a seeded approach is used. can be used as the starting PWM for the EM algorithm. This will help find an expected motif and is much faster than unseeded de novo discovery.Also, when a seed PWM is specified, the run results are deterministic, so only a single run is needed (repeat runs with the same settings will give identical results). In contrast, unseeded runs are stochastic, and we recommend comparing results from several repeat runs.
PWM的种子,当种子的方法是使用文件名。 EM算法可以作为开始的PWM。这将有助于找到预期的主题,是远远快于非种子选手的从头discovery.Also,当一个PWM指定的种子,运行结果是确定性的,所以只有一个单一的运行需要(重复使用相同的设置运行将给予相同的结果)。相比之下,非种子选手运行是随机的,我们建议从几个重复运行的比较结果。


参数:minSites
Minimal number of sites required for a motif to be reported (default: numSeq/20)
数量最少一个主题需报网站(默认numSeq/20)


参数:maskR
Mask low-complexity sequences or repeats; 'aaaaaaaa', 'tttttttt', 'cacacaca', 'tgtgtgtg', 'tatatatat', 'ggaggaggagga','gaggaggaggag','agaagaagaaga','ctcctcctcctc','tcctcctcctcc','tcttcttcttct','tagtagtagtag','aataataataat','attattattatt','ataataataata' or 'cagcagcagcagcag' (default: 0-no masking,1-masking)
面膜低复杂度的序列或重复;AAAAAAAA,tttttttt“,”cacacaca,tgtgtgtg,tatatatat“或“cagcagcagcagcag”(默认:0  - 毫无遮拦,1-屏蔽)


参数:nmotifs
Number of motifs sought (default: 25)
寻求图案的数量(默认是:25)


作者(S)----------Author(s)----------


Arnaud Droit <a href="mailto:arnaud.droit@crchuq.ulaval.ca">arnaud.droit@crchuq.ulaval.ca</a>



举例----------Examples----------



        library(BSgenome.Hsapiens.UCSC.hg18)
        pwd&lt;-"" #INPUT FILES- BedFiles, FASTA, etc.[输入文件BedFiles,FASTA格式,等等。]
        path<- system.file("extdata","Test_100.bed",package="rGADEM")
        BedFile<-paste(pwd,path,sep="")
        BED<-read.table(BedFile,header=FALSE,sep="\t")
        BED<-data.frame(chr=as.factor(BED[,1]),start=as.numeric(BED[,2]),end=as.numeric(BED[,3]))
        #Create RD files [创建Rd文件]
        rgBED<-IRanges(start=BED[,2],end=BED[,3])
        Sequences<-RangedData(rgBED,space=BED[,1])
       
       
gadem<-GADEM(Sequences,verbose=1,genome=Hsapiens)

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-1-28 03:52 , Processed in 0.020642 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表