Weka_tokenizers(RWeka)
Weka_tokenizers()所属R语言包:RWeka
R/Weka Tokenizers
R / Weka中断词
译者:生物统计家园网 机器人LoveR
描述----------Description----------
R interfaces to Weka tokenizers.
R接口Weka中的断词。
用法----------Usage----------
AlphabeticTokenizer(x, control = NULL)
NGramTokenizer(x, control = NULL)
WordTokenizer(x, control = NULL)
参数----------Arguments----------
参数:x
a character vector with strings to be tokenized.
被标记化的字符串字符向量。
参数:control
an object of class Weka_control, or a character vector of control options, or NULL (default). Available options can be obtained on-line using the Weka Option Wizard WOW, or the Weka documentation.
对象的类Weka_control,或一个字符矢量控制选项,或NULL(默认)。可用的选项可以使用在WEKA选项向导WOW,或在WEKA文档上线。
Details
详细信息----------Details----------
AlphabeticTokenizer is an alphabetic string tokenizer, where tokens are to be formed only from contiguous alphabetic sequences.
AlphabeticTokenizer是一个字母的字符串标记生成器,其中令牌是仅形成从连续的字母序列。
NGramTokenizer splits strings into n-grams with given minimal and maximal numbers of grams.
NGramTokenizer分割字符串转换成n克,最小和最大克数。
WordTokenizers is a simple word tokenizer.
WordTokenizers是一个简单的词分词器。
值----------Value----------
A character vector with the tokenized strings.
带标记的字符串的字符向量。
转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。
注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
|