R语言 RWeka包 Weka_tokenizers()函数中文帮助文档(中英文对照)

loveR · 发表于 2012-9-29 20:57:13

Weka_tokenizers(RWeka)
Weka_tokenizers()所属R语言包：RWeka

                                    R/Weka Tokenizers
                                       R / Weka中断词

                                       译者：生物统计家园网机器人LoveR

描述----------Description----------

R interfaces to Weka tokenizers.
R接口Weka中的断词。

用法----------Usage----------

AlphabeticTokenizer(x, control = NULL)
NGramTokenizer(x, control = NULL)
WordTokenizer(x, control = NULL)

参数----------Arguments----------

参数：x
a character vector with strings to be tokenized.
被标记化的字符串字符向量。

参数：control
an object of class Weka_control, or a character vector of control options, or NULL (default). Available options can be obtained on-line using the Weka Option Wizard WOW, or the Weka documentation.
对象的类Weka_control，或一个字符矢量控制选项，或NULL（默认）。可用的选项可以使用在WEKA选项向导WOW，或在WEKA文档上线。

Details

详细信息----------Details----------

AlphabeticTokenizer is an alphabetic string tokenizer, where tokens are to be formed only from contiguous alphabetic sequences.
AlphabeticTokenizer是一个字母的字符串标记生成器，其中令牌是仅形成从连续的字母序列。

NGramTokenizer splits strings into n-grams with given minimal and maximal numbers of grams.
NGramTokenizer分割字符串转换成n克，最小和最大克数。

WordTokenizers is a simple word tokenizer.
WordTokenizers是一个简单的词分词器。

值----------Value----------

A character vector with the tokenized strings.
带标记的字符串的字符向量。

转载请注明:出自生物统计家园网(http://www.biostatistic.net)。

注：
注1：为了方便大家学习，本文档为生物统计家园网机器人LoveR翻译而成，仅供个人R语言学习参考使用，生物统计家园保留版权。
注2：由于是机器人自动翻译，难免有不准确之处，使用时仔细对照中、英文内容进行反复理解，可以帮助R语言的学习。
注3：如遇到不准确之处，请在本贴的后面进行回帖，我们会逐渐进行修订。

账号		自动登录	找回密码
密码			注册

R语言 RWeka包 Weka_tokenizers()函数中文帮助文档(中英文对照)

浏览过的版块