找回密码
 注册
查看: 705|回复: 0

R语言 RWeka包 Weka_tokenizers()函数中文帮助文档(中英文对照)

[复制链接]
发表于 2012-9-29 20:57:13 | 显示全部楼层 |阅读模式
Weka_tokenizers(RWeka)
Weka_tokenizers()所属R语言包:RWeka

                                        R/Weka Tokenizers
                                         R / Weka中断词

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

R interfaces to Weka tokenizers.
R接口Weka中的断词。


用法----------Usage----------


AlphabeticTokenizer(x, control = NULL)
NGramTokenizer(x, control = NULL)
WordTokenizer(x, control = NULL)



参数----------Arguments----------

参数:x
a character vector with strings to be tokenized.
被标记化的字符串字符向量。


参数:control
an object of class Weka_control, or a character vector of control options, or NULL (default). Available options can be obtained on-line using the Weka Option Wizard WOW, or the Weka documentation.
对象的类Weka_control,或一个字符矢量控制选项,或NULL(默认)。可用的选项可以使用在WEKA选项向导WOW,或在WEKA文档上线。


Details

详细信息----------Details----------

AlphabeticTokenizer is an alphabetic string tokenizer, where tokens are to be formed only from contiguous alphabetic sequences.
AlphabeticTokenizer是一个字母的字符串标记生成器,其中令牌是仅形成从连续的字母序列。

NGramTokenizer splits strings into n-grams with given minimal and maximal numbers of grams.
NGramTokenizer分割字符串转换成n克,最小和最大克数。

WordTokenizers is a simple word tokenizer.
WordTokenizers是一个简单的词分词器。


值----------Value----------

A character vector with the tokenized strings.
带标记的字符串的字符向量。

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-28 18:48 , Processed in 0.028326 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表