找回密码
 注册
查看: 1355|回复: 0

R语言 tm包 tokenizer()函数中文帮助文档(中英文对照)

  [复制链接]
发表于 2012-10-1 10:55:23 | 显示全部楼层 |阅读模式
tokenizer(tm)
tokenizer()所属R语言包:tm

                                        Tokenizers
                                         断词

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

Tokenize a document or character vector.
标记的文件或字符向量。


用法----------Usage----------


MC_tokenizer(x)
scan_tokenizer(x)



参数----------Arguments----------

参数:x
A character vector.
字符向量。


Details

详细信息----------Details----------

The quality and correctness of a tokenization algorithm highly depends on the context and application scenario. Relevant factors are the language of the underlying text and the notions of whitespace (which can vary with the used encoding and the language) and punctuation marks. Consequently, for superior results you probably need a custom tokenization function.
高度依赖的背景和应用场景的词语切分算法的质量和正确性。相关因素是,底层的文本和空白(它可以随所使用的编码和语言)和标点符号的概念的语言。因此,优异的业绩,你可能需要一个定制的标记化功能。




scan_tokenizer Relies on scan(..., what = "character").
scan_tokenizer凭借scan(..., what = "character")。




MC_tokenizer Implements the functionality of the tokenizer in the
MC_tokenizer tokenizer的,在该器物的功能


值----------Value----------

A character vector consisting of tokens obtained by tokenization of x.
Acharacter向量组成的记号标记化的x。


(作者)----------Author(s)----------


Ingo Feinerer



参见----------See Also----------

getTokenizers
getTokenizers


实例----------Examples----------


data("crude")
MC_tokenizer(crude[[1]])
scan_tokenizer(crude[[1]])
strsplit_space_tokenizer <- function(x) unlist(strsplit(x, "[[:space:]]+"))
strsplit_space_tokenizer(crude[[1]])

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-23 21:00 , Processed in 0.026208 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表