找回密码
 注册
查看: 6370|回复: 1

Rwordseg 中文词汇分类工具包

[复制链接]
发表于 2013-4-16 10:57:59 | 显示全部楼层 |阅读模式
本帖最后由 genechip 于 2013-4-16 10:59 编辑

今日拜读Lijian的主页,发现很多有用的东西,特此引来与各位分享。

Rwordseg 是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、 用户自定义词典。详细信息可以参考作者孙健的专访以及项目的Github地址。

当前版本的Rwordseg包完全引用了 Ansj 包,只是简单提供了R的接口,并根据R中处理文本的习惯进行了调整,在此对原作者孙健表示强烈的敬意!之所以没有命名为ransj,是因为以后可能还会纳入其他的 分词工具或者自己开发一些新的功能。

该包具体安装和使用说明请参考
http://jliblog.com/app/rwordseg

在安装和使用之前,大家要注意,此包在R version 2.14.2 版本上运行无误,其他版本本人不知情,但通常会存在版本不兼容的问题。因此,如果像顺利使用,最好在此版本下运行。

同时附上使用说明,仅供参考。附件中作者对比不同R环境下的词汇分类包。说明详细,例子鲜明,

感谢Rwordseg包开发者。本文引自
http://jliblog.com/app/rwordseg

Rwordseg_Vignette_CN.pdf (411.02 KB, 下载次数: 59)


回复

使用道具 举报

发表于 2013-5-22 09:34:56 | 显示全部楼层
学习了! 看到不少用这个包做 文本挖掘的!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-25 00:45 , Processed in 0.031191 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表