找回密码
 注册
查看: 5693|回复: 6

R语言环境下的文本挖掘

[复制链接]
发表于 2013-4-28 17:47:23 | 显示全部楼层 |阅读模式
本帖最后由 moshengren 于 2013-4-29 00:02 编辑

自然语言处理(Nature Language Process)是一个非常让人着迷的领域,应用范围非常广泛,比如去年人机大战中大出风头的IBM Watson,iPhone 4S的语音助理模块Siri,以及针对于社会热点的舆情分析,这些应用都使用了自然语言处理技术。当然,统计背景的分析类科研人员更关注于舆情分析这类的文本挖掘技术。

很多统计软件都提供了文本挖掘的功能,比如常见的数据分析软件SAS、SPSS等,以及一些语言如Python、Java,侧重点有所不同。但对于一般文本挖掘主要包括:

&#8226reprocess:数据准备、导入、清洗以及一般性的预处理
•Associate:关联分析,根据同时出现的频率找出关联规则
•Cluster:将相似的文档(词条)进行聚类
•Categorize:将文本划分到预先定义的类别里
•API:可扩展的应用编程接口
至少在2008年,商业和开源软件的功能特性差不多(但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模型是否支持),只是由于众所周知的缘故,对于API的扩展支持有所差异。

对于中文环境下的文本挖掘,无外乎要解决如下几个问题:

•较为精确的中文分词(可能还需要支持个性化题库,甚至词性分析)
•生成词条-文档矩阵,甚至矩阵的运算
•后续的挖掘算法支撑(传统的以及语义类的)
•其他
在R语言环境下,有众多的包支撑解决上述问题。 Ingo Feinerer开发维护的tm包提供了完整的文本挖掘的框架,借助辅助工具及R包,甚至还可以处理word、pdf文档的读入,文档处理并行化运算,文件数据库的语料处理等问题。

闲话不多说,最下面链接给出了一份基于《Introduction to the tm Package》整理的,基于tm包的中文文本挖掘的介绍性文档,内容包含

•互联网网页处理:XML包的简介
•中文分词
•tm包的完整介绍:读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等
•文本挖掘技术及应用等
当然,作为非正式发布文档还有很多地方不尽完善,后续可能会有较大更新,请关注博客上的to do list。

R语言环境下的文本挖掘.pdf (696.16 KB, 下载次数: 138)
回复

使用道具 举报

发表于 2013-10-12 09:20:32 | 显示全部楼层
谢谢分享,学习了
回复 支持 反对

使用道具 举报

发表于 2014-3-9 15:00:02 | 显示全部楼层
多谢楼主分享,努力学习中
回复 支持 反对

使用道具 举报

发表于 2014-3-19 21:01:00 | 显示全部楼层
感谢楼主分享哦!
回复 支持 反对

使用道具 举报

发表于 2014-3-20 09:16:00 | 显示全部楼层
太给力了 感谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-24 08:14 , Processed in 0.033428 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表