本帖最后由 genechip 于 2013-5-30 10:05 编辑
2012年进入年终倒计时了。回顾2012年SAP HANA 的发展,个人认为2012年11月发布的SAP HANA SP5版中将HANA的内存计算和R丰富的统计分析能力完美结合可以称为HANA 1.0 发布以来,又一个最具里程碑意义的发布。这一里程碑式的发布开启了运用HANA和R在大数据环境下在构建计量经济模型和统计分析的篇章,让数据挖掘、机器学习等技术把商务分析带入更深、更广、更实时的空间。展望2013,我们有理相信HANA和R的集成将对未来商务统计分析软件的市场产生深远的影响。 1. 什么是R?R是一个能够自由有效地用于统计计算和绘图的语言和环境,它提供了广泛的统计分析和绘图技术,包括线性和非线性模型、统计检验、时间序列、分类、聚类等方法。1992年,Ross Ihaka(图左)和Robert Gentleman(图右)在奥克兰大学成为同事。后来为了方便教授初等统计课程,二人开发了一种语言;而他们名字的首字母都是R,于是R便成为这门语言的名称。从R语言的发展历史上看,R主要是统计学家为解决数据分析领域的问题而开发的语言,因此R具有一些独特的优势。 - 统计学家和前沿算法(3400+ 扩展包)。
- 开放的源代码(自由且免费),可以部署在任何操作系统,例如Windows、Linux、Mac OS X、BSD、Unix。
- 强大的社区支持。
- 高质量、广泛的统计分析、数据挖掘平台。
- 重复性的分析工作(Sweave = R + LaTeX),借助R语言的强大分析能力+LaTeX完美的排版能力,可以自动生成分析报告。
- 方便的扩展性。
–可通过相应接口连接数据库,例如SAP HANA、DB2、MySQL。 – 同Python、Java、C、C++等语言进行互调。 –提供API接口均可以调用,例如Google、Twitter、Weibo。 –其他统计软件大部分均可调用R,例如SAS、SPSS、Statistica等。 –甚至一些比较直接的商业应用,例如Sybase RAP、R add-on for Teradata等。参考阅读 KDnuggets网站每年都会做一些数据分析、数据挖掘方面的专题问卷调查,在2011年8月的数据挖掘领域语言流行度的调查中,R语言位居数据挖掘领域所有语言之首(如下图所示),而紧随其后的SQL、Python、Java则在某一领域具有各自独到的优势。在数据挖掘范畴下,R语言同这些语言相互补足、相得益彰。根据互联网搜索结果计算的TIOBE编程社区指数(Programming Community Index)【注:TIOBE (2011). http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html.】可能更能代表编程语言的流行度。在2011年12月份排名中,R语言依旧是统计领域中最为流行的语言,位列第24(Ratings 0.522%),而时常被放在一起比较的SAS则排名第31(0.417%)。 2. R与SAS、SPSS之比较R与SPSS、SAS相比较,拥有非常突出的优势: 1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor 在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。 2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。 3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。
表:R与SAS、SPSS之比较 主题 | SAS产品线 | SPSS产品线 | R语言相关包 | 高级模块 | SAS/STAT® | SPSS Advanced Models™ | stat, MASS及众多扩展包 | 基础模块 | SAS® | SPSS Base™ | R | 联合分析 | SAS/STAT®: Transreg | SPSS Conjoint™ | homals, psychoR , bayesm | 对应分析 | SAS/STAT®: Corresp | SPSS Categories™ | homals, MASS, FactoMineR
ade4, PTAk, cocorresp, vegan, made4, PsychoR | 自定义表格 | SAS Base® Report、SQL, Tabulate | SPSS Custom Tables™ | reshape | 数据接口 | SAS/ACCESS® | SPSS Data Access Pack™ | DBI, foreign, RODBC | 数据挖掘 | Enterprise Miner™ | Clementine® | rattle, arules, FactoMineR | 数据校验 | Various procedures | Various procedures,
SPSS Data Preparation™ | dprep, various functions | Exact Tests | SAS/STAT®: various | SPSS Exact Tests™ | coin, elrm, exactLoglinTest,
exactmaxsel, exactRankTests,及其他许多包 | 基因分析 | SAS/Genetics®,
SAS/Microarray®
Solution®, JMP
Genomics® | 无 | Bioconductor | GIS | SAS/GIS®,
SAS/Graph® | SPSS Maps™ | maps, mapdata, mapproj,
GRASS via spgrass6,
RColorBrewer及其他包的部分功能 | 交互图 | Enterprise Guide® | SPSS Base™ | JGR, R Commander, pmg,
Sciviews | | SAS/INSIGHT® | 无 | GGobi via rggobi
iPlots, Mondrian via Rserve | 统计图 | SAS/GRAPH® | SPSS Base™ | ggplot, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, lot, geneplotter, Rgraphics | 分析向导 | SAS/LAB® | 无 | 无 | 矩阵数学 | SAS/IML®, SAS/IML | SPSS Matrix™ | R, matlab, Matrix, sparseM | 缺省值分析 | SAS/STAT®: MI | SPSS Missing Values Analysis™ | aregImpute (Hmisc), EMV,
fit.mult.impute (Design), mice,
mitools, mvnmle | 统筹研究 | SAS/OR® | 无 | glpk, linprog, LowRankQP, TSP | 统计效力检验 | SAS® Power and
Sample Size
Application,
SAS/STAT: Power,
GLM Power | SamplePower™ | asypow, powerpkg, pwr,
MBESS | 品质控制 | SAS/QC® | SPSS Base™ | qcc, spc | 回归模型 | SAS/BASE® | SPSS Regression
Models™ | R, Hmisc, Design, lasso, VGAM, pda | 抽样及调查 | SAS/STAT®:
surveymeans,等 | SPSS Complex Samples™ | pps, sampfling, sampling,
spsurvey, survey | 结构方程模型 | SAS/STAT®: Calis | Amos™ | sem | 文本分析 | Text Miner | SPSS Text Analysis for
Surveys™, Text Miner
for Clementine® | Rstem, lsa, tm | 时间序列 | SAS/ETS® | SPSS Trends™ Expert
Modeler | 大量的包可完成 | 时间序列分析预测 | SAS Forecast
Studio® | SPSS Trends,
DecisionTime/WhatIf™ | 无 | 决策树 | Enterprise Miner™ | SPSS Classification
Trees™, AnswerTree™ | ada, adabag, BayesTree,
boost, GAMboost, gbev, gbm,
maptree, mboost, mvpart,
party, pinktoe,
quantregForest, rpart,
rpart.permutation,
randomForest,
randomForests, tree | 3. SAP HANA与R的集成SAP 并不在SAP HANA数据库中打包R环境,因为R是在GPL许可框架下的一个开源的软件。SAP 也不提供对R本身的技术支持。用户可以从R官方网站上下载到软件、文章和相关的系统配置。 SAP HANA与R的安装分为3步: 1. 安装 (on a separate host). 2. 安装Rserve (on a separate host). 3. 配置 SAP HANA 参数. 要在SAP HANA中处理R代码,R 代码被嵌入在RLANG 过程的SQLScript中. SAP HANA 数据以使用外部的 R 环境执行R 代码,类似于本地数据库中joins 或 aggregations 操作. 这可以让应用开发人员轻松的嵌入R的函数库,并在SQLScript中调用,并作为数据库查询的一部分提交全部代码。
SAP HANA 与 R 集成
本贴转自http://scnblogs.techweb.com.cn/fssc/archives/808.html
偶见此贴 特转来与大家分享 |