找回密码
 注册
查看: 3127|回复: 0

大数据环境下用HANA和R构建计量经济模型

[复制链接]
发表于 2013-5-30 10:03:17 | 显示全部楼层 |阅读模式
本帖最后由 genechip 于 2013-5-30 10:05 编辑

2012年进入年终倒计时了。回顾2012年SAP HANA 的发展,个人认为2012年11月发布的SAP HANA SP5版中将HANA的内存计算和R丰富的统计分析能力完美结合可以称为HANA 1.0 发布以来,又一个最具里程碑意义的发布。这一里程碑式的发布开启了运用HANA和R在大数据环境下在构建计量经济模型和统计分析的篇章,让数据挖掘、机器学习等技术把商务分析带入更深、更广、更实时的空间。展望2013,我们有理相信HANA和R的集成将对未来商务统计分析软件的市场产生深远的影响。
1. 什么是R?
R是一个能够自由有效地用于统计计算和绘图的语言和环境,它提供了广泛的统计分析和绘图技术,包括线性和非线性模型、统计检验、时间序列、分类、聚类等方法。1992年,Ross Ihaka(图左)和Robert Gentleman(图右)在奥克兰大学成为同事。后来为了方便教授初等统计课程,二人开发了一种语言;而他们名字的首字母都是R,于是R便成为这门语言的名称。从R语言的发展历史上看,R主要是统计学家为解决数据分析领域的问题而开发的语言,因此R具有一些独特的优势。
  • 统计学家和前沿算法(3400+ 扩展包)。
  • 开放的源代码(自由且免费),可以部署在任何操作系统,例如Windows、Linux、Mac OS X、BSD、Unix。
  • 强大的社区支持。
  • 高质量、广泛的统计分析、数据挖掘平台。
  • 重复性的分析工作(Sweave = R + LaTeX),借助R语言的强大分析能力+LaTeX完美的排版能力,可以自动生成分析报告。
  • 方便的扩展性。
–可通过相应接口连接数据库,例如SAP HANA、DB2、MySQL。
– 同Python、Java、C、C++等语言进行互调。
–提供API接口均可以调用,例如Google、Twitter、Weibo。
–其他统计软件大部分均可调用R,例如SAS、SPSS、Statistica等。
–甚至一些比较直接的商业应用,例如Sybase RAP、R add-on for Teradata等。参考阅读
KDnuggets网站每年都会做一些数据分析、数据挖掘方面的专题问卷调查,在2011年8月的数据挖掘领域语言流行度的调查中,R语言位居数据挖掘领域所有语言之首(如下图所示),而紧随其后的SQL、Python、Java则在某一领域具有各自独到的优势。在数据挖掘范畴下,R语言同这些语言相互补足、相得益彰。根据互联网搜索结果计算的TIOBE编程社区指数(Programming Community Index)【注:TIOBE (2011). http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html.】可能更能代表编程语言的流行度。在2011年12月份排名中,R语言依旧是统计领域中最为流行的语言,位列第24(Ratings 0.522%),而时常被放在一起比较的SAS则排名第31(0.417%)。
2. R与SAS、SPSS之比较
R与SPSS、SAS相比较,拥有非常突出的优势:
1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor 在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。
2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。
3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。
表:R与SAS、SPSS之比较
主题
SAS产品线
SPSS产品线
R语言相关包
高级模块
SAS/STAT®
SPSS Advanced  Models™
stat, MASS及众多扩展包
基础模块
SAS®
SPSS Base™
R
联合分析
SAS/STAT®: Transreg
SPSS Conjoint™
homals, psychoR , bayesm
对应分析
SAS/STAT®: Corresp
SPSS Categories™
homals, MASS, FactoMineR
ade4, PTAk, cocorresp, vegan, made4, PsychoR
自定义表格
SAS Base® Report、SQL, Tabulate
SPSS Custom Tables™
reshape
数据接口
SAS/ACCESS®
SPSS Data Access Pack™
DBI, foreign, RODBC
数据挖掘
Enterprise Miner™
Clementine®
rattle, arules, FactoMineR
数据校验
Various procedures
Various procedures,
SPSS Data Preparation™
dprep, various functions
Exact Tests
SAS/STAT®: various
SPSS Exact Tests™
coin, elrm, exactLoglinTest,
exactmaxsel, exactRankTests,及其他许多包
基因分析
SAS/Genetics®,
SAS/Microarray®
Solution®, JMP
Genomics®
Bioconductor
GIS
SAS/GIS®,
SAS/Graph®
SPSS Maps™
maps, mapdata, mapproj,
GRASS via spgrass6,
RColorBrewer及其他包的部分功能
交互图
Enterprise Guide®
SPSS Base™
JGR, R Commander, pmg,
Sciviews
SAS/INSIGHT®
GGobi via rggobi
iPlots, Mondrian via Rserve
统计图
SAS/GRAPH®
SPSS Base™
ggplot,  gplots, graphics, grid,  gridBase, hexbin,  lattice,  plotrix, scatterplot3d, vcd,  lot, geneplotter,  Rgraphics
分析向导
SAS/LAB®
矩阵数学
SAS/IML®, SAS/IML
SPSS Matrix™
R, matlab, Matrix, sparseM
缺省值分析
SAS/STAT®: MI
SPSS Missing Values  Analysis™
aregImpute (Hmisc),  EMV,
fit.mult.impute (Design), mice,
mitools, mvnmle
统筹研究
SAS/OR®
glpk, linprog, LowRankQP, TSP
统计效力检验
SAS® Power and
Sample Size
Application,
SAS/STAT:  Power,
GLM Power
SamplePower™
asypow, powerpkg, pwr,
MBESS
品质控制
SAS/QC®
SPSS Base™
qcc, spc
回归模型
SAS/BASE®
SPSS Regression
Models™
R, Hmisc, Design, lasso, VGAM, pda
抽样及调查
SAS/STAT®:
surveymeans,等
SPSS Complex  Samples™
pps, sampfling, sampling,
spsurvey, survey
结构方程模型
SAS/STAT®: Calis
Amos™
sem
文本分析
Text Miner
SPSS Text Analysis for
Surveys™, Text Miner
for Clementine®
Rstem, lsa, tm
时间序列
SAS/ETS®
SPSS Trends™ Expert
Modeler
大量的包可完成
时间序列分析预测
SAS Forecast
Studio®
SPSS Trends,
DecisionTime/WhatIf™
决策树
Enterprise Miner™
SPSS Classification
Trees™, AnswerTree™
ada, adabag, BayesTree,
boost, GAMboost, gbev, gbm,
maptree, mboost, mvpart,
party, pinktoe,
quantregForest, rpart,
rpart.permutation,
randomForest,
randomForests, tree
3. SAP HANA与R的集成
SAP 并不在SAP HANA数据库中打包R环境,因为R是在GPL许可框架下的一个开源的软件。SAP 也不提供对R本身的技术支持。用户可以从R官方网站上下载到软件、文章和相关的系统配置。 SAP HANA与R的安装分为3步:
1. 安装 (on a separate host).
2. 安装Rserve (on a separate host).
3. 配置 SAP HANA 参数.
要在SAP HANA中处理R代码,R 代码被嵌入在RLANG 过程的SQLScript中. SAP HANA 数据以使用外部的 R 环境执行R 代码,类似于本地数据库中joins 或 aggregations 操作. 这可以让应用开发人员轻松的嵌入R的函数库,并在SQLScript中调用,并作为数据库查询的一部分提交全部代码。

SAP HANA 与 R 集成






本贴转自http://scnblogs.techweb.com.cn/fssc/archives/808.html
偶见此贴 特转来与大家分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-22 12:52 , Processed in 0.026111 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表