找回密码
 注册
查看: 3833|回复: 1

大数据的5个神话

[复制链接]
发表于 2013-7-24 14:50:36 | 显示全部楼层 |阅读模式
大数据的5个神话Comment

有关大数据的5个神话 和5种合适的使用大数据的理由

简介
Catherine Truxillo 是德克萨斯大学奥斯汀分校 的社会学博士,从2000年开始在SAS 做统计课程方面的培训专员。凯瑟琳博士本人独立编写和与人共同编写了很多统计方面的课程在SAS,例如多元统计、线性和广义线性统计、多级模型、结构方程模型、统计过程干预等著作。她目前的主要方向是高级统计,SAS的企业级服务咨询顾问。
“在我们仍然没能充分的利用结构化数据的情况下,怎样才能理解非结构数据呢?”,这句话是一位大型零售企业的一位高级经理发出的抱怨。
凯瑟琳 博士觉得她的工作最令人感到幸福的一点就是,在她教授的课程结束后仍然能和学生们保持联系。下面的一段对话就是和她经常联系的,以前的一位学生与她的一段关于数据的对话。

“jake”(虚拟的名字),管理一个技术预言模型团队,他目前正主导建设一个分析型的数据集市,这个工程集成企业生产过程中各方面的数据,例如:供应商、顾客、交易流水、渠道、市场、公司合并的业务单元等等。目前jake 已经取得了良好的进展并且这个模型的一个版本已经能发现一些对企业有意义的数据,通过这种将所有数据集成的方式。但是jake 打电话给凯瑟琳博士,因为他目前正在被一位市场部的经理要求停止目前的工作已经所取得的进展。这位市场经理想放弃目前jake 带领的团队所从事的方向,因为他们的数据是建立在结构话数据上,而这位经理认为真实的数据洞察来自于非结构化数据,因为公司应该将投资和中心放在非结构数据上。 jake 想让这位市场部经理认识到目前的数据预测模型可以带来的价值。
目前大部分公司都投资不同的资源在非结构化数据,这是一个未被开发的、能带来巨大价值的 领域。但非结构化数据也不是那么神话。下面就是5个关于非结构话数据的神话:

1.非结构话数据更易管理
从非结构化数据的定义来看,非结构化的数据  没有被整齐的结构化,不能更易的被目前的分析算法直接使用。如果想汇总非结构数据,必须将非结构化数据结构化之后才能将各种数据的汇总指标 量化出来

2.非结构化数据总是可以合法的被使用
目前仍不是十分明确,来自Facebook、twitter 的数据是否可以被合法的商业化利用。像结构化数据一样,不同的国家、不同的工业 在数据的利用上都有不同的规则。非结构化数据糟糕的地方就在于它更容易隐藏用户的身份信息,这在很多国家都是违法的。

3.更容易分析和理解
目前大多数非结构化数据的分析都使用大型的矩阵和复杂的运算。两个主要的难点在于:1,统计学家的发现数据价值的能力 2,更容易的使用软件。这两件事情看起来很容易,但是实际上是在后面应用非常复杂的计算和重型的基础设置来支撑的、

4.非结构化相比结构化数据能发现更多的价值
及时非结构化数据中隐藏着巨大的价值,但是目前统计学家仍然在使用非常老的统计模型应用在非结构数据上,即使在这10年内也许不是上面说的情况了,但是统计学家仍然重新发明轮子在结构化数据统计领域。没有更新的统计模型被设计用于非结构化数据。

5.非结构化数据不能被定量分析
几十年的自言语言处理发展和摩尔定律能使非结构数据被量化和汇总,并仍可以发现需要检测的模式匹配、这种方式将统计带到了一个新的世界中。

如果读者从上面的5个观点中觉得凯瑟琳博士 不是很理解什么是非结构化数据,下面则是她关于非结构化数据的5个优点上的认识,让我们一起来看看

1.已经很好的利用了结构化数据
如果企业已经充分的利用了结构化的数据统计,如 统计模型、细分、实验以及其他的统计技术,此时企业可以从大数据中获得更多的价值。如果企业连结构化数据都没有利用好,并且创造价值 何谈大数据呢?

2.有一支经验丰富的统计团队
能将商业化和统计结合起来,以统计学的方式,以数字的形式 解答企业生产中面临的问题,他们真的了解为什么是 odd ratio(比值比 http://en.wikipedia.org/wiki/Odds_ratiohttp://blog.sina.com.cn/s/blog_4af3f0d20100b9dh.html)和聚合比(plain old odd),他们为什么是有用的。团队成员之间彼此都能明确的理解彼此的意图和想法。他们可能醉心于良好的图形化展示,或是对饼图有天生的厌恶。

3.有非常好的软硬件资源可供利用
前面提到的,非结构数据通常需要海量计算来完成。每一条160个字符的推文都需要被转化成数值形式的表示,最简单的情况是 单词的统计(hadoop word count),复杂的情况下将每一条推文的每一个单词都从存储在表中。你的硬件能存储多少推文?这需要十分庞大的数据库 表。如果再将web 页面点击,email 过滤,或是其他的非结构化数据放入表中,则需要非常大的存储空间。如果应用一些更好的硬件,则在数据处理上相对可以更容易一些、

4.已经从数据图形化中获得一定的回报
如果企业已经拥有高质量的结构化数据,并且这些数据被集成进数据仓库,那么企业就可以将客户彼此连接起来。如果企业还想知道 这些客户或是供应商 是否在社交网络 如facebook 上也是有关联的,如果能知道客户在社交网络上的联系,则可以将这些关联信息转化成结构化数据 存储在数据库中。举一个假设的例子,如果企业可以知道客户C 最好的朋友、母亲、配偶,通过预测得知他们都有很高的和企业解除合同的风险,因此可以提前给这些客户的收件箱发送一封带有 “Please Don`t Go” 的邮件去讨好并挽留客户。社交网络关系链能挖掘出非常有价值的数据非结构化数据。

5.企业本身有拥有大量的结构化数据
如果企业自身由于生产需要采集大量的非结构化数据,则不应该错过针对非结构化数据进行价值挖掘的机会。问题在于怎么样利用这些数据产生价值,如市场部可以预测信贷风险通过大量的数据处理。

回到jake的故事钟来,最后的答案是jake 的公司保留了jake的项目,模型团队将继续通过对结构化数据的分析挖掘出价值。市场部经理独立 带领一只团队针对非结构数据 进行处理和挖掘、最后非结构数据和预测模型的数据集市将结合,共同为企业创造价值。
jake的公司依然从预测数据模型库中获得有价值的回报,同时jake 也使经理同意继续对数据集市加大投入。然而,他现在正带领团队分析从呼叫中心发送过来的大量结构化的数据。可以确定的是,这个工程相遇比结构化数据集市来说是一个相对较慢的工程,但如果他们能聪明的利用非结构化数据去提升统计数据库的功能性,则相对于单独的利用结构化和非结构化,将它们结合显然能创造更多的价值。
paper download:
http://blogs.sas.com/content/sastraining/2013/07/08/five-myths-about-unstructured-data-and-five-good-reasons-you-should-be-analyzing-it/


回复

使用道具 举报

发表于 2014-4-30 12:10:41 | 显示全部楼层
还没用到过M的数据,汗颜。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-4-3 20:54 , Processed in 0.021685 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表