欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

谢文:大数据概念混乱 未来或将卷入混战

程序员文章站 2022-06-28 10:31:50
10月24日消息,今天,“中国TMT国际商会月度英雄汇”在北京召开。知名IT评论人、前雅虎中国总经理谢文(微博)在会上表示,现在人们对于大数据的认识有很多误区,今...

10月24日消息,今天,“中国TMT国际商会月度英雄汇”在北京召开。知名IT评论人、前雅虎中国总经理谢文(微博)在会上表示,现在人们对于大数据的认识有很多误区,今年甚至是接下来的两三年,大数据将会卷入一种混战。

谢文认为,现在业内针对大数据的概念主要有三种看法:一种认为大数据是过去时,因为大数据古已有之,在物理学、生物学、医药业等领域已经搞了几十年了;第二种是完成时,因为有些公司已经声称,能够提供从硬件到软件再到方法的完整大数据解决方案;第三种是进行时,因为也有很多互联网公司正在加大投入,在数据获取、存储、整合、挖掘等方面发奋努力。谢文则把大数据定义成为未知,作为努力的方向,作为未来讨论的一种概念。

谢文表示,人们在大数据的认识上有几个误区。第一,只是从量上说,光看到数据的增长,没法说清楚普通数据和大数据的区别。数据大绝对不等于大数据。现有的设备、技术方法所能处理的多数是数据大,不是大数据。数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。第二,脱离产业发展和社会进步的大背景,单纯地鼓励讨论大数据无法说明其重要性。把大数据这个事情作为技术问题来探讨,很难证明他有投资价值。

谢文称,实现数据的标准化、开放化和通用化,关键在于如何冲破个人隐私、商业利益、行业垄断的限制,实现数据的低成本、高效率、大规模的聚集和整合,而像中国电信(微博)、中国联通(微博)这个级别的公司,必须要扮演相当的角色才有机会。

谢文最后表示,2013年是大数据时代元年。2015年左右大数据必有大创新出现,2020年前后必有大成功公司上市。

以下是知名IT评论人、前雅虎中国总经理谢文演讲实录:

感谢大家,我从大概过去半年左右时间写了十篇关于大数据的文章,杂志上也有,这只是出于我的嗜好,关于互联网,关于大数据的发展。没想到这次的反响远远高于以往的经历,2005年开始我推Web2.0的概念,后来一理就大发了,就乱套了。后来我卷入关于什么是新媒体的争论,最后我得罪了大量传统媒体的朋友。应该说大数据这个概念开始出来,但是从我最近这一段常常被各种机构、各种部门、企业叫去参加会,参加演讲,最重要的困惑就是大家对大数据有兴趣。一张嘴,南辕北辙,完全不在一个兴趣点,完全不在一个点上。所以我想站在互联网发展的历史,和投资的角度向各位介绍一下我想理解的真的大数据,或者半真半假,或者是大数据的环节,或者是假的大数据。

在互联网在中国开始初期,1999年到2010年我管它叫做互联网争论,1999年参加券商和投资金融的会,当时有人能一口数出中国有80个是互联网概念股,非常吓人,其结果不言自鸣。2003年到2005年是互联网真正见真钱的时候,靠电信公司的宽大政策,我们大家都活下来了。但是当时ISP这个概念下,鱼龙混杂,最终混了这个行当,也是概念上的混乱。2007年到2009年是WEB2.0,最后尘埃落定,中国竟然没有一家像Facebook的公司能够脱颖而出。我早期做的校内,现在流量排第12,其实后面还有关于真假新媒体,真假电子商务,去年、今年、现在余震未平,大概上万个团购投了前后二三十亿,现在一地鸡毛,所以我觉得今年,包括下面两三年大数据会卷入一种混战。

因为我们无论从投资者、创业者、经营者还是媒体推波助澜,大家喜欢看宏观、微观、局部,这是好事,怕的是你摸着石头过河,一路摸下去,越摸越惨。讨论大数据用的“时”还是不一样的。

一种认为大数据是过去时,大数据古已有之,在物理学、生物学、医药业等领域已经搞了几十年了。这个概念本身听着就悬乎,大数据,形容词,不是严格的定义,喜欢说过去时的多数是学术界的人,知识界、学术界,他们有纯粹的讨论数据大的怎么办?

另一种认为大数据是完成时,“我们能够提供从硬件到软件再到方法的完整大数据解决方案”,他说随便来,我早准备好了,你提供钱就是。我不是说这个路就错了。或者我讨论问题也是这么讨论,我从来不把创新和技术障碍作为前提放在前面,我假定技术条件是具备的,我们回想几次互联网大创新,技术条件都在那。那么多互联网公司只有你有好主意,他们一定能跟上。

还有一种认为是进行时的。“我们正在加大投入,在数据获取、存储、整合、挖掘等方面发奋努力”,说这种话的都是互联网公司,或者电信公司,他的意思是这点事尽在囊中。这些都是互联网公司的,但是这三种我个人都是不同意的,我使用的是将来时代,大数据不仅是网络业的未来,而且是整个社会和经济发展的未来,现在应该开始讨论、研究、尝试这个方向的问题了。

我就把它作为未知,作为努力的方向,作为未来来讨论的。我不敢绝对的说我是对的其他三位是错的,但是相互之间有关系,我个人认为至少过去是完成时肯定是错的。我们TMT商会不会考古为兴趣,不是以研究历史为兴趣,我们是研究未来的。

还有一个观察点是讨论大数据的时点,这是我们在第三篇文章里面讲过的,非常巧合,1996年雅虎上市,2004年谷歌(微博)上市,2012年Facebook上市,间隔都是八年。雅虎在我看来解决的网页聚合问题,漫山遍野的网页,他想到了一个办法,门户解决方案可以分门别类,你就不用去找了,靠我们的专家队伍把它编辑成为一种分门别类的,无所不包的门户,这个时代回过头去,我把它叫做Weo1.0时代,到谷歌,他说我管你什么网页,我把它细分一个层次,直接抓主题词,把主题词按照一种算法,聚合起来,让人们高效的获取,这个比网页聚合的方式高效得多,但是从本质上是和网页是一样,从内容方面找路子。所以叫做WEB1.5。FackBook就换了一个角度,叫使用者聚合,从获取者角度搞联系,搞关系,按照信息真实的传播渠道找出路,这是就是我称之为WEB2.0,它又代表了一个时代。是不是再过八年,我现在基本肯定,我们将进入下一个阶段讲话数据聚合,我从数据入手就可以把已经在网上的东西,包括比如物质的东西,世界上的万事万物都可以数据化,我们把它弄起来,我认为下一个大创新应该是这样。另外,2008年的经济大危机,现在回想起来正好是FackBook创造了平台分离,应用平台。是不是预示着现在大家做常规性的小动作肯定不是好时机了?而想办法参与目前一次大创新才是生路,所以我觉得最近讨论大数据很热,各行各业的人都来了,甚至*里面的人都很关注。最近汪洋同志都推进了一本书叫做大数据,是不是反映了正好到的时代,要搞一个大创新。

1996年雅虎上市的时候,谷歌还没成立,谷歌上市的时候FackBook还没有成立,所以我们可以推测FackBook今年上市了,带领大数据创新的公司还没有成立。

什么不是大数据?我可以斩钉截铁的说,数据大不等于大数据,大多数人把数据大称之为大数据,过去多少K,后来多少兆,现在用T了。人家早等着呢,后面还有20多个名字呢,这种简单的数量的增长真的是量变和质变吗?量本身有差距吗?现有的设备、技术方法所能处理的多数是数据大,不是大数据。数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。你可以想像他做的精细化运营的成本,大概其能够抵消精细化营销的收入,基本上是零。不会产生推倒重来,重新玩的效果。这是现在最常见的大数据定义,三V定义,多样性、体量、速度。我按照那个逻辑先给一个操作化定义,比如说多样性,什么叫做多样性,姓名、身高,这是描述一个人不断的精细化而已,多不是多样,所以我说第一个数据来源多样,刚才我们领导也专门讲过这个问题。大数据必然是开放式的,必然是公共的。一家公司不管多大,我们腾讯算中国最大的,你还得知道,他的数据有相当的同质性。有相当的局限性,有相当一个角度下的介入,如果跨出去会好很多,比如说腾讯和百度,现在两大公司,咱们两家公司数据百分之百兑换、共享,那就有意思了。

现在美国*搞的开放政策联盟,40几个国家了,美国和英国非常有意思,他都反映了只有我们在现实世界打不破的界限,在数据层面我们打破了。大的数据来源才可能多样性,我后面会仔细讲这件事情,数据种类的多样性,数据形式在变,有文字、语音、图表、图片、视频,信息和数据是有差别的,有定义的信息是数据,但是有相当我们现在不可解的东西,不能称之为数据,只是信息而已。数据对象的多样性,个人信息、个人数据,商业服务数据,社会公共数据,还有自然界的,物质世界的数据,只有考察多样性是从这个意义上理解,而不是自己一家一户的事越捣越细,这个数据才有生命性。大数据的多样性越高,潜在的价值就越大。

体量很简单,我们现在讨论大数据,起码是以TB为基本计量单位,我在美国上学的时候,打工、吃饭做数据分析,那个时候基本上一个T就束手无措了,现在TB是一个可以做的,成本也不是那么高,现有很多厂商都有解决方案了,是不是再过一段要PB,说不定。现在你看FackBook一张嘴就说每天500B的数据,谷歌说我是三个P的数据,就是体量的概念。还有一个概念我是很看重的,数据之间的关系和复杂性,这种极其复杂的做建模的,做数据挖掘的应该有体会,有一阵子谷歌找我希望我去,当时2008年底,他们的模型是模型群了,大模型矩阵,62000个,之间的关系可以任意,张三、李四建无数的模,这个概念应该放在体量的概念上,关系复杂性这个也放在体量之下。大数据体量越大,潜在的价值越大。

还有一个所有速度,我写的两篇都用到摩尔定律,其实摩尔定律在大数据上仍然有效,一个方向是数据种类每年翻番,数据体量每年翻番。后面基本上就是摩尔定律的变种了,单位数据获取的成本每年减半,单位数据每年存储的成本每年减半,单位数据利用的成本每年减半,如果那边也翻番,成本也翻番,那个是不可能的。大数据增长速度越高,潜在价值就越大。

大数据认识有几个误区,第一个只是从量上说,你看数据增长了,这样说你是没法划线的,没法说清楚普通数据和大数据的区别哪,一个T和一个P数据本质有什么差别?仅仅因为大?惠普说没有问题,我这出了一个P和一个T一样,解决了。

脱离产业发展和社会进步的大背景,鼓励讨论大数据无法说明其重要性。只要你干这件事,技术作为已知,总有人给你找到办法,隐私权啊,算法啊,都有办法,一定有办法。把大数据这个事情作为技术问题来探讨,很难证明他有投资价值,我们互联网历史上第一波的明星,北电他们,即使活着的公司,现在比不上真正挖金子的。所以不能脱离产业发展,不能脱离社会进步,尤其是这次大数据有点像互联网刚开始,互联网很多年了,互联真正启动是戈尔带头,去年出了大数据国家战略,美国*带头他先搞,凡是用了联邦*一分钱的,单位必须公布你的数据,推广到所有的发达国家,现在推广到相当一部分不发达国家,肯尼亚、菲律宾这样的国家都开始搞这一套,所以我们必须开始考虑大数据背后的社会、经济、广义的利益。啊

只能看到现有产品和服务的改进和完善前景,看不到产业创新的价值链重组的巨大空间。需要重新定义大数据,我不说我是正确版本,但是我这是一个方向。这是互联网服务发展历史上,什么叫做虚假大数据,一维数据都是我们现有技术和现有能力看到的,没什么讨论的,一个G和一个T,一个P、一个Z是一回事,只要你肯放钱都有招,但是增值的前景也极其有限,只是精细化而已。个人数据方面,历史上第一批互联网的服务,Email、博客、照片、行为用户都是围绕着你的用户搞起来的用户之间的事,好像到现在还没有哪一个有商业模式。

物质世界的比如商品,比如地理信息,比如自然的,像美国*花了很多钱搞传感器,可以预知海浪的东西,这些都是对自然的探索,获取自然的数据,应该说迄今为止,商品不是买商品,一维跟人没关系,比如说慧聪引导商情。这类东西,应该说包括前一段搞定位服务的,大家多找不到北,都是就定位谈定位,没有商业模式。只有对社会数据,在我们Web1.0时代,比如法律的、财经、新闻、公共服务,报纸的、媒体,这个东西在互联网产生数据。半真半假的大数据是二类数据,世界两大类信息汇集的时候,互联网业大本世纪以来,我们探索得差不多就是这个事,一维上找不到钱,我们试试别的看法,比如说个人和人会,现在微博电子,网络游戏,甚至搜索,都是社会、个人。比如说搜索凭什么是社会和个人,你想象它的算法就知道了。它是根据一个主题词在某种网页上的权重怎么来的,是根据社会集成数据来的,建立了关系,建立了复杂度,产生了商业模式,同样个人数据和社会数据的结合,产生的微博、电子政务、网络游戏。个人被定了,物理的被捆死了。物质世界和社会数据,像天气预报,像我们前一段时间比较红的物联网、地图服务,我说地图服务就是到谷歌地图级别的服务,这些东西使得互联网到今天是一个朝气蓬勃,相当有杀伤力的。

到现在为止这类东西也扯不上大数据,现在做得挺好,所以它应该说半真半假,它的规模加大了以后也有很多东西和挑战,但是它仍然是现在思考范围内可以做大的。真正的的数据是三维数据,个人数据、社会工具、物质世界数据三者结合在一起。这里面马马虎虎有这个意思,比如说FackBook,FackBook是人,但是他可以高度的互动,形成群组,形成公共空间,获取媒体,他的应用层次可以放入大量物质世界的服务,人、社会、物质有可能联系,移动终端是有机会的,因为移动终端说穿了和我们过去的台式终端就几个差别,第一个人化,第二多了一个定位,固定的东西无所谓定位,第三屏幕小了,屏幕小了需要你把提供的信息精致华、个人化,小的地方才可以容纳它。然后就是谷歌街景DATA.GOV。大数据概念定义:大数据是以TB为基本计量单位的且以年增长量至少翻番的互联网动态三维数据,这三维是个人、社会和物质世界。

回到具体的话,在我看来获取信息的前端不是难点,我们现在有无数各种各样的,花样繁出的东西获取终端,包括传感器,包括苹果又出了新的东西,谷歌也出眼镜了,所以,获取信息的手段、技术方面是一条坦途,后台我个人也认为没有什么了不起的挑战,比如说云计算,数据库技术,各种软件和算法,我觉得都是积累的过程,改进的过程。那么多终端在什么平台上能够汇在一起,变成有序的格式化、公式化类的东西,数据的标准化、开放化和通用化,现在大家都说标准难,但是标准过去真难的是开放和通用,如何冲破个人隐私、商业利益、行业垄断的限制,实现数据的低成本、高效率、大规模的聚集和整合。像电信、联通这个级别的公司,必须要扮演相当的角色才有机会。

问:我们非常赞同你第一个说法,但是苹果所做的恰恰是跟这三个反着来的,但是却得到的巨大的成功。

谢文:这是发展中的现象,乔布斯知道开放通用更好,但是打仗在某一个阶段可能要做封闭,我变成中心以后才开放,这是战术级的,不是原则性的。

如何从现有商业模式的改良和运营精细化转化为商业模式的创新,凡是在以上三个方面具有创新想法和实施能力的公司都有投资价值,如历史上的谷歌、苹果、亚马逊和FackBook。

最后我想举几个我觉得特像大数据,目前我看到的例子,我觉得他跟我定义的大数据有点像。美国宾夕法尼亚大学宣布用改进的3D打印出了鲜肉,这种利用糖、蛋白质、脂肪、肌肉细胞等原材料打印出的肉具有和真正的肉类相似的口感和纹理。这是英国每日邮报报道的。

既然食品可以数据化生产,还有什么不能?大数据的边界被扩大了,主角未必是网络公司。现在有,但是我们用的是其他词,我出来之前还有一个北航版,激光金属熔化精密制造,就是把金属粉打飞机部件,高度复杂,3D打印这个词很俗,但是现在就是这个意思,物质变数据,数据变物质,这是巨大的互联网公司应该彻底把边界打开,在制造成本降低后,大规模推广仍然需要依托互联网进行。比如说我们散会,或者将来有一个服务在这,你拿你的iPhone定一个鱼香肉丝,你家里的打印机就给你打,你回家就吃。传统零售业会消失吗?

大数据雏形的第二个例子,一家名为气侯公司的创业企业,每天都会对美国境内超过100万个地点,未来两年的天气情况进行超过1万次的模拟。随后该公司将根系结构和土壤孔隙度的相关数据,与模拟结果相结合,为成千上万的农民提供农作物保险。这是一个全新的商业模式,他把一桶或者切块的,粗矿式的商业保险个性化了,同时他利用了人、社会、自然三种数据。他需要利用自然的、商业的、个人的、公共的数据,他租房亚马逊的公共云,他自己估算自己建一套是800万的开支,对刚创业的公司肯定是公共云更核算,这就代表了大数据未来的方向,包括操作、产业生态、商业模式和创新的空间,我个人最喜欢的是这个,肉的那个东西稍微有定耸人听闻,弄得再像你敢吃吗?

第三个例子,美国南加大教授成功地在26小时内使用龙门吊式专业3D打印机打出一所可以居住的独立住宅,包括水电管线和内外部基本装修。房屋强度是传统方式的8倍,建造成本是传统方式的60%。既然房屋可以数据建造,还有什么不能?我们听说空客2015年要全面打印出一架飞机,现在空客上12%内部的零件是打印出来的,这已经是现实,不是未来的。远距离个性化设计,无数参考模型,所见即所得。你完全可以进行个性化服务,降低建筑业专业门槛,特别是老板头疼的打破工会的垄断。这是第三个例证。

我希望大家讨论大数据的时候,不要就我们已经干过的,或者被外界认为互联网业或者电信业应该干的事拘束,我就管他叫做大数据时代。这个数据下一个可能是货币,再往下可能是具体化的商品,货币是一次抽象,没有什么东西是不可数据化的。现在人们努力,世界正在以更高的速度变成数字化的地球,古代的宗教说万物有灵论。现在我们修改一下叫做,万物有数据。

我知道给我的名单上都是投资的,我扇忽一下,2013年是大数据时代元年。2015年左右大数据必有大创新出现,2020年前后必有大成功公司上市。忽悠完了,谢谢。