欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

大数据革命势在必行 马云:未来的世界是数据的世界

程序员文章站 2023-02-03 07:54:20
过去,它们是躺在各家公司不同部门里的一堆零散数据。今天,马云、李彦宏、陈年,这些互联网大佬们,试图让数据开口说话。也许有人踩到了水坑,也许有人挖到了金矿,但通往21世纪第二个十年的大路上,每个人都会看...

过去,它们是躺在各家公司不同部门里的一堆零散数据。今天,马云、李彦宏、陈年,这些互联网大佬们,试图让数据开口说话。也许有人踩到了水坑,也许有人挖到了金矿,但通往21世纪第二个十年的大路上,每个人都会看到这样的横幅:“欢迎来到大数据时代”。

掘金大数据

宛如一座大金矿,大数据散发着令人难以抗拒的财富气息,无论是阿里巴巴集团这样的互联网巨鳄,还是租用中关村一间办公室的80后创业青年,他们都试图从淘宝的每一单交易、凡客的每一条点评这样零碎的数据里,挖掘商业机会

淘宝首席商业智能官车品觉看上去并不像典型的技术男,他身形微胖,手上戴着一串佛珠,除了大数据,佛家偈语时常脱口而出。由于2012年7月上任的阿里巴巴集团(以下简称阿里集团)首席数据官陆兆禧极其低调,车品觉在某些时候成为了讲述阿里集团大数据战略的“布道师”。

在过去一年,大数据在阿里集团得到前所未有的重视。2012年7月,阿里集团设立了首席数据官岗位(CDO),陆兆禧出任该职务,负责推进“数据分享平台”战略。随后在9月的网商大会期间,阿里集团董事局主席马云宣布,从2013 年1月1日起,集团将重组为平台、金融和数据三大业务。

阿里集团目前是中国最大的互联网数据“原产地”之一,由于掌握极具商业价值的大量真实交易数据,它也被视为是未来最有潜力成为中国领先大数据的企业之一。

尽管大数据已经是当下全球热门的互联网热词,但依然没有一个准确的定义。在中国,所谓大数据,更多指的还是那些有助于帮助企业形成商业判断的数据,这其中,既包括比如QQ用户的年龄、性别,也包括大众点评网里用户对于全聚德烤鸭味道的评价,它可以是图片,也可以是文字、视频。

围绕着大数据生产、搜集、分析的产业链正在形成,在这个链条里,不仅有阿里集团、谷歌这样的大公司。随着互联网寡头数据的开放,一些提供数据整理、分析等服务的创业公司也正在成长,越来越多的人开始奔向这座金矿。

放在运营团队还是技术团队?

从阿里巴巴集团成立那天,大量的数据就产生了。2003年前后,马云就说过“数据很重要,未来的世界是数据的世界”,这句话后来被反复强调。但真正做实大数据,则是近一两年的事情。

2010年底,阿里巴巴集团首席人力资源官彭蕾找到当时还在支付宝部门工作的车品觉说,马云觉得该考虑下如何运营数据了。从此以后,车品觉就一直在做数据工作了。

目前,大淘宝系(包括淘宝、天猫和一淘网)的数据部门有100人左右,包括工程师(工程开发、数据开发)、数据产品经理、分析师(决策分析组、业务分析组、数据科学家)等。而一般的B2C电子商务公司数据中心也就20人左右。

在阿里集团,由汪海负责组织数据底层建设,相当于修建一条大数据的“高速公路”,而车品觉则扮演“赛车手”的角色,对数据进行具体的分析,提供可供业务部门看懂的数据产品。这两支队伍都由阿里巴巴集团首席数据官陆兆禧统领。

“要数据找品觉”,有时候彭蕾夜里凌晨1点看到数据报告,发现了其中的错误,早上6点半就给车品觉打电话指出来。车说,这种情况下,他“还敢不给力吗?!”后来,包括马云在内的领导逐渐习惯了经常看车品觉提供的数据产品。

车品觉告诉《中国新闻周刊》,一个企业如果真想要搞好大数据,大数据必须成为CEO直接领导的一级战略级部门。曾有很多公司的相关负责人询问车品觉,大数据部门该放在运营团队还是技术团队?一听到这个问题,车品觉就觉得“这些人没戏了”,问这些问题的公司其实并不怎么重视大数据战略。

如果数据部门要在结构庞杂的企业内部提高地位,最重要的就是数据产品要刺激决策部门和业务部门,直至促使他们对前端的业务环节作出调整。

这正是车品觉对手下的数据分析师的考核标准。每个月的最后一周,数据分析师都有一场考试。如果分析师的观点能在月度经营分析报告里出现,那就说明这个分析师的分析有价值。如果在报告提交给管理层讨论的时候,某个分析师的观点能改变业务部门领导的看法,那就得到3.75分。更进一步,如果分析师的观点能让公司领导接受,并最终促进了相关业务的调整,那就是4分。4分几乎就是一般数据分析师能得到的最高分。

不仅仅是阿里集团,国内越来越多的公司已经意识到大数据的重要性。

2011年7月,凡客诚品成立了数据中心,负责人是当初和陈年一起创业的凡客高级副总裁姜晓怡。数据中心成立最开始做的工作就是把分散的数据归整起来,第二步帮助公司做内控,第三步则是提供决策支持。

1月11日接受《中国新闻周刊》采访时,姜特意强调说,目前数据中心已经成为了一级部门。陈年曾告诉姜,“干不好就走人。”每次内部开业务讨论会,只要一听到有人说“你这个数据好像不对呀”,还没等陈年发话,姜晓怡自己马上“特别烦躁地跑出去打电话”,查问情况。

在中国的大数据界,流传着一个说法,“如果阿里和腾讯做不出大数据,那中国的大数据产业基本没希望了”。

腾迅的优势在于掌握了QQ和微信等利器,但相比阿里集团,腾讯的大数据战略起步稍晚,其数据战略部门目前的负责人,曾是和车品觉一起搞数据产品“黄金策”的下属。

被认为在大数据行业有所建树的还有百度。但是,百度只能抓取到搜索数据,导致其数据在很多时候都缺少关键的身份信息一环,属于数据领域含金量相对较少的“贫矿”,但是考虑到百度每日所产生的海量数据,其潜力亦不可小视。

“2秒钟就知道结果”

很多公司开发大数据产品,第一步就是帮助公司更准确地做决策,更科学地进行管理。

以阿里巴巴集团为例,数据产品可以分为两部分,一块是提供给阿里巴巴集团高管和员工。另一部分则供给外部,包括大淘宝平台上的商家等——比如2012年7月推出的聚石塔平台。聚石塔为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。

车品觉主要做的是内部数据产品。

车品觉认为,数据分析对预测未来销售很有帮忙。

2012年“双十一”那天,有个运营人员走过来跟车品觉说,根据“双十一”之前的几周和几天的交易量,按照2011年“双十一”的趋势判断,2012年“双十一”的交易额能达到90多亿,车品觉马上就指出他的逻辑不对,因为2012年“双十一”在周末,而2011年的“双十一”不在周末。“时间点不一样,而且你也不知道今年的促销相比去年有不一样,外部环境数据不同,就会直接影响到结果。”

看完第一个小时的成交额后,车品觉跟同事说应该能达到160个亿,有位集团高层瞪了车一眼说:“你觉得靠谱吗?”最终交易额比车品觉的预测还要更高。

车品觉说他虽然不知道准确的数据,但知道别人的逻辑不对,“不能完全准确地计算出,但可以预判大概的量级。”

让车品觉觉得值得出来说道的其中一款数据产品叫“黄金策”。这是车品觉2011年底还在支付宝时做的一款产品,也是阿里迄今最重要的数据产品之一。车品觉带领团队处理了1亿多活跃的消费者数据之后,拿出500个变量,“不管你如何调动,我用“黄金策”只需2秒钟就能告诉你处理结果。”

例如,仅在星期六和星期日购物,其他时间不购物,年龄30??35岁之间的男性用户,在哪个城市最多?2秒钟就知道结果。

还有“双十一”购物节期间,淘宝和天猫吸引了2亿多人访问,这些人与以前用户相比有什么不同。

现在,淘宝也有了“黄金策”,该产品在淘宝发挥了更重要的作用,锁定用户群后,可以立即对这些用户进行针对性营销,营销完后的效果又会回到“黄金策”上,已经形成了一个闭环。

2012年中,车品觉来到了淘宝。他很看重淘宝数据,因为淘宝数据不仅有业务数据(指交易行为数据),还有过程数据(比如一个买家在某个页面上停留了多久等),“数据更丰富,”车品觉说。

来到淘宝后,车品觉为淘宝开发了两款产品。一是“无量探针”,通过这个产品,淘宝的管理者可以辨别出萌芽状态的可疑行为,迅速做出决策;二是“类目360”。把淘宝的类目做得非常细,如果增长了10%,可以知道是哪一个类目,那一部分用户对营收增长贡献大,能评估集团内部哪些人工作有效率,哪些部门不给力,两秒钟就可以知道如何决策。

而未来天猫业务模式大变革同样离不开大数据的支撑。

在天猫商家内部的一次年会上,天猫CEO张勇说,2013年,天猫将会从单纯的商品销售平台升级为消费者连接平台。此外,天猫还将发展从消费者导向的C2B预售模式,消费者需要什么,商家就能提供什么。目前C2B在天猫只是一个频道,未来将会融合到天猫整个购物路径中。

中国社会科学院信息化研究中心秘书长姜奇平认为,这背后离不开大数据的支撑。“消费者需求多样,怎么样处理这种海量的订单,而且后端还有大量的供应链管理?”

同样处于电子商务行业的凡客,也开始把用户群细分为5大类。根据用户的消费历史,提取核心关键的消费特征变量,如人均消费贡献、购物频次、件数、贡献毛利等,把凡客用户细分成特点明确的5类群体。其中第一类是购买力和毛利润贡献率双低的人群,但是这群人数量很大,最近凡客进行的9元起促销活动,吸引了大批第一类用户。

凡客高级副总裁姜晓怡说,针对不同的5类人群,他们的营销方式有所差异。 比如针对喜欢尝新型的用户,在公司上新季产品时,可对此类人群进行定点推广;而在我们的季末清仓的时候,可针对价格相对敏感的用户进行相关推送信息。

姜晓怡说5类用户对凡客都有价值,但是他们会通过一些营销方式,尽量推动第一类人群向第二、第三类人群转化。

让数据做主

围绕着大数据的分析处理业务也越来越多。

通过分析淘宝、天猫、B2B、聚划算上的商家的各种数据,阿里巴巴打造了一个信贷工厂,为平台上的卖家提供小额信贷服务。这也被视为是大数据衍生产品开发的一个范例。

2012年阿里云开发者大会上,阿里金融高级专家年劲飞曾举了这样一个例子。大学毕业生谭华在淘宝上开了一家网店,但是面临资金短缺的问题。他发现了阿里金融提供的订单贷款服务,不需要任何抵押,不需要任何资料,也不需要提交审核等等,他平均两天就申请一次贷款,在一年之内贷款金额是30多万元。

中国现在有4200万小微企业,影响其发展壮大的制约因素中资金占96%,主要是银行考虑到风险太大,很少向这些小微企业贷款。

阿里金融如何通过大数据规避了风险?阿里金融的数据来源包括淘宝、天猫、B2B、支付宝等等,淘宝买家注册的会员有6亿会员,600万的店铺,10亿种商品,1万多个商品类目,每天交易额20亿元左右。

除了容易标准化的交易数据外,其他的类似卖家和买家的聊天记录、评价、店铺信用等,这些非结构性数据,也一并被录入到数据库中。然后,阿里金融通过计算机里的数学模型,对上述数据的分析处理,就能自动确定贷款申请人的贷款限额。

发放贷款以后,阿里通过实时监测贷款商家的交易、退货、评分等经营情况,很方便地就能了解客户还款能力的变化,一旦看到交易情况下滑,系统自动会发出预警。通过这个方式,阿里金融打造了一个纯粹基于互联网信用的小额信贷。截至2012年12月,阿里金融累计服务小微企业已经超过20万家。11月初,年劲飞透露,阿里金融的坏账率仅为0.9%,低于很多传统的银行。

事实上,阿里的大数据平台除了为内部所用,也在对外提供服务。

2012年7月,阿里推出了聚石塔业务平台。聚石塔是阿里巴巴首次联合全集团大数据力量打造的一款大数据商用产品,提供数据存储、数据计算两类服务。“双十一”期间,聚石塔发挥了很大作用。天猫CEO张勇透露,狂欢节大促当天,聚石塔内系统处理的订单超过天猫总量的20%,比平时增长20倍。

其实聚石塔上的客户不仅包括大淘宝上的商家,也包括淘外电子商务企业。名鞋库CMO韩步勇1月14日告诉《中国新闻周刊》,名鞋库正在试用并考虑购买聚石塔服务,“理论上来说,处理订单速度和效率的速度会加快”。

在淘宝和天猫平台上,有ERP系统(企业资源计划系统)的商家可以直接找天猫对接聚石塔,没有ERP系统的商家,只能找像提供第三方软件服务的电子商务服务企业,通过他们的ERP服务接入聚石塔服务。

张勇透露,“双十一”当天订单总量的冠军是由上海商派网络科技有限公司(以下简称上海商派)服务产生,在上海商派的ERP系统上面处理的订单量是65万单,这个量超过中国所有的其他电子商务网站的日处理量。

为电子商务企业提供数据服务的上海商派,2010年的收入只有8000万,2011年达到1.5亿,而2012年的营业收入尽管尚未统计出来,但“增长很快”。因为看好其前景,联想和阿里集团下面的投资机构入股了上海商派,目前大股东是联想。

上海商派CEO李钟伟认为,大数据产业链的形成,还需要一些前提条件。

众多电子商务平台、点评网站及社交网络等消费者集中地,纷纷开放数据接口,令全网数据分析及应用成为可能。上海商派的商品雷达产品经理李佳估计,目前,商派的过半数据来源于大淘宝,大淘宝上的卖家也是其主要的客户来源。2010年3月,淘宝宣布将面向全球首度开放数据,马云说,希望阿里集团的数据成为中国经济的气象预报台,“为每个小企业装上GPS,为每艘船装上雷达”。

另外一个条件则是技术的成熟。包括阿里云等云计算公司的成立,为大数据的储存、分析、加工提供了技术基矗此外随着电子商务的发展,很多卖家已越来越倾向于精细化运营,大数据应用服务的需求得到释放。随着软硬件条件的具备,将催生大数据产业的繁荣。

“数据安全得不到保障,早晚会出事”

大数据的最大风险之一就是数据安全,用户隐私能否得到应有保护。

“有些人不知道数据的危险性,但我们做数据的人深知其中的利害。数据安全得不到保障,早晚会出事。”车品觉说,为了数据安全,他在支付宝里可能得罪了不少人,“但个人隐私绝对不能泄露,这是底线”。

目前在阿里巴巴集团内部,淘宝系的淘宝、天猫和一淘,在数据上是共享的;B2B的数据则是独立的。支付宝有金融牌照,法律要求其数据必须独立;如果集团某个部门需要一些数据,其查看数据的权限必须提出申请。

为了保证数据安全,车品觉的团队研究用户行为时,框定的最低数据量是1000人的用户群的购物行为,不能再少于这个人数,针对某个具体用户个人的数据分析则是不允许的。

其实,面临用户隐私高压线的不仅仅是大公司。李钟伟认为,恶意的或者没有充分准备的背景下,对数据的跟踪和使用对整个数据环境的扰动是非常严重的。

目前,李钟伟所在的上海商派有一款产品叫商品雷达,可以帮助企业检测竞争对手的经营状况。另一方面,商派也在为一些电子商业企业提供的ERP服务,使商派能够获知一些企业的核心经营数据。商派在两项看似冲突的服务中,如何严守数据安全的边界?

商派产品经理李佳告诉《中国新闻周刊》,两类服务在商派的不同部门,使用的也不是同一个数据源,ERP部门掌握的数据信息不会提供给雷达部门。另外,雷达所能提供的竞争对手监测都来源于公开的交易数据。

除了安全问题,中国公司与美国公司大数据业务的发展阶段存在一定差距。同为电子商业企业,车品觉认为,阿里的大数据与亚马逊还有差距。目前淘宝、支付宝的数据还是以业务导向的数据为主,亚马逊的数据大部分是以客户为中心。

车举例解释说,招商银行在某天下午2点,每个柜台前平均有20人排队,这是业务导向。进入到招商银行的每个客户,平均需要2分钟能等上服务,这是以客户为中心的指标。“如果你的数据指标不能转为后者,那就不能说是客户第一。”

目前,如果你在亚马逊购买了东西,那么下次登录页面之后,首页最上方推荐的商品是你与上次购买商品相近或者配套的东西。比如用户曾在上面买了本《基业长青》,再次登录的时候,推荐至首页的商品是其他管理类书籍——该用户就被亚马逊定义为管理学书籍爱好者。

但是,亚马逊的推荐有时候也并不那么准确。一位用户曾经购买了某个品牌的唇膏,但是亚马逊再次推荐了类似的产品——事实上,用户在第二天再次购买唇膏的几率很校

这跟亚马逊CEO贝索斯的理念相关,他认为,建立在大数据基础上的推荐算法,能够给用户提供他们真正需要的产品,而促销推荐给用户有时并不是用户真正需要的东西,所以亚马逊很少有促销活动。

但是姜晓怡认为,类似亚马逊这样的做法,可能并不适用于服装电商,毕竟,相当数量的用户(尤其是女性)购买服装,一定程度上属于冲动性消费。