欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

移动互联网将成为大数据应用的主战场

程序员文章站 2022-09-16 18:19:20
2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领...

2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。

当大数据还在被我们冠以新技术,讨论新的趋势的时候,人人游戏已经走在了实践的前列,给我们带来了更多关于移动互联网与大数据相结合的实战经验。人人游戏首席数据科学家 陈继东现场表示:从企业的需要对结构化数据的管理需求,目前是非常成功的IT技术。现在数据不再被删除而是需要被保存下来,除了查询还需要挖掘价值,对数据的处理和分析远远大于数据的查询。但是也面临着诸多的问题:数据越来越大,PB的数据关系型数据库同样非常难处理,对非结构化的处理很难,而且对数据的分析做的并不好,这些都需要进行不断的改进。

移动互联网将成为大数据应用的主战场

▲人人游戏首席数据科学家 陈继东

越来越多的信息能够得到和生活相关的数据,而且都能记录。基础的架构很廉价,能够很好的存储数据。良好的伸缩性强的基础管理架构,云计算提供了很好的架构,基础的管理等等。

移动互联网将成为大数据应用的主战场

▲数据管理发展趋势

移动互联网将成为大数据应用的主战场

▲大数据整体框架

大数据关键技术和工具

从信息生命周期的角度梳理大数据的关键技术和工具。当我们把数据收集之后需要存储,也可以存储在分布式文件系统中,并行数据库中,和NOSQL中,甚至直接在数据库中处理都可以。流式处理和主内存是流行的趋势: 延时性校

关键技术包括:

移动互联网将成为大数据应用的主战场

移动互联网将成为大数据应用的主战场

Mapreduce VS 并行数据库

MapReduce最早是谷歌做大量非结构化网页的爬取的需求下出现的。数据库和Mapreduce相比的的缺陷是模式不灵活。

移动互联网将成为大数据应用的主战场

•当前并行数据库的问题

–扩展性:需要扩展到上千台节点

–容错性:需要改进容错,更细粒度,更高效率

–灵活性:需要Scheme free的处理,更好适应非结构化数据

–成本:更多开源实现和外围开源工具

•MapReduce类方案的问题(Hive)

–性能:当前为次优的实现,增加索引和查询优化

–实时处理能力:实时加载,实时复杂查询能力

–标准的SQL接口:应用迁移,与DW透明访问

–更丰富的外围工具:OLAP工具,自助分析工具

NoSQL VS SQL

定制化查询 NoSQL很好的方案比Mysql集群要强很多。数据库的趋势是如何做深入的分析,如何将数据挖掘和机器学习并行化。大数据的趋势:线性模型+简单的特征要比复杂的模型+简单的特征要好,现在是一个特征的工程。

•NoSQL的特点

–高可扩展性和弹性, 灵活数据模型, 强容错, 高可用性(牺牲ACID,单记录事务和最终一致性)

–适用于海量数据定制化存储,高吞吐查询(如全属性选择应用)

•SQL的特点

–强大的语义表达及关系表达, 查询处理和优化,ACID, 强一致性

–扩展性和灵活性差,用于高性能查询和复杂分析

移动互联网将成为大数据应用的主战场

▲NoSQL VS SQL

移动大数据应用

人人游戏首席数据科学家 陈继东认为,移动互联网将成为大数据应用的主战场,主要体现在:1、移动大数据核心载体,智能设备普及。2、高宽带引流大数据,手机使用3G和Wifi接入互联网。3、移动大数据聚集地,Android和iOS成为主流OS。4、移动大数据源头和关键节点,移动互联网入口:搜索,移动浏览器,移动应用/商店,移动广告;海量的独立移动应用,对深入分析的需求更强。

通过大数据分析增强用户体验,用户希望采用语音或者手势进行输入,后台对于非结构化海量数据的分析非常重要。因此,数据驱动未来差异化发展,同时也会引发用户对个性化需求。互联网企业和移动互联网企业都在讨论数据驱动运营,以及移动互联网的竞争营销,借助对用户的分析可以做到。

另外。对空间和时间维度的扩展,碎片化也是一个非常重要的特点。数据量更大,维度更高,数据量远超过互联网。包括设备信息,上网方式,种类纷繁复杂。

移动大数据数据的特点

1、数据的核心节点是人而不再是终端、网页或ID

2、数据量更大,种类更多,覆盖更广(时空扩展)

3、更多个性化属性,如用户地理位置,设备属性

4、不受限于浏览器Cookie,数据更稳定长久,更干净准确

5、用户行为数据更碎片化,更实时性

数据的节点是人而不是终端设备,移动互联网中没有cookie,移动的核心节点不再是ID,而是设备,因此确定到某一个人。

移动大数据分析的挑战主要体现在:

1、采集数据补偿

2、大数据实时处理与深入分析

3、用户时空行为模式的挖掘和利用

4、跨应用跨平台跨设备多维数据分析

移动互联网将成为大数据应用的主战场

▲移动广告分析的典型架构