商务服务
大数据即席查询与分析
2024-11-04 08:08
大数据的“量级” 传统IT,业务系统多以OLTP1为主,尤其传统数据库orcle,mysql等数据量多数是几十万或几百万,数据千万就要分库,分表了,过亿了就要用到另外一种数据处理技术了OLAP2联机分析处理。

大数据即席查询与分析

     Google的三篇论文 GFS3、Bigtable、MapReduce可为大数据发展的基石 每一分每一秒,各个数据源通过在线、离线等各种方式导入Hadoop,这些数据就像一车车的金矿石,先被放到一个矩形的仓库中存了起来。发现金矿,采集矿石,运回仓库,这些过程可能都不是最精彩的,大家最期盼的是如何将矿石变成金子,也就是炼金。大数据“炼金术”,发现数据的潜在价值,从数据分的不同使用场景来看,可以分为以下三类:批处理(Batch,即席查询和分析(Ad-hoc,流计算(Stream)。 批处理通常是离线计算,对计算时效性要求不高,主要用来啃又大又硬的骨头,一个任务可以撇给它几十个T甚至上P的数据,它都可以吃的消,它的计算方式可以说是“很稳健”,无论是第一代计算引擎MapReduce,还是第二代计算引擎Spark,都是采取的“很黄很暴力”的方式,一个百亿规模的数据分析,MapReduce的计算时间可能长达数小时,Spark也要跑个几分钟到几十分钟不等,即便执行一些相对轻量级的数据分析请求,Spark通常也是在分钟级别完成。
流计算是在数据流入的同时即把相应的计算操作完成,有极高的时效性,非常适用于实时统计,根据预设规则预警,结合各种算法做预测等数据分析需求。在各类形同中已经应用非常广泛。但流计算本质属于预计算分析,必须预先知道想要统计分析的数据或维度,根业内其它预计算引擎的短板一样,就是灵活度极大受限 即席查询和分析的计算模式兼具了良好的时效性与灵活性,是对批处理,流计算两大计算模式有力补充。
即席查询的概念 即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。 在数据仓库领域有一个概念叫Ad hoc queries。通常的方式是,将数据仓库中的维度表和事实表映射到语义层,用户可以通过语义层选择表,建立表间的关联,最终生成SQL语句。即席查询与通常查询从SQL语句上来说,并没有本质的差别。它们之间的差别在于,通常的查询在系统设计和实施时是已知的,所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,系统无法预先优化这些查询,所以即席查询也是评估数据仓库的一个重要指标。即席查询的位置通常是在关系型的数据仓库中,即在EDW或者ROLAP中。
即席分析
是在未知用户查询条件,系统无法预先优化的查询,而临时产生的分析
大数据即席查询和分析博客
http://blog.csdn.net/vv8086/article/details/56011624
数据库优化 http://blog.csdn.net/xlgen157387/article/details/44156679
运维
http://www.ywnds.com/?cat=5
补充知识
1:OLTP:
   On-Line Transaction Processing联机事务处理过程(OLTP) 也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短时间内给出结果,是对用户操作快速响应的方式之一 这样做的最大优点是可以即时的处理输入的数据,及时的回答,也称为实时系统。 衡量练级事务处理结果的一个重要指标是系统性能,具体体现为实时请求---响应时间,即用户在终端上输入数据之后,带计算机对这个请求给出答复所需的时间。
   OLTP是由前台、应用、数据库共同完成的,处理快慢以及处理程度取决于  数据库引擎  服务器  应用引擎
  OLTP数据库只在使事务应用程序仅写入所需的数据、以便尽快处理单个事务
  当今的数据处理可以分为两大类:练级事务处理(OLTP)和联机分析处理(OLAP
2 OLAP
联机分析处理(OLAP:是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获取对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或满足多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念
这里所说的“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种关系有时会相当复杂。通过把一个实体的多重要的属性定义为多个维,使用户能对不同的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
  OLAP的基本多维分析操作有钻取(roll up和drill down)、切片和切块、以及旋转、交叉探查(Drill Across:指查询多个事实表并将结果合并成一个结果集的查询操作)、钻透(drill through: 是指对立方体操作时, 利用数据库关系, 钻透立方体的底层, 进入后端的关系表
  钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维
  切片和切块实在一部分维上选定值后,关心度量数据在剩余维生的分布。如果剩下维只有两个,则是切片;如果有三个则是切块
 旋转是变换为的方向,即在表格中重新安排为的放置(例如行列互换
OLAP有多重实现方法,根据存储数据的方式不同可分为ROLAP,MOLAP、HOLAP
ROLAP表示基于关系数据库的OLAP实现。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
MOLAP表示基于多维数据组织的OLAP实现。以多维数据组织方式为核心。以多维数据组织方式为核心,也就是说MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(cude)”的结构,在MOLAP中对“立方块”的旋转、切块、切片是产生多维数据报表的主要技术
HOLAP表示基于混合数据组织的OLAP实现。如低层是关系型的,高层是多维矩阵型的,这种方式具有更好的灵活性
根据综合性数据的组织方式的不同,常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能
 3 GFS
GFS是一个可扩展的分布式文件系统,用于大型的,分布式的,对大量数据进行访问的应用,它运行与廉价的普通硬件(这是它的特殊之处,惊世之处)上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务
4 Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析    以上就是本篇文章【大数据即席查询与分析】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/news/333.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多   
最新新闻
李子柒三年停更后震撼回归,新作《雕漆隐花》引发观众热潮
2024年11月12日,李子柒在停更三年后正式回归,发布了新作《雕漆隐花,雕出紫气东来》。她的回归迅速引发了广泛关注,短短数小时
李子柒归来背后还是优质内容能打
李子柒回来了,其热度就如同她从未离开过一样。但与其说是观众热切期待她的回归,倒不如说是市场在呼唤优质内容的供给。不可否认
停更三年在做什么?新华社专访李子柒
李子柒,文化类视频创作者。她以制作精美的视频为载体,将中国乡村田园般的生活和中国传统文化的魅力传向海内外。三年后,她带着
2024年有哪些比较火的创业可以做?整理六个靠谱创业项目(学起来)
2024年有哪些比较火的创业可以做?整理六个靠谱创业项目(学起来)2024年有哪些适合普通人的创业项目?#创业#生意#商业环境#财富趋
“李子柒”不属于李子柒的那几年
奶奶!你关注的博主终于更新啦!11月12日下午四点半,断更三年的李子柒多平台同时更新,连更两条视频,宣布回归。回归后的第一条
千合直播电商浙江有限公司支付宝拿下李子柒
出品 | 电商报Pro作者 | 木易回归后的李子柒,正在被各大平台抢夺。12月5日,支付宝面向内容MCN机构举办首场开放日,透露了全网
【自动化】浅度分析自动化行业,深度好文!
在社会经济的飞速发展今天,随之而来的不仅是人类文明的进步,更有的是人类赖以生存的生态环境、空气逐渐恶化࿰
李子柒曾谈原生家庭称鸡蛋是要卖钱 复出后勇敢做自己
李子柒曾谈原生家庭称鸡蛋是要卖钱李子柒近日复出,连续发布了三个视频,并参与了社会活动和采访。在新华社的采访中,她分享了许
出生年份之:2025年五行属什么
这期生肖为大家解释出生年份之:2025年五行属什么?五行是指木、火、水、土、金五中物质,相信大家是由听过,但是还是不清楚五行
2024新奥门资料最精准免费大全_精选解释落实将深度解析_安卓版976.401
在信息时代,准确的信息就是财富,特别是对于想在澳门领域寻找机会的人来说,掌握最新、最精准的资料尤为重要。如果您正在寻找一