分享好友 最新动态首页 最新动态分类 切换频道
hive50道题 hive基础知识测试题
2024-11-05 00:43


hive50道题 hive基础知识测试题

1.下列关于Hive特点总结正确的选项是()

AHive支持自由的扩展集群的规模,只需要重启服务即可

BHive支持自定义函数,用户可以根据自己的需求去定义函数

CHiveSQL执行时,需要避免节点出现问题

DHive适合处理小批量数据

2.下面关于Hive查看表table1的分区的描述正确的是()

Ashowpartitionstable1;

Bdesctable1;

Cshowcreatetabletable1;

Ddroptable1

3.

下面关于Hive描述函数类型描述正确的是()

COUNT;MAX;MIN;LEAD;LAG;SPLIT;EXPLODE;UNIX_TIMESTAMP

AUDF:UNIX_TIMESTAMP;UDAF:COUNT,MAX,MIN,LEAD,LAG;UDTF:SPLIT,EXPLODE

BUDAF:COUNT,MAX,MIN,LEAD,LAG,EXPLODE

CUDF:UNIX_TIMESTAMP,COUNT,MAX,MIN;UDAF:LEAD,LAG;

DUDF:UNIX_TIMESTAMP,SPLIT;UDAF:COUNT,MAX,MIN,LEAD,LAG;UDTF:EXPLODE

4.下面关于Hive四种排序方式的区别,描述正确的是()

Aorderby是要对输出的结果进行全局排序,多个reducer可以实现全局排序

Bsortby不是全局排序,只是在进入到reducer之前完成排序

Cdistributeby指的是按照指定的字段划分到不同的输出reduce文件中,常见使用方式是orderbydistributeby

Dclusterby不仅支持正序排序,也支持逆序排序

5.下面关于Hive和传统数据库的比较描述正确的是()

AHive使用了查询语言HQL(HiveQueryLanguage),HQL与SQL没有任何关系

BHive和传统数据库除了拥有类似的查询语言,再无类似之处

CHive是建立在Hadoop之上的,所有Hive的数据都是存储在HDFS中的,而数据库则可以将数据保存在块设备或者本地文件系统中

DHive的针对数据仓库设计,针对的是读多写少的场景

6.已知数组trans_cnt[1,2,3,4],trans_cnt[2]获取的结果为()

A1

B2

C3

D4

7.Hive是为了解决哪类问题()

A海量结构化日志的数据统计

B分布式组件调度

C分布式系统监控

D分布式系统高可用

8.下面关于Hive数据倾斜问题描述正确的是()

A不需要了解业务,对业务进行数据探查无法解决数据倾斜

B每一个数据倾斜的作业都需要优化

C小文件合并不会解决数据倾斜的问题

D可以适当的通过控制mapper和reducer来控制数据倾斜的问题

9.下面关于HiveSQL的内外表使用正确的是()

A在/tmp/path创建外表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';

B在/tmp/path创建外表:CREATETABLE...;

C创建内表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';

D创建内表:CREATEEXTERNALTABLE...;

10.下面关于Hive数据装载描述正确的是()

A最好使用INSERT插入数据

B最好使用INSERTOVERWRITE插入数据

C可以使用LOADDATA加载

D什么场景,装载数据使用LOADDATA效率最低

11.下面关于HiveSQL的JOIN关键词正确的是()

(1)INNERNJOIN 

(2)JOIN 

(3)OUTERJOIN 

(4)RIGHTJOIN 

(5)CROSSJOIN 

(6)LEFTJOIN

A(2)(4)(5)(6)

B(1)(4)(5)(6)

C(1)(4)(6)

D(3)(4)(6)

12.代码select ceil(2.34)的结果是哪一个:

A2.3

B2

C3

D2.4

答案C

13.下列哪个组件不属于Hive架构()

AMySQL

BTaskManager

CHDFS

DClient

14.下面关于HiveSQL将table2中所有的数据迁移至table1中描述正确的是(),要求一模一样

AINSERTOVERWRITETABLEtable1PARTITION(dt='{{yyyyMMdd-1d}}')SELECT*FROMtable2;

BINSERTOVERWRITETABLEtable1PARTITION(dt='{{yyyyMMdd-1d}}')SELECt*FROMtable2WHERedt='{{yyyyMMdd-1d}}';

CINSERTOVERWRITETABLEtable1SELECt*FROMtable2;

DINSERTOVERWRITETABLEtable1SELECt*FROMtable2WHERedt='{{yyyyMMdd-1d}}';

15.下面关于Hive内外表描述错误的是()

AHive内表的元数据和数据都由Hive自己管理

BHive会管理外表的元数据

C当Hive内表的元数据发生变化时,内表的改动修改不会同步给元数据

D对外部表的表结构和分区进行修改,需要修复

16.下面关于Hive内外表描述正确的是()

A建表时候如果不显示声明表的类型,则建表为外表

B外表使用DROp语句可以删除的很干净

C外表由Hive自己管理

D建表时候如果不显示声明表的类型,则建表为内表

17.下面关于HiveSQL编译顺序正确的是() 

(1)遍历QueryBlock,翻译为执行操作树OperatorTree 

(2)遍历OperatorTree,翻译为MapReduce任务 

(3)遍历ASTTree,抽象出查询的基本组成单元QueryBlock 

(4)逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量 

(5)物理层优化器进行MapReduce任务的变换,生成执行计划 

(6)将SQL转化为抽象语法树ASTTree

A(3)(1)(2)(4)(5)(6)

B(5)(3)(1)(2)(4)(5)

C(6)(3)(1)(2)(4)(5)

D(5)(3)(1)(2)(4)(6)

18.关于Hive中窗口函数下列描述正确的是()

ALAG用于统计窗口内往上第n行值,空不计入窗口中

BLEAD用于统计窗口内往下第n行值,空不计入窗口中

CFIRST_VALUE取分组排序后,截止到当前行的第一个值

DLAST_VALUE取分组不需要指定ORDERBY后,截止到当前行的最后一个值

19.Hive是由哪家公司开源的()

AGoogle

B Facebook

ClinkedIn

DNetflix

20.下面关于Hivemetastore的三种模式的描述错误的是(

ADerby方式是内嵌的方式,也是默认的启动方式,一般用于单元测试

Blocal模式中,使用MySQL本地部署实现metastore

Cremote模式为远程MySQL

DDerby方式在同一时间只能有多个进程连接使用数据库

21.代码select bin(17)与下面结果一致:


Aselectconv(17,10,2)


Bselectconv(17,2,10)


Cselectconv(17,2,16)


Dselectconv(17,10,16)


22.下面关于Hive数据倾斜问题的描述正确的是()

AHive作业长时间执行未结束一定是数据倾斜问题

B数据倾斜的问题一定是某个reducer的数据输入量远远大于其他reducer数据的输入量

CCOUNT(DISTINCT...)一定会造成数据倾斜

D数据倾斜常见的原因就是key分布在mapper上不均匀

23.代码select substr('abcdef',2,3)的结果是哪一个:


bc


bcd


cde


其他结果都不对


substr(stringA,intstart,intlen)和substring(stringA,intstart,intlen),用法一样 

功效:返回字符串A从下标start位置开始,长度为len的字符串,字符串下标从1开始

24.下面关于Hive各个格式使用场景描述错误的是()

Parquet对于大型查询的类型是高效的,对于扫描特定表格中的特定列的查询,Parquet特别有用

目前Parquet默认使用gzip压缩格式

ORC可以支持复杂的数据结构(比如Map等)

RCFile是一种行列存储相结合的存储方式

【B】 

A.正确,spark最常见的表格式也是Parquet 

B.错误,默认为snappy 

C.正确,ORC支持多种复杂的数据结构Map、Struct等 

D.正确,行存为块,块为列存相结合

25.在hive中下列哪些命令可以实现去重()


Adistinct


Bgroupby


Crow_number


Dhaving


26下面关于HiveSQL需要判断table1中有哪些table2中没有的数据,SQL正确的是(),非分区表,返回差异数据的具体id

ASELECT*FROMtable1t1LEFTJOINtable2t2ONt1.id=t2.idWHERet2.idISNULL

BSELECt*FROMtable1t1RIGHTJOINtable2t2ONt1.id=t2.id

CSELECt*FROMtable1t1JOINtable2t2ONt1.id=t2.idWHERet2.idISNOTNULL

DSELECt*FROMtable1t1RIGHTJOINtable2t2ONt1.id=t2.idWHERet2.idISNOTNULL

【A】 

A.正确,通过id左连接table1、table2找出table1中id存在但是table2中id不存在的id 

B.错误,参考A 

C.错误,参考A,JOIN只能找出table1和table2共有的数据 

D.错误,找出的id为table2中id存在但是table1中id不存在的id

27.下面关于Hive外表table1的数据删除描述正确的是()

ADROpTABLEtable1;

BTRUNCATETABLEtable1;

CALTERTABLEtable1RENAMETOtable2

DALTERtable1SETTBLPROPERTIES('EXTERNAL'='FALSE');DROPTABLEtable1;

【D】 

A.错误,Hive无法删除外表数据,只会删除元数据 

B.错误,Hive无法删除外表数据 

C.错误,是修改表名并不是删除外表 

D.正确,将外表转换为内表,转换后DROP操作会删除元信息和数据

28.在Hive中一个查询语句执行后显示的结果为:
20180812 50;20180813 32;20180814NULL,则最有可能的查询语句是()

ASELECTinc_day,count(task_no)FROM任务表WHEReinc_day<=20180814 BSELECtinc_day,count(task_no)FROM任务表WHEReinc_day<=20180814GROUPBYinc_day CSELECtinc_day,count(task_no)FROM任务表WHEReinc_day<=20180814ORDERBYinc_day DSELECtinc_day,count(task_no)FROM任务表HAVINginc_day<=20180814GROUPBYinc_day

29.已知表emp存在字段name1,以下语句能够正常运行的是哪一个:

Aaltertableemprenametoemp1

Baltertableemprenameemptoemp1

Caltertableempchangecolumnname1toname2

Daltertableempchangenamename12


30.下面关于Hive描述正确的是()

ACOUNT函数必须开窗口才能使用

BMAX函数是窗口函数

CLEAD函数是聚合函数,不是窗口函数

DMIN函数是聚合函数,不是窗口函数

B】 

A.错误,COUNT函数搭配GROUPBY不需要开窗也能使用 

B.正确,MAX函数是窗口函数,也是聚合函数,UDAF 

C.错误,LEAD函数是聚合函数,也是窗口函数,UDAF 

D.错误,MIN函数是聚合函数,也是窗口函数,UDAF

31.下面关于HiveSQL中INSERTINTO和INSERTOVERWRITE的区别说法正确的是()

AINSERTINTO会覆盖已经存在的数据

BINSERTOVERWRITE会先现将原始表的数据remove,再插入新数据

CINSERTOVERWRITE不考虑原始表的数据,直接追加到表中

DINSERTINTO重复的数据会报错

【B】 

A.错误,不会覆盖 

B.正确,OVERWRITE=删除+插入 

C.错误,INSERTINTO不考虑原始表的数据,直接追加到表中 

D.错误,只会追加不会报错

32.以下表达式书写错误的是()


Ayear('2015-12-3112:21')


Bmonth(2015-10-31)


Cday('2015-12-11')


Ddate_sub('2015-12-01',3)


year(stringdate)、month(stringdate)、day(stringdate)、date_sub(stringstartdate,intdays),参数都是string类型。B选项参数不是string类型。

33.下面关于Hive表分区的使用错误的是()

APARTITIonEDBY(xxx)表示根据xxx的内容分区

BINSERT写入分区表的指定分区时,需要改为INSERTINTOtablePARTITION(...)

C分区表即使不在查询里进行分区剪裁,SQL的执行速度也会很快

D分区表是常见的生产环境使用的表

A.正确,建表语句后跟的属性 

B.正确,写入指定分区 

C.错误,分区表在进行查询的时候需要分区剪裁提速,即使表进行了分区不指定分区查询仍然会遍历所有分区的表,为全表查询 

D.正确,生产环境作业隔天运行常见按照时间分区

34.下面关于HiveSQL创建表时描述正确的是()

ALIKE允许复制表结构和表数据

BCOMMENT可以为表与字段增加描述,必须有,不加会报错

CROWFORMAT设置行数据压缩格式

D如果相同名字的表已经存在,则建表抛出异常

【D】

A.错误,LIKE只会复制表结构 

B.错误,COMMENT为备注内容可加可不加、不是阻塞性功能 

C.错误,ROWFORMAT设置行数据分割格式 

D.正确,需要修改为CREATETABLEIFNOTEXISTS

35.table1是根据dt分区的数据表,dt例如:20220101,下列加载数据的SQL正确的是(),要求可重跑、写入分区要求当前天执行时写入至前一天的分区

A LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')

BLOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')

CLOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyyMMdd}}')

DLOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyyMMdd-1d}}')

【D】 

A.错误,时间分区错误 

B.错误,时间分区错误、不能重跑 

C.错误,时间分区错误、不可重跑 

D.正确,OVERWRITE可重跑、时间分区为前一天

36.以下哪种不是Hive支持的数据类型()


AStruct


BInt


CMap


DLong


Hive不支持Long类型,支持 TINYINTSMALLINTINTBIGINT。

37.例如Hive建表语句中storedas的作用是指定表的格式,下列不属于Hive表的常见格式的是() 

create tableifnotexiststextfile_table 

 ueseridSTRING, 

 movieidSTRING, 

 ratingSTRING, 

 tsSTRING 

rowformateddelimatedfieldsterminatedby '' 

storedastextfile;


APigTable

BORC

CPARQUET

DTEXTFILE


【A】 

A.错误,非Hive可指定的表格式 

B.正确,常见的表格式 

C.正确,常见的表格式 

D.正确,默认的表格式

38.下面关于Hive格式描述正确的是()

ATEXTFILE存储方式为列存储

BTEXTFILE格式的数据磁盘开销不大

C使用TEXTFILE时Hive会对数据进行切分

DTEXTFILE格式是Hive的默认存储格式

【D】 

A.错误,TEXTFILE存储方式为行存储 

B.错误,TEXTFILE格式的数据磁盘开销大,数据解析开销大 

C.错误,使用TEXTFILE时Hive无法对数据进行切分,从而无法对数据进行并行操作 

D.正确,未显示声明表的存储格式都是TEXTFILE

39.下面关于Hive用户自定义函数UDF的描述错误的是()

UDF(User-Defined-Function)一进一出

UDAF(User-DefinedAggregationFuncation)聚集函数,多进一出

UDTF(User-DefinedTable-GeneratingFunctions)一进多出

上传UDFjar包至Hive环境即可使用自定义函数

【D】 

A.正确,常见的逻辑判断场景 

B.正确,聚合函数,常见窗口函数,count/max/min 

C.正确,行列转化,如lateralviewexplore 

D.错误,不仅需要上传jar包,还需要addjar包进行UDF注册才可以使用

40.下面关于查看Hive表信息描述正确的是()

ADESC查看表的描述是以建表语句的形式展示的

BSHOWCREATETABLE查看表的描述是以表格的形式展示的

C使用DESC查看表table1:DESCtable1;

DSHOWCREATETABLE可以查看表的数据

【C】 

A.错误,SHOWCREATETABLE查看表的描述是以建表语句的形式展示的 

B.错误,DESC查看表的描述是以表格的形式展示的 

C.正确,DESC查看表的表格形式描述信息 

D.错误,SHOWCREATETABLE只能查看表的描述信息

41.下面关于Hive导表写入指定格式表时的描述正确的是()

A导表时,如果建表语句指定为ORC格式的表,那么数据会先存储为ORC格式

B导表时,如果建表语句指定为SequenceFile格式的表,那么数据会先存储为SequenceFile格式

C导表时,如果建表语句指定为PARQUET格式的表,那么数据会先存储为PARQUET格式

D导表时,如果建表语句指定为ORC格式的表,那么数据会先存储为TEXTFILE格式

【D】 

A.错误,指定ORC格式则Hive会先导入TEXTFILE格式的数据,再转换为指定格式 

B.错误,指定SequenceFile格式则Hive会先导入TEXTFILE格式的数据,再转换为指定格式 

C.错误,指定PARQUET格式则Hive会先导入TEXTFILE格式的数据,再转换为指定格式 

D.正确,指定ORC格式则Hive会先导入TEXTFILE格式的数据,再转换为指定格式

42.下面关于Hive存储的文件格式描述错误的是()

AORC格式是Hive一直支持的

BTEXTFILE是Hive的默认存储格式

CSequenceFile是一种二进制存储

DRC是ORC的前身

【A】 

A.错误,ORC格式是Hive0.11版本以后才支持的 

B.正确,不声明建表格式,就会存储为TEXTFILE 

C.正确,二进制文件,以<key,value>的形式序列化到文件中 

D.正确,ORC效率比RC高,是RC的改良版本

43.下列关于Hive特性归纳正确的选项是() 

(1)为了数据仓库而设计 

(2)迭代式算法无法表达 

(3)数据挖掘方面不擅长 

(4)分布式拓展能力强,适合高吞吐量、批量、海量数据处理 

(5)不属于MapReduce框架 

(6)低容错性 

(1)(2)(3)(4)

(1)(2)(3)(6)

(2)(3)(5)(6)

(1)(2)(3)(4)(6)

【A】 

A.正确 

B.错误,(1)(2)(3)(4)正确,(6)错误,HiveSQL的作业具有高容错性,即使节点出现问题,仍然可以成功执行 

C.错误,(1)(2)(3)(4)正确,(5)错误,Hive计算框架是基于MapReduce框架衍生而来;(6)错误,HiveSQL的作业具有高容错性,即使节点出现问题,仍然可以成功执行 

D.错误,(1)(2)(3)(4)正确,(6)错误,HiveSQL的作业具有高容错性,即使节点出现问题,仍然可以成功执行

44.下面关于HiveSQL编译描述正确的是()

AHiveSQL的Parser层是为了将SQL转化为执行计划的

B逻辑层优化器会进行算子转换,优化合并不必要的算子操作

CMapReduce任务是需要遍历QueryBlock后生成的

D编译器遍历ASTTree,抽象出查询的基本组成单元OperatorTree

【B】 

A.错误,HiveSQL的Parser层是为了将SQL转化为ASTTree 

B.正确,逻辑层优化器在算子转化时候优化掉不必要的算子操作,减少shuffle数据量 

C.错误,MapReduce任务是需要遍历OperatorTree后生成的 

D.错误,编译器遍历ASTTree,抽象出查询的基本组成单元QueryBlock

45.下面关于Hive对于Parquet格式的描述正确的是()

AParquet支持压缩编码:uncompressed,snappy,gzip,lzo

Bsnappy压缩具有更好的压缩比

Cgzip压缩具有更好的性能

D Hive一直支持Parquet格式

【A】 

A.正确,常见的Parquet格式的压缩编码 

B.错误,snappy压缩具有更好的压缩性能 

C.错误,gzip压缩具有更好的压缩比 

D.错误,Hive0.13版本才支持Parquet格式

46.下面关于Hive的SequenceFile格式描述正确的是()

ASequenceFile是二进制文件格式,以list的形式序列化到文件中

BSequenceFile存储方式:列存储

CSequenceFile不可分割、压缩

DSequenceFile优势是文件和Hadoopapi中的MapFile是相互兼容的

【D】 

A.错误,以<key,value>的形式序列化到文件中 

B.错误,SequenceFile存储方式:行存储 

C.错误,SequenceFile可以进行分割、压缩,常见为Block压缩 

D.正确,可序列化是分布式大数据系统的常见属性

47.下面关于Hive数据模型描述正确的是()

AHive的元数据存储在HDFS中

BHive的数据模型只包含:表、分区

CHive的默认分隔符是^A(001),使用的是UTF-8的编码

DHive中的桶一般是文件的形式存在的

【D】 

A.错误,Hive的元数据存储在metaStore中 

B.错误,表、分区、桶 

C.错误,使用的是ASCii码 

D.正确,Hive中的桶以文件的形式存

48.下面关于Hive内外表描述正确的是()

A内部表数据由HDFS自身管理,外部表数据由Hive管理;

B内部表数据存储的位置是hive.metastore.warehouse.dir设置配置(默认:/user/hive/warehouse)

C外表存储必须指定LOCATION

D内外表删除时,都会删除元数据和存储

【B】 

A.错误,内部表数据由Hive自身管理,外部表数据由HDFS管理; 

B.正确,Hiveconfig默认设置 

C.错误,外表存储不指定LOCATION时,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里 

D.错误,只有内表删除时,才会删除元数据和存储;外表只会删掉元数据

49.下面关于Hive的索引描述正确的是()

AHive使用了索引加速数据查询

BHive查询时,命中索引会更快的返回查询结果

CHive要访问数据中满足条件的特定值时,命中索引则会更快的返回查询结果

DHive没有索引,在加载数据的过程中不会对数据进行任何处理,因此也没有对数据中的某些Key建立索引

【D】 

A.错误,Hive没有索引,在加载数据的过程中不会对数据进行任何处理 

B.错误,Hive没有索引,在加载数据的过程中不会对数据进行任何处理 

C.错误,Hive没有索引,在加载数据的过程中不会对数据进行任何处理;Hive会根据特定条件扫描符合条件的所有数据 

D.正确

50.已知数组trans_cnt[1,2,3,4],以下哪一个表达式是求数组的元素数量()


Atype(trans_cnt)


Blength(trans_cnt)


Ccoalesce(trans_cnt)


Dsize(trans_cnt)


length():获取字符串的长度 

coalesce(a1,a2,......,an):返回a1,a2,......,an中遇到的第一个不为NULL的值 

size():获取数组的大小

51.下面关于HiveUDF开发描述错误的是()

AHive有两个不同的接口编写UDF

Borg.apache.hadoop.hive.ql.exec.UDF基础UDF的函数读取和返回基本类型,仅支持Text类型

Corg.apache.hadoop.hive.ql.udf.generic.GenericUDF复杂的GenericUDF可以处理Map、List、Set类型

DUDF处理原则是,输出和输出一对一的关系的函数

【B】 

A.正确,UDF和GenericUDF 

B.错误,支持Hadoop和Hive的基本类型。如,Text、IntWritable、LongWritable、DoubleWritable等 

C.正确 

D.正确,一对一的关系

52.已知表test(name)的记录如下:

tomtom_greentomly

lily

代码select * from test where name rlike 'tom.*'的结果有几条记录()

A1

B2

C3

D0

rlike和like功能大致一样,它后面支持标准正则表达式语法;

.*表示匹配n个字符,所以 tom、tom_green、tomly都会查询到。

53.下面关于Hive内外表的区别描述错误的是()

ALOAD加载数据,内外表都会把数据加载至自己指定的路径下

B内部表不会加载数据到Hive的默认仓库(挂载数据),减少了数据的传输,同时还能和其他外部表共享数据

C使用外部表,Hive不会修改源数据,不用担心数据损坏或丢失。

DHive在删除外部表时,删除的只是表结构,而不会删除数据。

【B】 

B.错误,外部表不会加载数据到Hive的默认仓库(挂载数据),减少了数据的传输,同时还能和其他外部表共享数据

54.下面关于Hive查询通常延迟较高的原因描述错误的是()

A由于没有索引,需要扫描整个表,因此延迟较高

B由于MapReduce本身具有较高的响应延迟,因此在利用MapReduce执行Hive查询时,也会有较高的延迟响应

C关系型数据库较于Hive底层的文件系统实现,执行延迟较低

DHive查询延迟较于关系型数据库,延迟响一直都是很高的

【D】 

D.错误,关系型数据比如MySQL数据量超过千万级别查询延迟就会高于Hive

55.下面关于使用hive的描述中不正确的是?


Ahive中的join查询只支持等值链接,不支持非等值连接


Bhive的表一共有两种类型,内部表和外部表


Chive默认仓库路径为/user/hive/warehouse/


Dhive支持数据删除和修改


56.下面关于Hive中join优化的描述正确的是()

A大表JOIN小表时,谁先谁后无所谓,执行计划、效率都是一样的

B大表JOIN小表时,使用mapjoin会极大地提升性能,因为它会将小表存储在磁盘里面供大表读取

C大表JOIN大表时,不妨可以先尝试将一个表进行表剪裁、列剪裁,将大表JOIN大表的问题转换为大表JOIN小表

DWITHAS语法可以将查询写入内存中,供其他SQL使用,WITHAS本身支持嵌套子查询

【B、C】 

A.错误,小表在前,将小表放在前,效率会高,hive会将小表进行缓存,且执行计划不一样 

B.正确,mapjoin会将小表的数据写入内存,提升JOIN速度 

C.正确,常见的解决大表JOIN大表问题的思路就是转化为大表JOIN小表 

D.错误,WITHAS句式本身不支持嵌套子查询

57.代码selectbin(17)的结果是下面哪一个()


A101 B10001 C111 D1001


bin(BIGINTa):返回a的二进制字符串表示。 

17的二进制为10001。

58.下面关于Hive的ORC格式描述正确的是()

AORC的存储方式:数据按行分块每块按照列存储

BORC不可以进行压缩

CRC效率比ORC高,是ORC的改良版本

DORC格式是Hive默认的建表格式

【A】 

A.正确,ORC文件的规范是数据按行分块,在由块按照列存储 

B.错误,ORC可以进行快速的存取和压缩 

C.错误,ORC效率比RC高,是RC的改良版本 

D.错误,TEXTFILE格式是Hive默认的建表格式

59.在0.13版本前,下面关于HiveSQL描述错误的是()

AHiveSQLIN不能跟子查询(在0.13版本以前),0.13后可使用EXISTS

BHiveSQLIN不能跟子查询,可以改为类似SQL:

SELECTa.key,a.valueFROMaLEFTOUTERJOINbON(a.key=b.key)WHEReb.key<>NULL;

CHiveSQLIN不能跟子查询,可以改为类似SQL:

SELECta.key,a.valFROMaLEFTSEMIJOINbon(a.key=b.key);

D可以使用,

SELECta.key,a.valueFROMaWHERea.keyEXISTS(SELECtb.keyFROMB);

【D】 

A.正确,Hive中IN后不能跟子查询 

B.正确,可以改写为LEFTOUTERJOIN的形式 

C.正确,LEFTSEMIJOIN是一种更高效的实现形式 

D.错误,Hive中IN后不能跟子查询(在0.13版本以前)

60.下面关于Hive描述错误的是()

ATEXTFILE格式的文件就算结合了gzip压缩格式,也无法对数据进行并行操作

BSequenceFile是HadoopAPI提供的一种二进制文件支持

CRCFile是一种行存储的格式

DORC文件是基于RCFile格式的一种优化

【C】 

A.正确,gzip不会对数据进行切分,从而提供并行分析的可能 

B.正确,可序列化是HadoopAPI的要求,也是Hadoop系统常见个格式 

C.错误,RCFile是一种行列结合的格式,数据块列存,数据行以块存储 

D.正确,ORC优化的基础是RCFile

61.下面关于Hive架构描述不正确的是()

最新文章
王者代练:游戏技能升级与快速上分的秘密武器
在当今社会,电子竞技已经成为一种全新的竞技方式,吸引了众多游戏爱好者的关注。王者荣耀作为其中最受欢迎的游戏之一,更是让无数玩家为之疯狂。然而,对于许多玩家来说,想要在游戏中取得更高的排名和更好的成绩并不容易。这时,“王者代
高效开发Maven架构设计图解/掌握项目工程自动化技巧(精通篇三)
Maven是一个项目管理和构建自动化工具,主要服务于基于Java的项目。它使用一个名为POM(Project Object Model)的XML文件来描述项目的构建过程、依赖、插件等信息。 肖哥弹架构 跟大家“弹弹” 高并发锁, 关注公
新手申请域名技巧新手怎么注册好一个域名?
  如今,随着互联网的飞速发展,做一个网站已经成为越来越多公司的选择,但是在做一个网站的时候,最重要的一步是申请一个域名,因为我们想打开任何一个网站,都是第一个进入域名的,它作为企业的网络门面,它起到了非常大的作用,但是对
百色市工业和信息化局 百色市发展和改革委员会 关于印发《百色市散装水泥、预拌混凝土
第一章规划编制的原则和依据一、规划编制原则本规划依据国家和自治区相关政策法规,结合当前建材工业转型升级、绿色发展、高质量发展等主题进行编制,规划编制原则要求:一是把握规划的前瞻性,明确百色市散装水泥、预拌混凝土、预拌砂浆行
谷歌浏览器:Google Chrome (Win&Mac) 最新版
Google Chrome是一款由Google开发的免费网络浏览器软件。它是目前最受欢迎和广泛使用的浏览器之一,可在多个操作系统上运行,包括Windows、MacOS、Linux和移动平台。以下是Google Chrome的一些主要特点和功能:快速速度:Chrome以其快速的
森林人最新款,揭秘森林人最新款车型:全面升级与技术创新
  揭秘森林人最新款车型:性能升级与技术革新  摘要:本文将详细&#
SEO全攻略,揭秘网站流量与排名双提升的秘诀
SEO推广策略,是全方位提升网站流量与排名的秘诀。通过优化网站内容、关键词布局、外部链接建设、社交媒体互动等多方面手段,提高网站在搜索引擎中的可见度,吸引更多户,从而实现流量的持续增长和排名的提升。掌握SEO技巧,让网站在竞争激
百度seo网站更新_百度seo网站更新不了(百度seo规则改了)
更新是肯定的,也是必须的,但更新周期和频率是我们必要值得留意和学习的 一通太过析偕行网站的更新频率,也可以找到本身网站的更新频率,如同行网站每天都更新一篇文章,则想要高出偕行得到排名,则就必要在包管质的环境下到达量化,逐日
刘雨欣网店教你如何做好基础如何优化?
面临即将来到的双十一,淘宝一年中重要的活动,我相信很多商家甚至以及迫不及待了。首先换季期间,店铺主推款我们都会发现宝贝引流及转化度下滑,店铺整体层级提升遇到瓶颈期,店铺宝贝品类单一,新旧品承接出现问题是很多店铺在运营过程中
黑帽seo里的“黑链优化技巧”
  黑链是每个SEOer值得尝试的一个东西,如果您有闲情找一个赚钱的关键词做一个博客,买链接尝试一下黑链出售,也算是可以证明黑链到底好不好!SEO的因素很多,即便是白帽SEO也会有很多让人意想不到甚至发狂的事情,希望大家做网站优化能放
相关文章
推荐文章
发表评论
0评