您的位置 首页 > 德语词汇

fileformat是什么意思,fileformat的意思翻译、用法、同 从Hive中的stored

这篇文章给大家聊聊关于fileformat是什么意思,fileformat的意思翻译、用法、同,以及从Hive中的stored对应的知识点,希望对各位有所帮助,不要忘了收藏本站哦。

行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。

fileformat是什么意思,fileformat的意思翻译、用法、同 从Hive中的stored

对于行式数据库,必然按行压缩,当一行中有多个字段,各个字段对应的数据类型可能不一致,压缩性能压缩比就比较差。

对于列式数据库,必然按列压缩,每一列对应的是相同数据类型的数据,故列式数据库的压缩性能要强于行式数据库。

假设执行的查询操作是:selectid,namefromtable_emp;

对于行式数据库,它要遍历一整张表将每一行中的id,name字段拼接再展现出来,这样需要查询的数据量就比较大,效率低。

对于列式数据库,它只需找到对应的id,name字段的列展现出来即可,需要查询的数据量小,效率高。

假设执行的查询操作是:select*fromtable_emp;

对于这种查询整个表全部信息的操作,由于列式数据库需要将分散的行进行重新组合,行式数据库效率就高于列式数据库。

但是,在大数据领域,进行全表查询的场景少之又少,进而我们使用较多的还是列式数据库及列式储存。

1、建一张表时,可以使用“storedasfile_format”来指定该表数据的存储格式,hive中,表的默认存储格式为TextFile。

2、TEXTFILE、SEQUENCEFILE、RCFILE、ORC等四种储存格式及它们对于hive在存储数据和查询数据时性能的优劣比较

TEXTFILE:只是hive中表数据默认的存储格式,它将所有类型的数据都存储为String类型,不便于数据的解析,但它却比较通用。不具备随机读写的能力。支持压缩。

SEQUENCEFILE:这种储存格式比TEXTFILE格式多了头部、标识、信息长度等信息,这些信息使得其具备随机读写的能力。支持压缩,但压缩的是value。(存储相同的数据,SEQUENCEFILE比TEXTFILE略大)

RCFILE(RecordColumnarFile):现在水平上划分为很多个RowGroup,每个RowGroup默认大小4MB,RowGroup内部再按列存储信息。由facebook开源,比标准行式存储节约10%的空间。

ORC:优化过后的RCFile,现在水平上划分为多个Stripes,再在Stripe中按列存储。每个Stripe由一个IndexData、一个RowData、一个StripeFooter组成。每个Stripes的大小为250MB,每个IndexData记录的是整型数据最大值最小值、字符串数据前后缀信息,每个列的位置等等诸如此类的信息。这就使得查询十分得高效,默认每一万行数据建立一个IndexData。ORC存储大小为TEXTFILE的40%左右,使用压缩则可以进一步将这个数字降到10%~20%。

ORC这种文件格式可以作用于表或者表的分区,可以通过以下几种方式进行指定:

PARQUET:存储大小为TEXTFILE的60%~70%,压缩后在20%~30%之间。

好了,文章到这里就结束啦,如果本次分享的fileformat是什么意思,fileformat的意思翻译、用法、同和从Hive中的stored问题对您有所帮助,还望关注下本站哦!

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023