当前位置:首页 » 电脑资讯 » 大数据为什么需要小文件合并

大数据为什么需要小文件合并

发布时间: 2023-11-28 17:15:16

‘壹’ hdfs详解之块、小文件和副本数

1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文件将以每128MB的大小切分若干,存放在不同的DataNode上。例如一个文件130M,那么他会存被切分成2个块,一个块128M,另一个块2M.

1、HDFS 适应场景: 大文件存储,小文件是致命的
2、如果小文件很多的,则有可能将NN(4G=42亿字节)撑爆。例如:1个小文件(阈值<=30M),那么NN节点维护的字节大约250字节。一亿个小文件则是250b * 1亿=250亿.将会把NN节点撑爆。如果一亿个小文件合并成100万个大文件:250b * 1百万=2亿字节。
3、在生产上一般会:
1)调整小文件阈值
2)合并小文件:
a.数据未落地到hdfs之前合并
b.数据已经落到hdfs,调用spark service服务 。每天调度去合并 (-15天 业务周期)
3)小文件的危害:
a.撑爆NN。
b.影响hive、spark的计算。占用集群计算资源

1、如果是伪分布式,那么副本数只能为一。
2、生成上副本数一般也是官方默认参数: 3份

如果一个文件130M,副本数为3。那么第一个block128M,有三份。另外一个block2M,也有三份。
题目:
blockSize128M,副本数3份,那么一个文件260M,请问多少块,多少实际存储?
260%128=2....4M 3个块 3个副本=9块
260M
3=780M

热点内容
桂花为什么会有不同颜色 发布:2025-09-23 16:27:35 浏览:981
苹果手机为什么没有三防功能 发布:2025-09-23 16:11:30 浏览:447
自助取款机为什么要晚上夜训 发布:2025-09-23 15:56:25 浏览:909
京东秒杀为什么还没到时间就没了 发布:2025-09-23 15:56:21 浏览:253
钓鱼为什么白天有口晚上没口 发布:2025-09-23 15:50:37 浏览:478
直肠癌为什么吃点东西就拉屎 发布:2025-09-23 15:50:00 浏览:495
为什么有的男人喜欢甄嬛 发布:2025-09-23 15:40:05 浏览:672
迪迦奥特曼为什么那么多颜色 发布:2025-09-23 15:19:26 浏览:70
为什么苹果13手机看抖音模糊 发布:2025-09-23 15:10:39 浏览:482
为什么现在化妆越来越不好看了 发布:2025-09-23 14:51:38 浏览:238