2021最新版的大数据面试题有哪些

发布时间:2021-10-12 11:09:59 作者:iii
来源:亿速云 阅读:149

这篇文章主要讲解了“2021最新版的大数据面试题有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“2021最新版的大数据面试题有哪些”吧!

1、选择题

1.1.下面哪个程序负责 HDFS 数据存储。

答案 C datanode

1.2.HDfS 中的 block 默认保存几份?

答案 A 默认 3 份

1.3.下列哪个程序通常与 NameNode 在一个节点启动?

答案 D

1.4.HDFS 默认 Block Size

a)32MB

b)64MB

c)128MB

答案:B

1.5.下列哪项通常是集群的最主要瓶颈

答案:C 磁盘

1.6.关于 SecondaryNameNode 哪项是正确的?

答案 C。

1.7.下列哪项可以作为集群的管理?

答案 ABD

1.8.Client 端上传文件的时候下列哪项正确

答案 B 分析:Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode 块中。具体查看 HDFS 体系结构简介及优缺点。

1.9.下列哪个是 Hadoop 运行的模式

答案 ABC 单机版,伪分布式只是学习用的。

2、面试题

2.1. Hadoop 的核心配置是什么?

Hadoop 的核心配置通过两个 xml 文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。这些文件都使用 xml 格式,因此每个 xml 中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。

2.2.那当下又该如何配置?

Hadoop 现在拥有 3 个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。这些文件都保存在 conf/子目录下。

2.3.“jps”命令的用处?

这个命令可以检查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。

2.4.mapreduce 的原理?

2021最新版的大数据面试题有哪些

2.5. HDFS 存储的机制?

2021最新版的大数据面试题有哪些

流程:

1、 client 链接 namenode 存数据

2、 namenode 记录一条数据位置信息(元数据),告诉 client 存哪。

3、 client 用 hdfs 的 api 将数据块(默认是 64M)存储到 datanode 上。

4、 datanode 将数据水平备份。并且备份完将反馈 client。

5、 client 通知 namenode 存储块完毕。

6、 namenode 将元数据同步到内存中。

7、 另一块循环上面的过程。

2021最新版的大数据面试题有哪些

流程:

1、 client 链接 namenode,查看元数据,找到数据的存储位置。

2、 client 通过 hdfs 的 api 并发读取数据。

3、 关闭连接。

2.6.举一个简单的例子说明 mapreduce 是怎么来运行的 ?

wordcount 的例子

2.7.用 mapreduce 来实现下面需求?

现在有 10 个文件夹,每个文件夹都有 1000000 个 url.现在让你找出 top1000000url。

解答:topk

(还可以用 treeMap, 到 1000000 了每来一个都加进去, 删掉最小的)

2.8.hadoop 中 Combiner 的作用?

combiner 是 reduce 的实现,在 map 端运行计算任务,减少 map 端的输出数据。

作用就是优化。

但是 combiner 的使用场景是 mapreduce 的 map 和 reduce 输入输出一样。

2.9.简述 hadoop 安装

2021最新版的大数据面试题有哪些

2.10. 请列出 hadoop 进程名

2021最新版的大数据面试题有哪些

2.11. 解决下面的错误

2021最新版的大数据面试题有哪些

2.12. 写出下面的命令

2021最新版的大数据面试题有哪些

2.13. 简述 hadoop 的调度器

2021最新版的大数据面试题有哪些

2.14. 列出你开发 mapreduce 的语言

2021最新版的大数据面试题有哪些

2.15. 书写程序

2021最新版的大数据面试题有哪些

2.16. 不同语言的优缺点

2021最新版的大数据面试题有哪些

2.17. hive 有哪些保存元数据的方式,个有什么特点。

2021最新版的大数据面试题有哪些

2.18. combiner 和 partition 的作用

2021最新版的大数据面试题有哪些

2.19. hive 内部表和外部表的区别

2.20. hbase 的 rowkey 怎么创建好?列族怎么创建比较 好?

2.21. 用 mapreduce 怎么处理数据倾斜问题?

2021最新版的大数据面试题有哪些

2021最新版的大数据面试题有哪些

2.22. hadoop 框架中怎么来优化

2021最新版的大数据面试题有哪些

2.23. 我们开发 job 时,是否可以去掉 reduce 阶段。

可以。设置 reduce 数为 0 即可

2.24. datanode 在什么情况下不会备份

datanode 在强制关闭或者非正常断电不会备份

2.25. combiner 出现在那个过程

出现在 map 阶段的 map 方法后。

2.26. hdfs 的体系结构

2.27. 3 个 datanode 中有一个 datanode 出现错误会怎样?

这个 datanode 的数据会在其他的 datanode 上重新做备份。

2.28. 描述一下 hadoop 中,有哪些地方使用了缓存机制, 作用分别是什么?

在 mapreduce 提交 job 的获取 id 之后,会将所有文件存储到分布式缓存上,这样文件可以被所有的 mapreduce 共享。

2.29. 如何确定 hadoop 集群的健康状态

通过页面监控,脚本监控。

2.30. 生产环境中为什么建议使用外部表?

1、因为外部表不会加载数据到 hive,减少数据传输、数据还能共享。

2、hive 不会修改数据,所以无需担心数据的损坏

3、 删除表时,只删除表结构、不删除数据。

感谢各位的阅读,以上就是“2021最新版的大数据面试题有哪些”的内容了,经过本文的学习后,相信大家对2021最新版的大数据面试题有哪些这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

推荐阅读:
  1. 2021有哪些最新版的Dubbo面试题
  2. 2021有哪些最新版的Elasticsearch面试题

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

java strip hadoop

上一篇:Consul集群版容器化部署与应用集成是怎样的

下一篇:如何搭建Nexus3私服

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》