spark跑1T数据需要多少内存

发布时间：2021-12-16 14:33:51 作者：iii
来源：亿速云阅读：524

这篇文章主要介绍“spark跑1T数据需要多少内存”，在日常操作中，相信很多人在spark跑1T数据需要多少内存问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”spark跑1T数据需要多少内存”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

Q1：jobserver 企业使用情况如何？

Q2：请问，jobserver是适合企业内部还是供外部客户使用（可能并发、安全有要求），还是两者ok?

Q3：请问，spark 跑1T数据需要多少内存才能很快跑完

这首先和程序运行时候在每台Worker上使用的内存和CPU有关，提交程序的时候可以手动配置；
其次是和带宽有关系，Shuffle的要尽量减少数据；
Driver所在的机器的配置也是极为重要的，一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置，同时，也是至关重要的Driver和Spark集群要在同一个网络环境，应为Driver要不断的task给Worker上的Executor，同时接受Driver的数据；

Q4：我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题但是这样会影响效率怎样在效率和error之间均衡呢？

:StackOverflow可以通过配置BlockManager内存管理策略来缓解；
对于checkpoint，要根据实际情况调整，例如对于Spark Streaming 默认是在内存有两份数据副本，此时如果处理能力无法及时消费实时流数据，就会极为容易产生StackOverflow的情况，此时就要根据实际情况调整时间窗口和进行checkpoint；

到此，关于“spark跑1T数据需要多少内存”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注亿速云网站，小编会继续努力为大家带来更多实用的文章！

相关阅读