当前在线人数13746
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
更好整合 kubernete 和 airflow
[版面:葵花宝典][首篇作者:shuaide] , 2019年11月03日14:16:35 ,1111次阅读,11次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
shuaide
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: shuaide (卖火柴的小女孩), 信区: Programming
标  题: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Sun Nov  3 14:16:35 2019, 美东)

最近组里有一个project,跑spark sql, input就是SQL读取snowflake,output是
dataframe存到 AWS s3


有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。

再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql

现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?

希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:196:4701:b]

 
rhett
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: rhett (白瑞得), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Sun Nov  3 22:45:58 2019, 美东)

我们公司就是做k8s上的spark sql的pipeline, 直接跑spark for k8s, 没用emr,可
以不依赖cloud provider
不过我们是一个公司做了很久,你如果个人做的话,跑特定pipeline可能没问题,
generiliaze还是挺难的
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:647:4b01:c]

 
shuaide
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: shuaide (卖火柴的小女孩), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Sun Nov  3 23:15:36 2019, 美东)


可以私信聊聊不?

不依赖cloud provider ,是根据不同的cloud来做sub classing么?还是说根本不用
aws/gcp/azure,自己搭cluster?

【 在 rhett (白瑞得) 的大作中提到: 】
: 我们公司就是做k8s上的spark sql的pipeline, 直接跑spark for k8s, 没用emr,可
: 以不依赖cloud provider
: 不过我们是一个公司做了很久,你如果个人做的话,跑特定pipeline可能没问题,
: generiliaze还是挺难的



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 73.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Mon Nov  4 12:49:43 2019, 美东)

估计你的架构太复杂了。
开源的,花钱的,云上的,本地的。
各种各样的工具。
其实streaming一下就完了。
复杂度太高,自己都弄晕了就不好了。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 104.]

 
rhett
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: rhett (白瑞得), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Mon Nov  4 19:01:12 2019, 美东)

我们还是用eks/aks/gke, 用terraform 来unify 这些cluster level 操作,
application level 在k8s pod level
要看你们的具体应用,如果这是streaming的话, 也不考虑windowing的话, 用一些开
源工具可能够了,
如果需要batching, 需要按windowing update, aggregate,就很麻烦
【 在 shuaide (卖火柴的小女孩) 的大作中提到: 】
: 可以私信聊聊不?
: 不依赖cloud provider ,是根据不同的cloud来做sub classing么?还是说根本不用
: aws/gcp/azure,自己搭cluster?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 12.]

 
shuaide
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: shuaide (卖火柴的小女孩), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Mon Nov  4 19:23:38 2019, 美东)

目前全部都是batch job。数据来源是snowflake,sql run在snowflake上。数据来源就
不是message broker

我也想玩streaming,不过streaming的问题暂时还落不到我头上


【 在 rhett (白瑞得) 的大作中提到: 】
: 我们还是用eks/aks/gke, 用terraform 来unify 这些cluster level 操作,
: application level 在k8s pod level
: 要看你们的具体应用,如果这是streaming的话, 也不考虑windowing的话, 用一些开
: 源工具可能够了,
: 如果需要batching, 需要按windowing update, aggregate,就很麻烦




--
※ 修改:·shuaide 於 Nov  4 19:27:36 2019 修改本文·[FROM: 2601:196:4701:b5]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:196:4701:b]

 
rhett
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: rhett (白瑞得), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Tue Nov  5 00:42:01 2019, 美东)

batch job 如果event time 比较齐整, 不需要考虑 upsert case, 用airflow都没什
么问题
airflow 有对k8s的operator,你可以借鉴
https://kubernetes.io/blog/2018/06/28/airflow-on-kubernetes-part-1-a-
different-kind-of-operator/
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:647:4b01:c]

 
shuaide
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: shuaide (卖火柴的小女孩), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Tue Nov  5 21:01:31 2019, 美东)

我不清楚你说的event time在batch job 里面是指什么。

现在50个batch job相互形成一个dag, 必须考虑先跑哪个,后跑哪个

但是同一个job的不同dependents,如果相互之间不依赖的话,可以同时跑。我想知道
,kubernetes或者airflow能不能利用这一点,做到同时跑。不然的话,要是airflow只
做DAG,把50个job送上kubernetes之后是一个一个地跑,那我写的resource manager就
比他们牛了




【 在 rhett (白瑞得) 的大作中提到: 】
: batch job 如果event time 比较齐整, 不需要考虑 upsert case, 用airflow都没什
: 么问题
: airflow 有对k8s的operator,你可以借鉴
: https://kubernetes.io/blog/2018/06/28/airflow-on-kubernetes-part-1-a-
: different-kind-of-operator/



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:196:4701:b]

 
rhett
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: rhett (白瑞得), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Wed Nov  6 11:45:21 2019, 美东)

没有最好的方案,只有最适合具体情况的,airflow处理的是通用的dag的managment,
如果你们具体的情况,自己的程序更合适,就继续用,没什么问题,不需要为了追新而
用airflow或k8s。

--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:647:4b01:c]

 
sunshineboy
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: sunshineboy (阳光男孩), 信区: Programming
标  题: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Thu Nov  7 15:17:25 2019, 美东)

再建个aws 账户不就行了 

--
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 150.]

 
sunshineboy
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: sunshineboy (阳光男孩), 信区: Programming
标  题: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Thu Nov  7 17:00:39 2019, 美东)

看来看去 没看懂跟kubernete有啥关系

基本原则是没微服务 就没啥必要用docker  没有很多docker 就没必要用kubernete

不能看着流行啥就用啥  科学技术 不是穿衣时尚

--
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 150.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Fri Nov  8 10:26:31 2019, 美东)

你弄台memory大一点的instance。
把数据都拔到机器的内存就行了。
然后用点leetcode中级算法,处理一下就可以了。
定时的话,cron就足够了。

--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 104.]

[分页:1 ]
[快速返回] [ 进入葵花宝典讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996