如何将熊猫数据框传递给气流任务

互联网 行业动态 更新时间:2024-06-13 00:19:32

小智 7

尽管它用于许多 ETL 任务,但 Airflow 不是此类操作的正确选择,它适用于工作流而不是数据流。但是有很多方法可以做到这一点,而无需在任务之间传递整个数据框。

您可以使用 x.push 和 x.pull 传递有关数据的信息:

一个。将第一个任务的结果保存在某处(json、csv 等)

湾。将有关已保存文件的信息传递给 x.push。例如文件名、路径。

C。使用 x.pull 从其他任务中读取此文件名并执行所需的操作。

或者:

以上所有内容都使用了一些数据库表:

一个。在 task_1 中,您可以从某个数据框中的 table_1 下载数据,对其进行处理并保存在另一个 table_2 (df.to_sql()) 中。

湾。使用 x.push 传递表的名称。

C。从另一个任务中使用 x.pull 获取 table_2 并使用 df.read_sql() 读取它。

您可以从气流示例中获得有关如何使用 x 的信息。示例:https ://github./apache/airflow/blob/main/airflow/example_dags/tutorial_etl_dag.py

恕我直言,还有很多其他更好的方法,我刚刚写了我尝试过的。

更多推荐

熊猫,气流,如何将,数据

本文发布于:2023-04-21 09:46:47,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/hyzx/311c2de565dd7669f3d19fdc710a88ca.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:熊猫   气流   如何将   数据

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!