大家好,欢迎来到IT知识分享网。
轻松入门大数据玩转Flink打造湖仓一体架构
下栽ke呈:sisuoit.com/3630.html
Flink是什么?
Flink是一个框架和分布式处理引擎,用于无限和有限数据保留的有状态计算。Flink设计用于在所有常见的集群环境中运行,以内存速度和任何规模执行计算。
处理无界和有界数据
任何类型的数据都作为事件流生成。信用卡交易、传感器测量、机器日志或网站移动应用程序上的用户交互,所有这些数据都以流的形式生成。
数据可以被视为无界或有界的流。
无界流有起点,但没有定义终点。当数据生成时,它们不会终止并提供数据。无界流必须连续处理,即事件被摄取后必须及时处理。我们不能等待所有的输入数据到达,因为输入是无界的,在任何情况下都不会完成。在处理无界数据时,我们通常需要按照特定的顺序(比如事件的顺序)摄取事件,一次就可以推断出结果的完整性。
有界流有定义的起点和终点。有界流可以通过在执行任何计算之前提取所有数据来处理。因为有界数据总是可以被排序,所以有界流可以在没有有序摄取的情况下被处理。绑定的过程也称为批处理。
Flink擅长处理无边界和有边界的数据集。对事件和状态的精确控制使Flink的运行时能够在无限的流上运行任何类型的应用程序。有界流由专门为固定大小的数据集设计的算法和数据结构在内部处理,从而产生出色的性能。
随身部署应用程序。
Flink是一个分布式系统,需要计算资源来执行应用程序。Flink集成了所有常见的集中式资源管理器(如Hadoop YARN、Mesos和Kubernetes),但也可以设置为作为独立的集群运行。
Flink设计为与前面列出的每个资源管理器兼容。这是通过特定于资源管理器的部署模式实现的,该模式允许Flink以惯用的方式与每个资源管理器进行交互。
在部署Flink应用时,Flink会根据应用配置的并行性自动识别所需资源,并向资源管理器请求。如果失败,Flink将通过请求新的资源来替换失败的容器。或者提交控制应用的所有通信通过REST呼叫进行。简化Flink在许多环境中的集成。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/6305.html