大数据组件新秀Kuyybi和Linkis

Spark SQL以及Flink SQL在SQL 引擎的视角来看做了很多优化，但是两者都缺少一个SQL服务器，可以用在生产环境的服务区，虽然Spark SQL有一个Spark Thrift Server，但是由于其设计原因。

在并发，跨队列提交，权限等方面都有诸多问题，所以实际应用并不广泛。

我曾参与开发了一个Spark SQL服务器，用来解决这类问题，具体的内容可以看：https://baifachuan.com/posts/bad642ff.html

实际上从业界来说，也有不少新秀组件，也在做着类似的事，首先是kyuubi：https://github.com/apache/incubator-kyuubi

kyuubi关注的很早，也和相关的人员聊过，kyuubi除了提供SQL服务器的能力外解决了另一个问题，就是SQL网关的问题。

通过SQL网关去屏蔽多组件多集群多版本带来的上层运维问题，同时又保留了原始的组件接口，但是kyuubi有一个问题就是背后关联的引擎是在kyuubi启动的时候以启动参数进行绑定的。

这会大大限制gateway的发展，比较好的方式是采用session级别的灵活控制，通过sql hint或者alter的方式去调整背后的引擎。

kyuubi团队也有此方面的打算，可以以 ANSI-like 的方式扩展一部分 SQL 语法：https://github.com/apache/shardingsphere/releases

而提到网关服务的时候，还有另一个比较优秀的开源组件incubator-linkis：https://github.com/apache/incubator-linkis

它的两张图很直接明白的说明了一切：

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口，上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎，同时实现变量、脚本、函数和资源文件等用户资源的跨上层应用互通。
作为计算中间件，Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过计算中间件将应用层和引擎层解耦，简化了复杂的网络调用关系，降低了整体复杂度，同时节约了整体开发和维护成本。

无论是kyuubi还是linkis，都是很不错的组件，可以值得参考。

扫码手机观看或分享：

惊帆的BLOG

关于我

大数据组件新秀Kuyybi和Linkis