- 大数据流水线系统PiFlow
- 孵化
- PiFlow是一个基于分布式计算框架技术开发的大数据流水线处理与调度系统。该系统将大数据采集、清洗、存储与分析进行抽象和组件化开发,以所见即所得、拖拽配置的简洁方式实现大数据处理流程化配置、运行与智能监控。提供100+的数据处理组件,包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,更支持面向领域的二次组件开发。数据可溯源,性能优越。
- 有
- Apache License 2.0
- https://github.com/cas-bigdatalab/piflow/blob/master/LICENSE
- GitHub:https://github.com/cas-bigdatalab/piflow/issues
- JIRA
- Wiki
- WeChat:PiFlow User Group
- QQ群:1003489545
- Spark 2.3.4 (Apache-2.0 License)
- hadoop 2.6.0 (Apache-2.0 License)
-
PiFlow server | 姓名 | 邮箱 | 组织 | 从事该项目时间 |
| ------ | --------------- | ----------------------------- | ---- |
| 沈志宏 | [email protected] | 中国科学院网络信息中心 | 2018.05-- 至今 |
| 朱小杰 | [email protected] | 中国科学院网络信息中心 | 2018.07-- 至今 | -
PiFlow web | 姓名 | 邮箱 | 组织 | 从事该项目时间 |
| ------ | ----------------|-------------------------------| ---- |
| 周健鹏 | [email protected] | 中国科学院网络信息中心 | 2018.09-- 至今 |
| 孙静芳 | [email protected] | 中国科学院网络信息中心 | 2020.08 -- 至今 |
- 无
- 17人
- GitHub中进行Release
- 否
- 需要
- 无
- 无
- 无
- 无