Transwarp Data Hub(简称TDH)是国内落地案例最多的一站式Hadoop发行版, 是国内外领先的大数据基础软件,比开源Hadoop2版本快10倍到100倍。 TDH应用范围覆盖各种规模和不同数据量的企业。通过内存计算、高效索引、 执行优化和高度容错的技术,使得一个平台能够处理10GB到100PB的数据, 并且在每个数量级上都能比现有技术提供更快的性能;企业客户不再需要混合架构, TDH可以伴随企业客户的数据增长, 动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

Transwarp Data Hub 包含四大产品:

  • Transwarp Hadoop 企业版
  • Transwarp Inceptor 分布式内存分析引擎
  • Transwarp Hyperbase 分布式实时在线处理引擎
  • Transwarp Stream 流处理引擎
国内落地最多的一站式Hadoop发行版- Transwarp

产品优势

一、Transwarp Inceptor

Transwarp Inceptor 内存分析引擎提供大数据的高速交互式SQL统计和R语言挖掘

  • 更快的性能: 比Hadoop快10倍到100倍,比MPP快2倍到10倍
  • 更强SQL支持: 兼容Oracle PL/SQL和HiveQL语法
  • 更强分析能力: 支持R语言,提供更多的并行化算法
  • BI和报表工具:支持Tableau,SAP BO, Oracle OBIEE
  • 超高扩展能力:线性扩展,支持GB到PB数据的快速处理
  • 超强稳定性:经过验证的稳定版本,7x24小时不间断运行

二、Transwarp Hyperbase

Transwarp Hyperbase 实时在线数据处理引擎以Apache HBase为基础,是企业建立高并发的在线业务系统的最佳选择。

  • 高速处理能力: 延时在数毫秒到数百毫秒级,上亿并发
  • OLAP和批量统计: 支持高速的OLAP统计和SQL离线批处理
  • 高效的图形计算: 提供图形构造API和专有的高效图算法

三、Transwarp Stream

Transwarp Stream 实时流处理引擎以Spark Streaming为基础提供强大的流处理能力

  • 更强的表达能力:支持DAG计算模型
  • 丰富的输出方式:HBase,告警页面,实时展示页面
  • 广泛的应用场景:传感器网络处理,服务监控,反作弊

四、Transwarp Hadoop

Transwarp Hadoop 企业版具有五层架构,不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。

  • 数据存储层: 基于HDFS2.2, 支持Erasure Code
  • 资源管理层: 基于YARN,支持同时运行多个计算框架
  • 计算引擎层: 采用Map/Reduce2完成离线计算任务
  • 分析挖掘层: 支持批量SQL统计, R语言和Mahout
  • 数据集成层: 使用Sqoop和Flume支持数据迁移和采集

解决方案

1. 交互式SQL统计与数据挖掘

多数据源的集中日益成为趋势, 当不同类型,来源的数据海量增长时,企业不仅需要收集更多的数据,更需要整合数据孤岛、将数据集中处理和分析做为决策流程的一部分。对于一些企业来说,要求数据的整合和分析并最终用于决策的时间非常短。随着内存数据库技术的发展,使得高速分析(包含复杂的迭代式或者交互式SQL分析)巨大而复杂的数据群成为可能。数据源以结构化数据为主,通常在GB到TB级,如政府各部门数据,证券交易,银行保险,零售业及旅游业的数据。

Transwarp Inceptor 内存分析引擎适合提供高速在线分析服务,如按数据维度进行统计、聚合,根据历史数据进行拟合和预测以及计算数据之间的相关性和模式等等。

2. 实时在线处理

实时数据分析往往由数据透明化这一特点驱动,如对用户信用卡的消费记录,交易记录及行为数据进行实时分析,并快速分析是否有信用卡盗刷行为的发生,从而采取合适的措施来保护用户及银行利益。又比如在智慧城市中,对交通、气象监控等生成的大量数据进行实时分析,并以此为指导制定出行计划。这类分析的特点是数据来源多、高并发以及生成速度快,并且要在数据流动的过程中进行分析和计算。这对在线存储以及实时分析提出了很大的挑战,数据不仅要在高并发情况下的高速存储,同时还需要将数据分析过程从过去的数月、数日或数小时,减少到了数分钟、数秒甚至数十毫秒。

Transwarp Hyperbase实时在线处理引擎依赖其特有的全局索引、局部索引、全文索引和高维索引能完全满足这类型应用的实时需求。

3. 实时流处理

流式计算系统是针对其处理的数据是从前端或者其他数据源持续不断地输入的,应用的处理逻辑由这些源源不断的数据流驱动,持续对输入的数据进行计算。称为实时计算系统是因为其处理数据的方式并没有传统的批处理模型(如Hadoop)有数据积攒成批次的动作,系统实时接收到前端数据源如用户电表、互联网Web服务器产生的电量计量、用户访问日志等数据,实时进行计算,即没有数据积攒的延迟,系统框架同时也是专门针对延迟做了优化,保证整个数据处理链条在极低的延迟内完成。

Transwarp Stream实时流处理引擎以Spark Streaming为基础。Spark Streaming提供了强大的流计算(Streaming)表达能力,支持DAG(有向无环图)计算模型;而Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。Transwarp Streaming中的复杂应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。Transwarp Streaming支持Kafka, Flume等常见消息队列或采集工具,兼容现有Hadoop生态系统。

4. 离线分析与挖掘

离线分析通常由海量数据 (TB到PB级) 的存储和分析需求驱动,数据源通常是半结构化数据,包含 Web 访问日志,CDN日志,应用系统日志及设备使用日志等。基于TRANSWARP DATA HUB 可构建各种对历史规律进行多维统计预测,准实时分析以及对客户进行聚类、分类等数据挖掘应用。如在使用搜索引擎时,搜索同样的关键词时却让不同的用户看到不同的广告;在电子商务网站购物时,每次浏览同样的商品时,让用户得到不同的商品推荐。

Transwarp Hadoop将各种离线数据分析算法完美的部署到服务器集群中,其高效执行引擎使得迭代式和交互式探索与挖掘成为可能。

联系我们

如果对我们的产品感兴趣,想了解更多详情,请与我们联系,我们会为您提供更深入的讲解,并会安排试用软件。

    400-0711-370

    contact@supstat.com.cn