法医DNA分离模型构建与软件开发

客户与行业:某医科大学

背景与挑战:混合DNA(mixture, mixed DNA)包含多名来源个体的DNA信息,如何对混合斑生物检材DNA进行正确分型检验并对其结果进行科学解释是法医DNA分析领域中亟待解决的理论技术难题。

解决方案:本模型充分利用了贪婪算法统计模型的建模思想,结合朴素贝叶斯思想,通过适当的化简,将原来的局部最优求解算法可以直接推广到全局最优解上,使得确定的最优DNA基因型匹配正确率有了较大提升,在大规模实验数据上取得了非常好的效果,目前正在收集实际数据来进行验证、改进和推广中。

公共自行车数据的预测与应用

客户与行业:纽约Citibike, 公共服务。

背景与挑战:Citi Bike是纽约市的公共自行车分享系统,拥有很多个小的停车站。但是,在如纽约这样的大城市中,它的用户常常面临着找不到可以租借的自行车,或者是归还车辆的地方没有空位。给用户提出租还车地点的建议迫在眉睫。

解决方案: 首先,我们通过程序自动抓取Citi bike的官方数据,然后基于这些数据分别用时间序列与机器学习的模型对未来的趋势进行预测。最终,我们能够较准确地为用户预测30分钟内每个站点的自行车数量,并且创建了一个在线网站,用户可以在租还车之前到网站上查询未来预测信息。

利用R做税收预测

客户与行业:某市税务局,政府部门

背景与挑战:在过去数据的基础上(年度、季度和月度数据)对税收的情况进行全面的预测,从而指导政府部门的开支与制定全年计划。而税收总额,尤其是印花税非常难以预测,因为它受到了很多重要因素的影响。由于股市的不确定性太大,传统的ARIMA模型在预测上已经逐渐失效。

解决方案:我们收集到了过去税收的月度数据,同时收集了很多重要的影响因子数据。这些数据里影响力最高的是股票成交额,M2(广义货币)和GDP。这些指标比税收更容易预测,而且已经被经济学家研究了很多年。结合这些数据,我们通过SVM模型对印花税进行了预测,预测精度相比于大多数政府部门与学术机构有了很大提升。

DataSong为市场营销分析搭建的大数据分析平台

客户与行业:DataSong,电子商务

背景与挑战:DataSong是一家为大型零售企业提供消费者行为分析与预测的公司,它分析的数据涉及顾客与购物商场,电话中心,官方网站的行为,也包括了户外广告,电子邮件,社交网络等广告的展示。随着各个零售企业对数据的收集整理方式越来越完善,这样的分析方式也收到了数据量增大的挑战。

解决方案:DataSong需要每天为每个客户处理五千万条数据。它们将RRE和Hadoop平台结合起来,在海量数据上以先进的机器学习模型帮助零售企业定位目标顾客。DataSong为一个客户的仅仅一家分店就节省了$270,000的投入,同时为另一位客户提升了14%的利润。

北方信托银行快速建立操作风险模型

客户与行业:美国北方信托银行,银行业。

背景与挑战:计算操作风险是一个相对较新的领域,最大的挑战是相对较少的操作风险实战经验与相对稀缺的可分析数据。为了提高分析的准确度,人们通常使用蒙特卡洛法进行分析。金融行业极力避免的是发生概率非常之小但是损失却又非常之大的事件。为了让这样的事件在模拟中出现足够多次,人们不得不进行上百万次模拟,一组这样的模拟在开源的R中可能会花费几天的时间。

解决方案:Revolution R Enterprise内置并行运算框架。通过其中的doRSR和doSMP,极大地减少了运行时间,同时RRE也可以智能地管理计算资源。RRE的并行计算对于计算资源的规模是线性扩展的。

金融量化分析

客户与行业:Quantitative Research Group,金融

背景与挑战:金融量化分析现在面临着“大数据”和“大计算”的挑战,需要集中的,可扩展的,高性能的平台来估算投资组合中每一只股票或债券的价值与风险,以帮助每天的交易决策。

解决方案:Quantitative Research Group 使用ScaleR Big Data 和集成了能提供安全,透明和集中的分析中心的Siteminder的DeployR来搭建平台,开发出的模型可应用于真实数据来开拓市场商机,并成功地开发,后台测试和部署了定量和基于事件的贸易及投资策略,以产生超额收益和有效地管理风险。

新药上市之后的安全性分析

客户与行业:Brigham & Women's 医院

背景与挑战:即使通过审核,对药物安全性的研究依然需要不断地跟踪。一般的药物研究早期依赖于临床的但是有效的药物效用评估很有挑战性,非随机的研究需要基于大量复杂的数据集合进行分析。这些数据来源于真实的病人接受医生诊断,接受治疗,记录治疗结果,观测是否有副作用等一系列记录。这些数据结构更复杂,建立在其上的分析也越发困难。

解决方案:Brigham & Women’s 医院的研究员们提出了一种新的复杂方法,在传统的分析环境下,受限于计算资源的限制,这种方法在使用RRE之前很难实现。从用户的角度来看,这比SAS的方案更快更灵活。与开源的R不一样,RRE的分析不会受到内存的限制,可以处理模拟实验中的复杂情况,当然数据量要大了很多。

运营商详单账单查询

客户与行业:某省移动运营商

背景与挑战:随着移动设备、快速3G 和 4G 连接、自助服务或帐户相关信息查询服务日益受到消费者的青睐,除了传统的语音,上网、短信以及在线查询每月账单 / 电话详单信息相关的数据通信部分迅速增加。随着业务不断扩展,3G 用户数量和计费数据记录已使查询数据请求的数量明显增加,系统响应速度变慢。

解决方案:运营商通过Transwarp一站式数据分析平台搭建了性能随着计算资源线性可扩展的数据管理与分析系统。这个系统以经济的方式搭建了x86集群,可处理数据扩展到了数亿个用户。目前每月无缝处理30TB的用户计费数据,每个表支持数十亿份账单。查询性能相对于RISC平台提高了 30 倍,从而大大提高了新系统的负载能力,可以支持数百万用户同时在线查询。

城市实时视频监控

客户与行业:某市公共摄像头管理部门,公共政策。

背景与挑战:视频监控系统已成为城市环境中的一种标准做法,旨在帮助协调应急响应,引导交通,并加强公民的人身安全。现在面临的问题有视频搜索效率低,访问吞吐带宽小,搜索服务可靠性差,集群管理维护难等。

解决方案:Transwarp的分布式内存式分析引擎与实时流数据分析引擎性能出众,比原来的Oracle数据库性能提高了5倍。而HDFS分布式文件系统的访问带宽是整个网络的聚合带宽,可以达到几百Gbps以上,完全消除了视频存储的访问带宽限制,同时可以实现存储位置感知,将任务分配到视频所存储的节点之上,充分利用本地硬盘带宽,使访问吞吐进一步提高。在执行较长时间的视频搜索任务时,如果主任务调度器发生故障,备用任务调度器会自动接替,使搜索任务避免失败。当个别搜索任务失败时,任务调度器可以在集群中的另一个节点上自动重试。