罗氏制药R语言培训

日期:20 Sep 2014

9月16号,罗氏R编程培训的一个月后,我们回访了罗氏的学员。不得不说,我被他们的作品震惊了。

毒理学数据处理工具

孙凯是罗氏的一名毒理学家。在参加R语言培训之前,他一直用Excel处理数据,在GraphPad中做统计分析,最后在Word里撰写报告。做过数据分析的人都知道这个过程是很痛苦的,原始数据中一点细微的改变都会引发一系列的修改,在Excel中重新处理,在统计分析软件中重新计算,最后把结果粘贴到Word中…

经过四天的R语言培训和一个月的自学,孙凯已经可以在R语言中做基本的数据处理和统计分析,以及数据可视化。最令他兴奋的是knitr包,可以自动生成报告。原始数据发生改变后,只需要重新运行代码就可以生成报告,统计分析结果都自动更新,大大提高了工作效率。

  培训 阅读全文→

R in Coursera

日期:17 Sep 2014

经常有人问我怎么才能成一个数据分析师。我以为,要想做数据分析工作,需要掌握的技能不外乎是以下三个:

  1. 扎实的理论功底(统计,数据挖掘的基础知识、模型)
  2. 一门脚本编程语言(R/Python/Julia..)
  3. 丰富的实战经验

对于学习的顺序问题,应当是:理论—编程—-实战的过程,一个循序渐进的安排会让自己效率大增。对于在校学生,最好的方式是课程中完成理论的学习, 平时自学完成编程的学习,最后靠实践/实习来积累数据分析的实战经验。对于想将方向转向数据分析的同学,还是建议深入的看本统计的书,会让之后的路程事半 功倍.

本文不再提理论部分的学习,随便从一个大学里面拉出来一位统计学的讲师都会比我讲的更深入浅出,我们主要把注意力放在R语言上面,给大家提供一个学习R语言的优秀渠道——Coursera

  R 阅读全文→

上海讲座:R语言如何推动数据型企业获取成功

日期:19 May 2014

主题: R语言如何推动数据型企业获取成功
主讲人: David Smith, Chief Community Officer of Revolution Analytics
时间: 2014年5月22日周四 19:00 – 21:00
地点: 上海交通大学 徐汇校区(华山路1954号) 工程馆 100报告厅
主办方:北京数博思达信息科技有限公司、上海交大数据分析师俱乐部

关于David Smith

DavidDavid Smith是Revolution Analytics公司的首席社区官,管理着Revolution Analytics公司与两百万R语言使用者社区的合作关系。他领导着该公司的开源解决方案团队,从全球最大的数据科学开源社区中汲取智慧。

数据科学背景出身的David,每天都在Revolution的博客网站上撰写R语言在预测性建模、商业数据分析应用方面的相关文章。凭借专业的技术背景、对数据科学社区的卓越贡献,以及对大数据应用的深刻理解,他被福布斯杂志评为“大数据”主题中十大最有影响力人物之一。他是畅销书《An Introduction to R》的作者,也是ESS项目(Emacs Speaks Statistics)的最初开发者。在加入Revolution Analytics之前,David是Insightful公司负责S-PLUS产品管理的董事。

  公益 阅读全文→

R助力研究人才流失

日期:04 May 2014

Pasha Roberts,Talent Analytics公司的首席科学家,最近为《预测性分析时代》撰写一系列关于人才流失研究的文章,文中包含了一些有价值和指导意义的使用R来做基础预测建模的案例,迄今为止,Pasha借助RStudio使用基础的R函数,已经发表了旨在证明人才流失建模重要性的《人才流失报告201》,已经从基本原理构建出相当复杂的交互模型的《人才流失报告202》,这个系列报告还在连载之中,每篇都是独特视角,多层次剖析这一问题。

  R 数据挖掘 阅读全文→

SupStat在华章公司举办数据科学工作坊

日期:29 Apr 2014

为了普及数据科学知识,分享从数据到价值的应用案例,华章公司(机械工业出版社华章分社)联合SupStat推出“数据科学工作坊”,4月27日举办了第一期工作坊

huazhang

  公益 阅读全文→

数据挖掘在国外保险业中的成功案例简介

日期:15 Apr 2014

GIGNA Healthcare 通过数据挖掘技术来简化医疗管理报告的生成,提高报告的准确度和生成速度,从而帮助公司将投资回报率提高到100-200%。

土耳其的AXA  OYAK 利用数据挖掘技术提高市场份额,提高销售利润,并且对理赔客户进行欺诈识别,降低赔付风险。

西班牙的AXA Segurosse Inversiones 保险公司利用数据挖掘技术分析政策变动对消费者行为的影响,以减小政策风险,并且据此分析市场机会,为消费者提供适合他们的保险产品,从而提高投资回报率。

澳大利亚的Allianz Elementer 保险公司和Blue Cross and Blue Shield of Florida 保险公司利用数据挖掘工具对客户忠诚度、客户细分和客户保持进行分析,以减少客户流失。

  数据挖掘 阅读全文→

R 3.1.0 “Spring Dance” 正式发布

日期:13 Apr 2014

4月10日,R的用户邮件列表里公布消息说R 3.1.0 (代号 “Spring Dance”)正式发布。源代码现在可以下载了;各平台的二进制版本相继也会发布。

关于这个版本的变化,你可以查看详细的Release Notes,下面列举比较重要的几点:

  • 针对一些矩阵的概括操作和快速傅立叶变换,提供了大数据量的支持
  • 提供了一个新的函数anyNA,用于找出向量中的缺失值
  • 改进了时区的支持,并对过去很远或者未来日期提供了更好的支持
  • 对R包开发者提供了C++11的支持,这是新增功能
  • 对一些分布函数的极值情况提高了精确度,并且修正了一些函数的小bug
  • 减少了内存使用(比如,减少赋值时造成的对象拷贝),R现在支持引用计数系统(reference counting system),这将更加减少内存使用。这不但在3.1.0版里是默认使用的,在以后的版本里也是默认使用的。

R-statsitics博客上有一篇关于从旧版本R升级到新版本的文章, R 3.1.0 是最近的一次年度更新,年中可能会有几次补丁更新,按照以往的惯例,到2015年4月才会发布3.2.0版。

  R 阅读全文→

如何成为一位出色的数据分析师?

日期:13 Apr 2014

4月12日,在中国数据库技术大会上,优酷土豆数据研究高级总监杜长嵘先生作了题为《数据分析漫谈 – 视频网站数据分析实践与个案分享》的演讲,在演讲中,他提到如何成为一位出色的数据分析师,列出以下几点:

分析师与大师的差异

  1. 你是否具有敏锐的商业感觉?
  2. 你是否具备缜密的逻辑分析能力?
  3. 你是否能够从现象中抽出核心的问题所在?
  4. 你能否会分清重点,避免在一些无谓的问题上钻牛角尖耗费精力
  5. 你否能具有宏观的思维,又能在微观层面进行有条理的分析挖掘
  6. 你是否能把你所获得的见解和结论以最好的故事和讲法呈现出来
  数据分析 阅读全文→

在centOS6.5上安装RStudio Server

日期:11 Apr 2014

我的系统是64位的centOS 6.5。安装RStudio Server的预览版,当时版本为64位的0.98.766。安装时有如下报错

[root@supstat download]# rpm -ivh rstudio-server-0.98.766-x86_64.rpm
error: Failed dependencies:
    libcrypto.so.6()(64bit) is needed by rstudio-server-0.98.766-1.x86_64
    libgfortran.so.1()(64bit) is needed by rstudio-server-0.98.766-1.x86_64
    libssl.so.6()(64bit) is needed by rstudio-server-0.98.766-1.x86_64
  R Linux 阅读全文→

华章公司联合SupStat推出数据科学工作坊

日期:09 Apr 2014

关于本工作坊

为了普及数据科学知识,分享从数据到价值的应用案例,华章公司(机械工业出版社华章分社)联合SupStat推出“数据科学工作坊”,届时我们将邀请业界专家为大家做分享。

第一期工作坊主题为《R语言快速入门》

R,

当今最热、最前沿、最具前瞻性的数据分析利器。

Facebook和Google数据处理核心工具之一。

编程与统计完美结合,可视化最炫,最受名企青睐的前沿软件。

IT,金融,银行,零售…… 从数据挖掘到可视化,各行业的数据处理究极武器。

2014年5月24~25日,第七届R语言会议(北京会场)将在中国人民大学开幕(详情请看统计之都的通告

为了配合此次大会,让没有基础的人也能听懂演讲主题,我们第一次数据科学工作坊的主题就选择为《R语言快速入门》

  公益 阅读全文→