这个夏天,Supstat团队在北京上海做了好几场培训,培训的范围涉及学校,航空,医药等领域。对于不同的企业(学校),他们会对自己的培训有一定订制性的要求,主要可以分成两类:

一个是技术向,主要适合于计算机数学或者相关背景的学员,熟练或者掌握一两门脚本语言,想了解R语言能做什么,是否可以进一步提高企业开发的效率,还有大数据的顶尖技术:hadoop,spark…..

另一个是应用向,有的公司听说R很好用,但是又没有专业的背景,特别是统计和编程。但是他们想知道R可以解决什么样的问题等等,相比较而言,如果没有编程的经验或者背景,学习R的进度并不会很快,不过,以应用为导向的学习却可以给学员们提供更多的满足感,也会让学员们更有动力

我们特地把一些具有很鲜明特征的培训总结一下,为大家介绍下不同风格的培训,案例是这两家公司,一家是技术向的学习,一家是应用向的学习:

首先,我先为大家介绍一下两个公司的背景:

公司对比

A公司:

Label: 技术向,计算性能

上海某航空公司信息部,参与培训的都是计算机背景的人才,基本上都有编程背景,别的不多说,SQL是必备技能,另外有开发的部门,学员们也都各有所长,JAVA,C,C++等语言也不再话下。

A公司主要关注的是:

  1. R能做什么?
  2. 为什么要用R,而不是其他脚本语言?
  3. 数据挖掘/统计的技术。
  4. R性能的提高,Hadoop,突破内存限制等。

B公司:

Label: 应用向,功能实现

上海某外企,主要做生物医药开发,参与培训的人员基本没有太多编程的背景,有几位甚至是第一次接触编程,B公司的老板对这次培训也很感兴趣,全程参与了这次的培训,(培训是全英文的) 作为一个应用向的B公司,他们所关注的是:

1.R能做什么
2.如何学好这门编程语言
3.相关领域有没有做好的软件包(生物,医药)可以节约工作的时间
4.自动化报告技术,网页App技术,数据可视化技术等

培训大纲

A公司:

D1 R语言基础部分

1.1 基础语法入门

1.2 数据获取

1.3 数据整理

1.4 数据可视化

D2 R数据挖掘之一

2.1 数据挖掘工业流程

2.2 先修统计知识

2.3 挖掘预处理

2.4 线性回归

2.5 logistic回归

D3 R数据挖掘之二

3.1 模型评价

3.2 K近邻方法

3.3 决策树方法和集成学习

3.4 K均值聚类

3.4 推荐算法

D4 文本挖掘与大数据

4.1 文本挖掘入门

4.2 突破R内存瓶颈的若干技术

4.3 rhadoop的使用

4.4 RevoSacleR功能介绍

B公司:

TRAINING AGENDA

MODULE 1. Basic Programming Elements
[R编程基础]
MODULE 2. Getting Data
[数据获取]
MODULE 3. Data Manipulation
[数据操作]
MODULE 4. Data Visualization
[数据可视化]
MODULE 5. Data Mining
[数据挖掘]
MODULE 6. Big Data with R
[大数据与R]

A,B两家公司都是从基础R的培训开始的,相对于B应用向的培训相比A公司 的培训更加密集,时间更短,都是压缩的干货(干货吃多了会噎住的!)如果培训极度压缩的话,一旦跟不上学习的节奏,就会产生较大的挫败感,让学员无法继续下去。

A公司偏技术节奏快,内容多,相对的练习较少,而大量的干货也让学员们十分满足。

他们问到的问题是:

我的一个算法如何封装到一个程序中?

文本挖掘的字典如何设置为可更新的?

主成分分析PCA和奇异值分解SVD有什么异同?

B公司偏应用,节奏稍慢,更多的练习,交流的时间,整个学习的氛围很棒 他们问到的问题是:

有什么包可以按照我的文件画出来化学式么?

如何把一个集成好的方法交给我的同事让他们也可以做出同样的效果?

总结

总的来说,技术向的学习和应用向的学习都是从头,一点点的进行R语言的学习.无论哪条路都可以学到很多知识,发现R语言的精彩之处,最重要的一点是:To do it NOW!