这是一个不一样的夏令营。

知识在爆炸,学科在交叉。统计学早已经不仅仅是用Slutsky定理推导依分布收敛,或用Jenson不等式证明EM算法如何极大化似然函数。可能n趋于无穷时你的渐近卡方统计量很漂亮,可现实中n等于五百万时你看见的不是漂亮的卡方,而是一句:

无法分配大小为38.1Mb的向量

理想很丰满,现实很骨感。我们崇拜高斯、牛(逼)顿、拉格朗日、Fisher、Bayes、Pearson……可是时代赋予统计学家更多使命,我们必须上厅堂下厨房敲代码查异常,不得不学会三头六臂。这就是第一届Supstat统计夏令营的意义:我们一起探索新时代下统计学家的新使命。

讲师队伍

本次夏令营邀请的讲师有:

  • 刘思喆(骨灰级R基础+数据挖掘培训师)
  • 肖楠(黑客中的极客,极客中的战斗机,在Linux中装OS X的213青年)
  • 魏太云(披着概率论羊皮的文艺青年,一个破相关系数矩阵还要追求围棋效果的视觉动物)
  • 陈堰平(说是搞统计的吧,他在折腾网站,说是网页青年吧,他在敲R代码,说是程序猿吧,他在研究股票期货)
  • 高涛(统计之都主站主编,因R图生爱,于是爱上了R与统计分析的艺术)
  • 肖凯(牛顿推公式消磨时间,他写R代码消磨时间,有大量原创文章)

对,这是一个非常年轻的队伍(平均年龄约在26),木有知名教授,木有著作等身,但个个都是有料的主。

课程大纲

如果你熟悉以下一半以上的内容,我们大力邀请你免费来听课和交流(或踢馆)。这样的课程安排,绝对史无前例。以下内容会根据报名者反馈进行调整,不会全部覆盖。

  • R语言编程
    • 控制语句
      • 循环
      • 对非向量集的循环
      • if-else判断
    • 操作符
    • 参数缺省值
    • 返回值
      • 是否显式调用return()
      • 返回复杂对象
    • 函数
    • 匿名函数
    • 自定义二元操作符
    • 环境和作用域
      • 最高级的环境
      • 作用域
      • 何时使用全局变量?
      • 跨作用域操作
      • 闭包
  • R输入/输出
    • 从键盘输入到显示
    • 读入和输出文件
    • 访问互联网
  • 数学运算
  • 蒙特卡洛模拟
    • 随机数发生器
    • 方差缩减方法
    • 应用案例
  • 集合操作
  • 字符串操作
    • 常用字符串操作函数简介
    • 正则表达式
      • 案例1: 测试文件名后缀
      • 案例2: 生成文件名
  • GIT版本控制系统简介
    • GIT的安装、配置
    • 用GIT做版本控制
    • 用Github配合Jekyll做个人网站
  • R与开源计量软件GRETL结合使用
  • R 编码规范
    • Google R Style Guide
    • formatR
  • R 社区重要项目 / 资源简介
    • CRAN 基本结构介绍 (CRAN Task Views)
    • 邮件列表 / 论坛 / 杂志 (R Journal / JSS)
    • RevolutionR
    • ggplot2 / devtools/ stringr / …
    • 金融 Rmetrics
    • 文本 tm / rmmseg4j / rsmartcn
    • 地图 maps / rworldmap / RgoogleMaps
    • 如何寻找所需资源
  • R 与 Web 数据
    • download.file / readLines
    • RCurl
    • 解析 Web API 常用技术 XML / JSON / ROAuth
    • 对 AJAX 的处理
    • 常见编码问题的解决
  • R 与 Web 编程现状
    • RWeb (CGI)
    • R-php (PHP)
    • Python (RPy2)
    • rApache
    • Rook
    • 安全初阶
  • 机器学习常用库介绍
    • caret
    • Rattle
    • 杂项 如 recommenderlab
  • 性能调优初步 (以 RhpcTutorial 为蓝本)
    • 向量化系列函数简介
    • compiler JIT
    • 多核 multicore / snow
    • 编译器 / 第三方 BLAS
    • Rcpp
  • 统计图形理论
    • 作图原则
    • 常见错误
  • Base图形
    • 图库 包括: 直方图、条形图、茎叶图、散点图、平滑散点图、散点图矩阵、饼图、玫瑰图、箱线图、二维箱线图、小提琴图、条件密度图、等高图、颜色等高图、三维透视图、四瓣图、颜色图、矩阵图、热图、社会网络图、马赛克图、星状图、蛛网图、雷达图、脸谱图、平行坐标图、调和曲线图、地图。
    • 高级案例:宋词词话、NBA球赛可视化
  • ggplot2介绍
    • 理念与语法介绍
    • Base图形的对应实现方式
    • 进阶实例与学习资源
  • knitr介绍
    • 可重复研究与动态报告
    • knitr介绍(包括编辑器配置、基本语法、图片、代码、动画输出参数等)
    • 案例展示(包括LaTeX+knitr -> PDF,markdown+knitr -> HTML)
  • 缺失数据
    • 识别缺失数据
    • 缺失数据模式的可视化
    • 完整案例分析
    • 缺失数据的多重插补
  • 置换检验和自助法
  • 数据挖掘
    • R 对数据库的支持
    • 数据的预处理过程
    • 异常值识别
    • rattle和RWeka包
    • 关联规则
    • 聚类
    • 分类方法
    • 随机森林
    • 神经网络

时间地点

本次夏令营时间为2012年9月15~16日(周六日),在中国人民大学举办。我们提供台式机,也欢迎自带笔记本。初步计划每天由讲师讲授八小时,留一小时自由交流。自由交流时间里学员可以自愿展示自己接触到的有趣的数据分析案例,或提出工作学习中的疑问。

报名方法

报名请邮件联系contact@supstat.com,附带简单的个人介绍(以个人特点为重点)以及简要回答:

  1. 对夏令营的预期是什么?希望收获什么?对哪些内容最感兴趣?
  2. 如果你是COS论坛成员,你印象深刻的帖子是哪个(些)?从谁的帖子里得到收获最多?(非论坛成员请略过)
  3. 请结合自己的经历评价任意一种统计方法,赞赏与吐槽皆可。

有任何疑问请在本页面下留言,或通过新浪微博@supstat联系我们。我们计划招收30名成员(“30是大样本”是愚蠢的说法,不过我们追求质量优先)。收费标准为:企业人士¥2000,在校学生可以向我们申请折扣,申请请说明预期折扣(谈钱不伤感情)并附带一个推荐人联系方式(可以是老师也可以是朋友的邮箱,我们会直接联系他/她),我们希望让合适的学生无财务障碍地参加本次夏令营。

报名截止时间9月8日23:59,过期报名不再接受。

由于名额的限制,我们会对报名者进行筛选,不保证每一位报名者都能成功参加。我们寻找的是以下类型之一的学员:

  • 对现代数据分析技术有好奇心或热情
  • 有一定的计算机功底但统计与R语言功底薄弱
  • 对效率与性能有无止境追求
  • 尽管(数学或程序上)不是聪明绝顶,但有点文艺范儿
  • 在企业里奋战在数据分析前线
  • 有自己的个人主页
  • COS论坛潜水两三年
  • 莫名崇拜在Emacs/Vim中飞舞敲代码的人
  • 整天在写报告,不复制粘贴会死星人

我们会通过本页面和微博不定期公布入选名单。

考核方法

夏令营结束之后我们有考核,具体细节稍后公布。考核成绩第一名可全额退还报名费,第二和第三名退费按指数衰减,自由交流时间中给大家启发和收获最大的学员全额退费。考核通过者颁发证书并公示(如果你在入选名单中但没在通过名单中……你懂的)。我们所有的策略都是为了促进夏令营成员能学有所成,通过这次夏令营能真正有收获。

入选名单

以下按时间顺序排名:

  1. 郭鹏(07/16)入选理由:统计出身,互联网老手,技术焦虑星人,看了Cloudly女神的SQL与R日志,抓耳挠腮不知如何评论是好,愣了半天,最后只好跪了
  2. 陈佳威(07/29)入选理由:计算机与统计兼修,态度认真(申请邮件长达1800字),对统计学的“美”有自己的认识,喜欢侯瑀师姐那篇《旅行的意义》,有两位老师推荐
  3. 林祯舜(07/29)入选理由:高手还用理由吗?统计学博士,有企业一线丰富经验
  4. 曾如山(08/04)入选理由:尽管申请写在Word文档中(让某人大皱眉头),但态度非常认真,提供了一些案例,而且在企业前线有强烈的数据分析/处理需求,本人有数学/统计/R基础,相信会有实际收获
  5. 王然(08/14)入选理由:感兴趣的内容是“编程中的数学,数学中的代码”,有计算机基础,有爱(慈善活动)
  6. 刘洋(08/17)入选理由:计算机专业出身,数量经济,金融计量分析,有软件系统开发和在银行业使用统计模型的经历
  7. 陆银波(08/26)入选理由:爱理论,爱数据挖掘,有很高的热情
  8. 陈文(08/27)入选理由:数据偏执狂,学术男一枚,曾服务于第五届中国R语言会议
  9. 杨琳(08/27)入选理由:统计学硕士海归,产品研发中需要广泛的统计知识以及R技能,对大数据感兴趣
  10. 王子龙(08/28)入选理由:名校数学博士,名企数据挖掘工程师,有明确的工作需求,Vim党
  11. 徐敏政(08/28)入选理由:心向往之,态度诚恳动人
  12. 刘兵(08/29)入选理由:这厮的申请竟然写了3300字,把所有人都震翻了;出身非名校,但经历丰富,极其好学,对流行词“大数据”有自己独特的点评,长期关注统计之都,各种历史细节如数家珍
  13. 程萍(08/29):与12对偶
  14. 吴夏秋(08/30)入选理由:有明确的动力,有数据,有兴趣,万事俱备,只欠东风
  15. 陈妍(09/02)入选理由:跃跃欲试,跃跃欲试,总是没试,这次给自己找个大刺激,希望COS论坛上的问题再也遮不住我眼!对统计图形有自己的见解,有应用动力
  16. 唐星(09/04)入选理由:3年R用户,经常使用R分析大规模数据
  17. 苏建冲(09/06)入选理由:几乎翻遍了统计之都上的所有文章,其中有一些打印出来,进行了模拟学习;深度体育迷,感兴趣与体育统计的应用和发展;knitr用户
  18. 陈胜(09/07)入选理由:深厚的生物信息学背景
  19. 王绍立(09/08)入选理由:美国宾夕法尼亚州立大学统计学博士,上海财经大学统计与管理学院副教授
  20. 任卫峰(09/08)入选理由:长期追随中国R语言会议,对R与网络数据挖掘以及动态报告感兴趣

以上人选中同时有高校学生和已工作人士。