利用R和开放数据实现台湾污染数据的可视化

日期:04 Jan 2015

这篇文章是2014年10月21日~29日在台北参加“国际Open Data应用实务班”的学员Yu-Lang Chiang的报告。

项目

我们利用台湾省污染分布的开放数据和R相关的技术来可视化这些数据。下载幻灯片台灣公害資料視覺化

背景

TGOS(Taiwan Geospatial One Stop,地理資訊圖資雲服務平台) 是台湾的地理空间数据服务平台。你可以在这里查看关于该平台的详细介绍信息。因为我们来自一家空间地理信息技术的公司,上了SupStat开放数据课程之后,我们决定利用R对TGOS上面的2013年污染分布的数据做可视化分析。

  R 开放数据 阅读全文→

SupStat参加2014年R Taiwan研讨会

日期:29 Dec 2014

2014年12月19日~20日,2014年R Taiwan研讨会在台北举行,SupStat的数据科学家受邀参加,并做了演讲《R与地图信息的可视化》。

本次会议官方网站为http://event.twdatascience.org/,如无法访问请登录我公司建立的镜像页面,其中包括会议日程演讲资料

2014年12月19日会议日程

時間

議程

主持人 / 主講人

08:40-09:10

報到

09:10-09:20

開幕式

主持人:東吳大學 潘維大 校長

邀請演講一 主持人:東吳大學 許晉雄 教授

09:20-10:10

巨量資料對台灣產業的機會與挑戰

資策會 林蔚君 所長

10:10-10:40

茶敘

邀請演講二 主持人:東吳大學 許晉雄 教授

10:40-11:30

雲端巨量資料運算服務

中華電信 葉筱楓 副經理

邀請演講三 主持人:育達科技大學 李明昌 博士

11:30-12:20

R在新藥研發中的應用

中國統計之都 李艦 顧問

12:20-13:30

午餐

專題演講 主持人:採智科技 廖建華 總經理

13:30-14:00

運用R建置潛客預測模型

陳文欽 博士

14:00-14:30

R在行動廣告大數據分析與整合應用

VPON移動數據團隊
首席數據科學家 趙國仁 博士

14:30-15:00

R與地圖信息的可視化

SupStat
數據科學家 郎大為 先生

15:00-15:30

茶敘

專題演講 主持人:國立臺北商業大學資訊與決策科學研究所 楊東育 所長

15:30-16:00

台灣企業跨入大資料世界的兩難

美商Teradata台灣分公司
客戶經理 楊明禮 先生

16:00-16:30

R在金融數據分析之應用

東吳大學 吳牧恩 博士

16:30-1700

實現資料解析生態系統(Data Analytics Ecosystem)在高科技智慧工廠

宇清數位智慧股份有限公司
徐紹鐘 副總

17:00

會議結束

  R 阅读全文→

RRE促进美国世纪投资公司变革

日期:08 Dec 2014

logo

美国世纪投资公司是世界上最大的私人拥有的共同基金公司之一。总部设在密苏里州堪萨斯城。其量化投资团队在加州山景城,主要负责美元8.5亿经济产品的投资。 该公司管理着数十亿的资产,采用实时数据监控系统以及定量选股模型,以客观系统规范的方法来确定买入和卖出得股票,这是一种系统自动化的投资方式。在过去,该公司拥有一套采用很多第三方软件整合成的投资系统,这套系统中的软件昂贵,接口系统复杂繁琐,且功能有限(尤其是在不同种类数据的处理方面)。在实际应用中造成了投资部门成员间的沟通不便,有效限制了他们团队的工作效率,以及为他们的客户改进投资产品的创新能力。

为了解决上述问题,该公司对自身系统进行升级改造,采用Revolution R Enterprise来创建自己的、可扩展的、终端到终端的量化投资平台。他们的rACI包使他们在要求的条件和精度下,灵活地获取所想要的资源,并且是在一个由研发部门和生产部门相互协作的平台应用中。该系统拥有数据采集,模型建立以及投资分析三个模块,在数据采集模块可以轻松获取不同数据源以及第三方平台产生的数据,模型建立模块又链接了投资组合管理软件axioma和商业智能分析软件Tableau

  R 阅读全文→

第七届R语言会议北京分会场嘉宾小组讨论会——数据科学之产业&教育

日期:05 Dec 2014

第七届中国 R 语言会议(北京会场)于 2014 年 5 月 24 日 ~ 25 日在中国人民大学成功召开。第一日举办于如论讲堂,第二日举办于明德商学楼0102,0202以及0302三大分会场。在第一天下午的主会场,大会特邀嘉宾就“大数据/数据科学之产业&教育主题”做了场精彩的讨论。

####嘉宾:
吴喜之(人民大学),王汉生(北京大学),余凯(百度),姚远(北京大学),杜长嵘(优酷土豆),陈江(雪城大学),胡浩(微量网),刘道明(光大证券)

题目:大数据的多样面貌

主持人林帧舜:

回顾过去数据挖掘的发展到大数据,整体而言,统计学科的本质是没有变的,分析的核心观念没有因为数据量的多寡而有改变,而是应用方面更强调交叉学科(学科间的协作)。

我的观点是大数据也是一个由媒体炒作出来的概念,其实和十几年前的数据挖掘一样,但是这个概念的普及对统计学科很重要,因为公众及企业等外在环境的改变及重视,可以让我们能够思考改变,更可以让统计的核心思想得到更多的普及。

  Big Data R 阅读全文→

阿里巴巴数据技术与产品部负责人闵万里在第七届中国R语言会议杭州会场的开场致辞

日期:04 Dec 2014

minwanli

今天的这个天气,是对大家的一种考验,也是对大家对R的热情和数据挖掘这一个领域的一种挑战或考验。很高兴祝贺大家通过了这个考验。这是我第一次讲话不用ppt,因为此前我讲过很多次了,以一种不同的身份,以学术研究的语言与同行交流。但今天我的身份稍微一转换,代表这个淘宝IT的阿里巴巴数据系统产品部。本来是我们的副总裁,车品觉老师,他最近写了一本书叫《决战大数据》,本来是想请他来,但是由于时间的冲突,所以我今天就来上台。我也很愿意做这样一件事情,因为我的背景。我是统计出身,R语言的伟大之处在于它是统计学家创造的,但是后面一句话大家肯定也知道,它最糟糕的地方也就是“它是统计学家创造的”。那么我一会儿讲一下我的三个经历,给大家分享一下这两句话的含义。最后我再解释今天我希望大家从这个会场得到怎么样的message(信息)。

  R 阅读全文→

获取股票信息的简单shiny接口

日期:03 Dec 2014

本文的作者是某国际知名制药公司在华研究中心的工程师,今年8月他们部门接受了我们的R语言培训,这篇文章就是培训后他做的presentation.

目标:通过数据的股票代码获取中国股票信息

这个项目以利用shiny获取和展示股票信息为目标。

数据准备

新浪是获取中国股票信息源数据的理想场所,我们可以利用下面的代码来得到数据,然而,sina.com还能够提供准确到分钟的精确信息。

1
2
3
4
5
6
library(RCurl)
library(XML)
library(plyr)
raw <- getURL("http://biz.finance.sina.com.cn/stock/flash_hq/kline_data.php?symbol=sh600000&end_date=20121231&begin_date=20111231")
raw
do.call(rbind, xmlToList(raw))

但是来自新浪的数据格式并不规范,我们需要花大量的时间去清洗和整理。我的主要目标是利用shiny来展示股市数据,因此我使用雅虎为数据源然后直接使用quantmod程序包来提取数据。

  shiny R 阅读全文→

毒理研究的微型概述工具

日期:02 Dec 2014

本文的作者是某国际知名制药公司在华研究中心的工程师,今年8月他们部门接受了我们的R语言培训,这篇文章就是培训后他做的presentation.

1.背景与目标

作为制药公司的一名毒理科学家,我经常需要基于各种研究数据来撰写报告。我以前都是运用Excel来整理数据,在GraphPad上面进行统计分析,在Excel里画图,然后在Word里面起草我的报告。

一开始,因为所有软件都很容易操作,所以这个方法看起来挺不错的。

然而,这个工作流程有两个主要的问题。

i. 临床病理数据(40多个指标)的统计分析会非常的重复乏味且耗时间。
ii. 如果汇总数据或者统计分析发生变化,在Word里面的报告也需要做相应的修改。这是一个累人且容易出错的过程。

  toxicology knitr R 阅读全文→

解决slidify中文乱码的问题

日期:29 Nov 2014

slidify是款用Rmd生成精美slides的R包,作者是Ramnath Vaidyanathan。这个包并没有在CRAN的镜像上,而是托管在Github上,需要用以下方法安装:

(在运行之前需要保证安装了devtools,如果没有请跑下install.packages('devtools'))

library(devtools)
install_github("slidify", "ramnathv")
install_github("slidifyLibraries", "ramnathv")

不过在Slidify使用的过程中会出现几个比较难受的问题,尤其是在windows下编译中文的Slidify会出现乱码.本文叙述了Slidify下解决这个bug的方法.

Slidify中文乱码实际上是只出现在windows平台,若是追寻其原因还是因为是windows的编码方式造成的(windows是GBK编码,而基本上linux,OS,以及R的用的是UTF-8的编码)

  R 阅读全文→

解决slidify打开缓慢的问题

日期:26 Nov 2014

slidify是款用Rmd生成精美slides的R包,作者是Ramnath Vaidyanathan。用以下方法安装

library(devtools)
install_github("slidify", "ramnathv")
install_github("slidifyLibraries", "ramnathv")

slidifyLibraries包里含有slidify所需的框架文件和js/css库文件,如果不安装的话,slides就没有什么主题可以选了,css/js文件也直接用亚马逊云上的,在国内根本连不上,所以最好安装上这个包。关于slidify的介绍可以看这里

假设你已经成功安装了这两个包,以及其他依赖的包,并且成功编译好一份slides。当你打开slides的时候,可能会发现打开的速度奇慢无比,而国外的朋友们没有遇到这样的问题。这是怎么回事呢?

  R 阅读全文→

技术向Or应用向--你的公司是哪盘菜?

日期:25 Sep 2014

这个夏天,Supstat团队在北京上海做了好几场培训,培训的范围涉及学校,航空,医药等领域。对于不同的企业(学校),他们会对自己的培训有一定订制性的要求,主要可以分成两类:

一个是技术向,主要适合于计算机数学或者相关背景的学员,熟练或者掌握一两门脚本语言,想了解R语言能做什么,是否可以进一步提高企业开发的效率,还有大数据的顶尖技术:hadoop,spark…..

另一个是应用向,有的公司听说R很好用,但是又没有专业的背景,特别是统计和编程。但是他们想知道R可以解决什么样的问题等等,相比较而言,如果没有编程的经验或者背景,学习R的进度并不会很快,不过,以应用为导向的学习却可以给学员们提供更多的满足感,也会让学员们更有动力

我们特地把一些具有很鲜明特征的培训总结一下,为大家介绍下不同风格的培训,案例是这两家公司,一家是技术向的学习,一家是应用向的学习:

  培训 阅读全文→