第七届中国 R 语言会议(北京会场)于 2014 年 5 月 24 日 ~ 25 日在中国人民大学成功召开。第一日举办于如论讲堂,第二日举办于明德商学楼0102,0202以及0302三大分会场。在第一天下午的主会场,大会特邀嘉宾就“大数据/数据科学之产业&教育主题”做了场精彩的讨论。

####嘉宾:
吴喜之(人民大学),王汉生(北京大学),余凯(百度),姚远(北京大学),杜长嵘(优酷土豆),陈江(雪城大学),胡浩(微量网),刘道明(光大证券)

题目:大数据的多样面貌

主持人林帧舜:

回顾过去数据挖掘的发展到大数据,整体而言,统计学科的本质是没有变的,分析的核心观念没有因为数据量的多寡而有改变,而是应用方面更强调交叉学科(学科间的协作)。

我的观点是大数据也是一个由媒体炒作出来的概念,其实和十几年前的数据挖掘一样,但是这个概念的普及对统计学科很重要,因为公众及企业等外在环境的改变及重视,可以让我们能够思考改变,更可以让统计的核心思想得到更多的普及。

业界的观点:数据挖掘是让用户感受及理解到工具和方法(算法)的价值,大数据是让用户感受到数据(体系)及分析思维的价值。

大数据的核心是分析,而分析是关于人才能力的培养。

讨论题纲:

1、从各位研究和产业的角度,谈谈什么是大数据?
2、根据各位的经验,请问未来大数据的应用可能往哪些方向发展?
3、企业在应用数据时,需要注意哪些?可以从技术方法、组织及人员的方向说明。
4、提问

分组讨论

吴喜之:

我觉得大数据,现在是炒作出来的,但是炒作出来总比没炒作出来要好。因为数据的概念我觉得很重要。就大数据来说,我觉得如果你在用算盘的时候算不出来,这就是大数据。用手算也算不出来的也是大数据。一个企业,很小的企业它用计算机,用很简单软件算不出来的,这肯定也是大数据。企业,还有科学研究,只要它觉得它的处理数据的能力不够,那实际上就是碰上了这一类的问题。大数据,现在主要在互联网上产生的最多,当然在科研上,比如天文学、遥感等也产生很多的大数据。个人认为,现在科学发展的主要前沿就是怎么去处理这么多的数据,在处理数据本身就能有很多很多的科学的发现,这个跟过去,例如牛顿的时候,是很不一样的。

王汉生:

我跟大家分享我的三个观点。我也赞同大数据是一个炒作出来的marketing的概念。好多年前金融行业就在做的是大数据了,只是以前不这么说,现在这么说。好多年前我们做的是分析,现在还做。但我也赞同吴老师的观点,它有一个巨大的好处。

第一是全行业都认真地重视数据分析,做一些特别好的普及的工作,虽然说普及得有点儿玄乎。

第二个是对统计方法发展。有时候学一些统计学史会非常有帮助。很多年前,别人做的统计学,比方说可靠性、实验设计,这些都是用来生产的,跟当年的制造业的发展是紧密不可分的。时间序列和金融的发展是紧密不可分的。我们现在在各个学术场合中听到的超高维数据,和这个DM microwave技术的改变和进步更是分不开的。所以说,在未来的研究中,技术的进步决定新的数据类型,决定未来的研究方向。现在移动互联网技术给我们带来的网络结构、地理位置信息、声音、图片,这些可能是未来研究的重点方向,尤其是网络结构和地理位置数据。这些数据牵涉比较少的。

第三个回答的问题。怎么样的方向可能是发展好的?从科学的角度,哪个方向是能真正解决一些时常可见的问题的,是会发展好的。从业界的角度,哪个方向能够解决数据到价值的过程,最直接的产生过程,这个方向是绝对优先发展的。比方说,哪些行业能把数据直接产生价值?金融投资,所以这个行业已经存在很多年了,而且做得非常的优秀,只是以前大家不叫大数据而已,这是毋庸置疑的行业。接下来,电子商务方面,在搜索还有个性化推荐方面是可见的。我们不确定的是那么庞大的传统的行业,这些传统行业,它也在积累数据,有没有可能——我觉得中间最大的难处,不是计算机的问题,也不是统计学问题——而是在商业上怎么实现从数据到价值的转换过程,谁能解决,这些行业就能优先发展。

余凯:

我谈一下我的个人看法,就是三方面。第一个,怎么看大数据,第二个,大数据对在座各位,在中国数据的实践者有怎么样的机会,第三个的话就是怎么去抓住这些机会。

第一个讲的就是大数据,主持人刚才讲了,不要讲什么多少维啊,什么数据量大的,这些也就是一些表层的东西。个人来说,大数据本质是一种数据维大的一种思维方法,一种方法论,一种商业模式。所以说,你从数据中去获得价值,你把它价值升华,以后它那个卖出去。这个呢就是数据维大的一种方法论。从互联网来讲的话,互联网是完美的大数据应用模式。比如说流量性能,搜索流量性能,这里面有各种各样的流量,我们把它作为一个搜索引擎,包括里面的一个流量升华。这个升华主要是说把它的意义发掘出来,然后做精准的营销匹配,形成高质量的流量,然后把它给卖出去,卖给那些广告者。总的来说,这个搜索引擎是一个非常完美的大数据的应用模式。在很多行业里面都存在很多这样的机会,就是说从海量数据怎么升华它的价值。

第二个方面来说,就是对于在座的各位来讲,大数据蕴含怎样的机会。而我个人认为呢,在中国的话,我们尤其有这个很大的机会。在美国,无论金融还是医疗,无论是互联网行业还是传统行业,他们的统计分析,他们的数据应用不是说到今天才突然热起来的。比如说在Finance,risk management,比如说信用卡分数的分数值,而且在国民经济中扮演很重要的角色。在中国的话,我觉得真正对数据的重视是到现在才刚刚开始的。比如说,中国的传统行业是不知道怎么用大数据的,处于一个非常低端的状态。如果你重视数据的话,你有很大的机会去颠覆它。给大家举个例子,比如说团购行业。去年的话,中国的团购和美国的团购整体来说都是40亿美金。但是美国year-to-year growth的话大概百分之十几,中国year-to-year growth为70%。这说明中国零售市场比美国小很多,我们团购做得比他们要好,因为传统的线下的零售行业,整个的技术应用、数据分析做的非常的差,所以online business或者是有数据分析的business有很大的机会去地颠覆它。比如说淘宝,销售量来说是全球第一大电商平台,为什么比美国同行还大?因为美国线下的传统零售商都一直在做数据分析,walmart记录顾客在商店中的大概100多种行为。中国的话完全没有在用这个东西。所以,你有大量的机会颠覆。同样,制造业,农业,包括金融业,我觉得中国的金融业很有可能去被大数据分析颠覆,因为我认为国有的大银行银行的数据分析做不到相当的阶段。第二个观点就是说,在中国的话,基于这种数据性能这种技术的话,比在美国更有机会去颠覆传统行业。

第三点,我想说怎么抓住这个机会。一般来讲,在做各位,我们做数据分析,然后有数据结果,有insight,whatever。但是你要想想看,你的一个数据分析技术以一个怎么样的模式去呈现才有可能获得一个强势的地位,才有可能有一个substainable的business model(可持续的商业模式)。首先从第一点来讲,传统的数据分析,得到一些分析结果,然后让别人来看,让别人有一些了解然后去make一些decision,这是一个传统的business intelligence。但是我们今天将大数据的话,数据分析它是怎么一个过程。这个我想说,数据分析,然后做实时决策。实时决策之后然后实时的take action,以后呢,这个action的效果你是不是可以measure,measure效果的评价是不是可以产生了一些数据去提升我的分析。如果整个的一环,你没有去掌握的话呢,你做的这个数据分析,产生的这些结果,在business里面你处于一个非常弱势的地位,基本上处于一个consulting的位置,但是不能够get到一个平台,不能get到一个service。另外一方面,在什么行业和领域最有机会build up一个平台。首先,对于数据员,他们非常的fragmented,每一个人都看不到数据全貌,却非常希望看到数据全貌。作为作为中间的,去分析数据的就能展现了一个相当强大的价值。第三个呢我就是想这样说,对于做统计分析的朋友交流过程中,我个人的一个非常真诚的建议就是,做统计分析的对计算不够重视。通常做统计分析有一个非常强的假设,就是计算资源是无限制的。但是在现实中,这是business,就要考虑有多少资源,有多少时间,要在多快的速度里面做出响应。学统计的学生的话呢要去take computer science、编程的class。

姚远:

big data的带给我们的新现象。大数据的本质是数据共享,给我们带来大众化的教育,让数据变得很重要。几年前,我们知道数据是一个很重要的方向,从企业到学术界都抱有兴趣。现在普通人心中都有大数据的概念。在未来,由于数据的重要性,愿意共享数据,共享数据不仅仅是资源,而且还带来了共享知识的一个契机。这带来了问题,在学院里头,不是在企业的,到底怎么训练学生呢。有很多学生都这个大数据感情去,那我们该怎么去训练,你怎么去学?学院没有大数据,什么是大数据,难道拥有在hadoop做搜索、做处理的能力的人才是大数据吗。如果给你一个T的硬盘,上面都是数据,一个从来没有过任何python编程的人,面对着这一个T的数据,可能他觉得这也是 一个大数据。甚至十几兆的数据对他来说也是大数据。让我们回想起一个故事,一个世纪以前,Fisher在一九二几年的时候研究的数据,他的办公室里面摆了很高的纸,记载了当时英国农业的各种各样的生产水平和气候状态。对于Fisher来说,他没有计算机,只能一张张查,然后去发展一套工具,那时对他来说也是大数据。今天,大家谈的大数据就是我们要看百度遍及全球的电脑,google的computer campus,这才算是大数据。100年变化中,人类面对大数据的时候处理数据的原则是没有变的。过去20年的统计学习和机器学习越来越收敛和在各个方向发展,这些原则其实一直是朝着一个方向发展的,我们并没有变。学院教给大家的更多是这种原则,大家带着原则去思考。以后面对更高规格的数据,和越来越新的技术,大家该怎么去学习。数据带给我们的是共享的这个概念,不同学科的要坐在一起经常讨论,带着你的问题来。因为数据处理本身处理的技术可能的是一种原则,但是更重要的是数据背后代表的领域价值。只有回归到后面的领域知识和价值才是数据科学最重要的部分。而要做到这一点,不能说你学会了数据处理能力和算法就可以解决我们所有的。最重要的是大家一起合作,互相沟通交流。举个例子,香港科技大学高等学术研究所,最近新建起来一个高等学术教育研究所,号称是全球最美的高等教育研究所,刚开始他们就像把这个研究所建成世界级的像普林斯顿这样的,那就问了一个问题,我们用怎么样的方式让我们的研究所才能达到这样的一个标准。最后大家坐到一起,得到这样一个结论,就是让不同学科的人,在数据科学的共同前提下,讨论关心的问题,互相交换所拥有的知识,产生出新的知识。我想这就是未来数据科学从教学科研和企业应用应该走的方向,也是大数据作为新名词带来的新启示。

杜长嵘:

本身从事20年数据分析工作,我就想说,大数据出来之后对我有什么改变。我发现有一个事情工作更稳妥,因为之前好多人跟我说,你很重要,你越来越有价值,我想说,我没做什么事情啊。刚才老师都提到了,就是一个普及,大家都了解数据的重要性了。那我就想把我这个观念告诉大家,就是不管是做大数据还是data mining,其实最核心的是数据价值。我自己总结起来的经验,做数据分析其实就是做两点。第一个是,如何把数据通过转换变成资讯、知识、形成行动方案、最后产生positive impact,这是最重要的事情。无论是一个怎么样角度,你是一个数据科学家,你是一个程序员,做处理数据的工作,最终怎样产生对公司有正面效应的事才是最重要的。 第二点是我自己一个心得,就是deliver the right data to the right people at the right time through a right way. 让任何想要拿到数据的人,随手能拿到,不管是哪一个类型的数据。公司内部的人,他需要数据,我们做数据的人能马上给到他数据,就是我们的工作。如果能把数据转换成information,转换成value,那就是每一个人自己的功力表现。其实我觉得做数据的人有点像是藏在后面的人,别有人越看不到你,那就说明越做得好,说明他需要的他拿到了,不要麻烦到你。之前有人提到数据要民主化,我是非常赞同这个观念的。除了个人隐私和数据保密外,要尽量透明公开,同样的数据每个人的角度不一样,启发点不一样,启发点越多,产生的价值越大。这是我一直都表达的理念。

陈江:

个人认为数据没有大小,数据只有两类,一类是实验数据,另一类是观测数据。我记得我在70年末期、80年初期在带研究生的时候,那时候处理的数据,就算在现在来说也很大。比如说我在参加winscosin会议,我们在欧洲有一个project,是环保的,先做地上的物种,再做天上的物种。那天上的物种有多少呢,那是一个人造卫星,每7秒钟采一个数据,每24分钟可以绕地球一圈。但是呢,它要换着轨道,它要把地球的面,全部cover。这就是我们在80年代初期的时候处理的数据。那不晓得大家说这是不是大数据。后来我到了芝加哥,那里有一个超市,那时候刚开始我对它们的广告就很有兴趣,到底这些广告有没有用。既然现在电视也打上广告了,报纸也打上广告了,还印了一大堆乱七八糟的东西去送人,每个月几百万广告费发下去,他就想问,到底这个广告有没有效果。后来就建立了一个机器,给芝加哥大学营销系,那个时候就把我们这些统计的人找去了。那时候就在研究,每一个广告对每一个产品有没有影响,我们有广告和产品的数据,每天的销售量都有。这是我刚刚说的,就是刚刚老师说的,大数据根本不存在现在才有的问题。还有一个做分析和决策的,100年前,老JP Morgan,在华尔街里面,他们就有接近20名经济师,20名统计师。我的意思就是,今天中国开始尊重数据其实是一个好现象。关切数据基本上是一种精神,是以信息为基础的决策过程。西方现在已经超越我们很远很远,整个工业其实都在做这样一个事情。只是当时看的数据和我们现在看的数据不一样。可是精神都是一样的。这是我对大数据的解读。再说就是领域。刚刚很多都在强调在商业上的应用,其实在包括环保、制造业都存在很多很多大数据的问题。比如像我在纽约州,纽约州很关切的就是各式各样的污染,其实我们中国也关注污染,不过主要是空气污染。其实关注的应该是水污染,更重要的是土壤污染。我们就有专门做污染跟公共卫生的图。很不幸,这之后在美国这个国家他不太敢公布。因为发现的结果就是,各式疾病,特别是肿瘤疾病,跟污染极度相关。他们不敢公布,因为这全部在地图上,哪个是疾病高发点,哪个点污染严重,match相当好,所以公布起来社会又有问题了。所以说,很多人认为美国很透明化,我可以告诉大家,当涉及到公共安全、公共健康问题的时候的时候也不见得很透明化。但这事实上也是一个大数据非常重要的应用,美国在农业上大数据应用非常齐全,人造卫星照射土壤信息,气候的信息,肥料、水什么的全部在里面。这一类的应用实际上在世界各种里面非常多的。我们现在国家想要讲的什么智慧城市就是这个。我记得我们当时在做项目的时候,我们不但没有R,我们连什么R、SAS都没有,都要自己编程。可能在那个时候我们花很多时间去想这个问题。现在呢,按一下就出来了,到现在都不知道数据到底是什么,没几个人能回答,就是看到图而已。我的观点是,不过是model based还是algorithm based,都会遇到一个问题。以model based的的问题就是,统计的人喜欢讲平均,其实分析的目的不见得是看平均。刚才分析就说把Outlier拿掉,问题是很多人就是想看outlier啊,outlier最重要,你拿掉我们不要分析了。尤其是finance,我赚钱就是看outlier,不看outlier不赚钱。所以我的意思呢,统计里面有一个很大的大缺陷。刚刚说的原则不变,我个人认为这是一个问号。因为我们现在要面对的问题里面,有很多传统的统计原则受到挑战,而且实际上这些原则值不值得我们坚持。这是问号,值不值得我们坚持。我不敢说可以。就像王汉生老实说的,其实那是George Box的statement,就是all models are wrong,some are useful。这个George Box老师,他就在1980年的一篇文章里面讲到这句话。他这句话其实很多统计界里面的人不喜欢,特别是classical的传统统计界的人不喜欢,因为很多以模型为基础的人,就惯性找最优模型。那Box的观点就是,什么事最优的,反正所有都错的,有什么最优不最优的。优化优化,都是错的有什么好优化的。所以我们在统计里面要求的平均最好的观念是需要思考的。那联动的问题是怎么解决?解决这个问题的方法就是,回答自己为什么要做这个数据分析。所有模型都是错的,有一些有用。有用是针对什么,是针对你的目的,你提出类目的以后,我就知道什么是有用的。不提出目的,其实都不太适合,因为你不知道你在搞什么。这是一个问题,另外一个呢,做数据分析,你的集中目的,就是提到的所谓的predictive vs analytic,就是预测型还是解释型。我个人的经验,你要是做得对,那就两个都好,要是做得不对,有时候有一个好,有时候两个都不好。真的数据分析做到位的时候,又能预测又能解释。这里面还有从企业这个角度,operation vs strategy,操作型目的和战略型目的,又是不一样,今天总经理要看的和低一个级别的要看那也不一样。模型也不会一样。还有一个观念就是Global vs Local。今天有兴趣是全面的,还是就是这儿。实际上我就说,在做大数据分析的时候,这些问题是需要考虑的,而不是一再方法上。我个人极端不认为有万灵丹。具体问题具体分析,不是学到一个工具什么问题都解决了。

刘道明:

反正大数据,我就知道,10多年之前做数据挖掘的时候,做数据挖掘的股票都没涨,过去两年的大数据的股票都涨的很好,这说明一个名字对大家来讲有多重要。大数据最大的重要,和我们以前的想法是不一样的,在座很多学统计的,我们没有很多专业的问题,我们只是从数学专业从统计专业开始接触到了数字,我们就把它们叫做数据统计或者数据挖掘。但大数据更多带来的是理念的变化,所有东西需要自上而下的,从商业出发的。就像我们每天做的时候,做一堆的模型,没有太大的用处,模型关键是能不能告诉我们,在股票上面,明天我应该怎么做,市场上来将就是明天市场是涨还是跌,或者未来一段时间是涨还是跌。对于我们来讲就是要做预测,所有的解释都没用。最重要的东西就是business model,model再复杂,通过这些数据分析,在最后与商业碰撞的时候能抓住机会,就是能把钱贷进来。其实就是后面做的再多的东西都没有什么用,重要是从上面出发,从上面出发其实就是对市场的理解。有人对股票市场不同的想法,有人觉得它很好,每天都钱来钱去的。有人觉得就是对实体经济没有任何的促进作用,但是我们有一大堆例子说明它对实体经济有巨大的促进作用。对我们来讲就是对市场的理解,有是数据模式的,有是哲学模型的,有是人生阅历带来的或者各行各各业接触之后(得到的)。我特别同意要做交叉学科,不同学科的碰撞和思维变化。以前做模型的时候都爱做多元组合模型,很多数据排排排好,实际上做股票的时候,我们发现不对,也许我们应该要考虑决策树模型。但是我们现在没有办法给股票打上那么多的属性,但是在大数据的帮助下,就希望打上这些事属性。大家讲到大数据,都做爬虫,网上有大量大量的爬虫,大家都去建数据中心。它带来的问题是什么,就是我们没有理解大数据的本质,对于在座每一个人来讲大数据的本质是我们独家掌握的核心的数据,或者说我们比别人理解更好的我们的独家的数据。所以我们在做研究的时候非常注重核心数据。有了这个核心数据之后,我们从核心数据和核心思维出发,利用外面更多的别人能想到的数据做佐证,它可能提高了我们的准确率。所以大数据对于我们来说就是上的环节就是从商业模型出发,下的环节就是我们需要知道我们什么的核心数据。另外的就是,就像现在大家都会用电脑一样,以后大家都会做数据分析,都会做数据统计。这是科学进步不断对大家带来的一个过程。我觉得我们在未来人人都是数据分析师,就像现在很多人都会写几句程序一样。所以我们觉得大数据是一个大的时代,大家都在分析数据的意思。

胡浩:

我先跟大家讲一个例子,因为大家讲了很多大数据的理念和哲学的东西,我讲讲我们所知道的一个案例,给大家一个启示。当年美国次贷被做空的过程中,除了保尔森,还有另外一个。保尔森可能靠自己神勇的判断力和自己过人天赋来做这个事情。另外,还有一个机构雇了一群中国的高科技人才上夜班。因为它是一个美式机构,雇了中国的大学生在做研究。它做空次贷是这样一个过程。前面的老师说得非常的不错,我一直在听。其实我的一个观念是,你的数据是片段的。那么在收集美国地产数据的过程中,美国地产数据很片段,没有人能收集整个数据。那收集的一个重要过程就是把每个州细致到每个镇的地产和相关贷款以及还款状况都收集到它的系统里面,让一群人把这个数据库做得越来越完善,拼命地跟踪去算那个毁约率。然后在美国次贷的爆发中,保尔森用他的判断力,它用它的数据的值,比别人最先发现了美国的房地产业出现了下滑的走势,在做空的过程中赚了很多钱。讲完这个,我最终其实想说,我们投资在拼三个东西:第一,在拼速度。这个速度就是说你有一个好的数据架构,和一个好的IT系统,下单比别人快。第二,我们拼深度。同样的东西我做得比你深,这个就一定要思考一个话题,中国的宏观数据都是一个特别低频的东西,一个月出一次,甚至一个季度出一次。我们有没有可能利用这个互联网给我们带来便利性。最近十年最大的改变是互联网颠覆了一些行业,或许这些数据是片段的,互联网把这些数据变成了一个可以共享和可以完全使用的过程。那么我们是不是现在可以利用数据结构和更新频率的改变,能够对宏观对经济的一些指标有更加高频的一个预测和跟踪,这个对于我们的对投资有大帮助。第三个,拼广度。我们刚开始做市场研究的时候,用的全是市场本身的数据。之后我们觉得数据不够,用爬虫,用新闻搜索,把这个数据给拓展开,想研究别的数据,看这个数据结合市场本身数据能不能对以前的预测有一个准确度或其他方面的提高。

提问:

1、北大和人大开展的大数据硕士研究生这个项目有没有一些平衡学术训练和工业界经验的新的想法和措施?正如刚刚所说,学院缺乏大数据,只能提供那种principle的训练,这样培养出来的人才由于没有真正接触过大数据,很多时候在技术、例如如何使用Hadoop上其实是存在缺陷的。

王汉生 : 我大概听说过这个项目,但是很诚实的说,我不是特别地了解,但是我有一些自己的想法。我觉得我们关注一个事情,从数据到价值的过程。在这个过程中,我们要思考,我们这个专业的独特的contribution,不够的时候要补,擅长的要更突出。

我觉得在第一阶段,就是对数据的采集和整理,我觉得这是计算机专家做的事情,这做的很好,我们不需要继续去思考这个事了。

第二个阶段,我有这些数据,对我的核心业务能产生怎么样的帮助。这是一个很重要的问题,对业务问题在数据上的定义。

第三个问题,定义好了之后,那是一个数据建模和挖掘的过程,不管是deep learning还是不deep learning,不管是线性模型还是nonlinear model,there will be a way out。

第四个就是分析出来之后,我们怎么实施,变成一个产品或者service。因为我看了很多商业的朋友,看了他们成功和失败,哪个是最难的,不是model这一部分,是业务问题的定义,这部分是教科书里找不到的,老师教不了的。而其他的问题都是能在现有的学科设置中批量生产。回过头来我就思考,我特别同意陈江教授,没有什么大数据小数据,就是数据分析,那么在这个学科设置中,我们擅长的数学模型这是有的,我们需要补充什么。

第一我觉得需要适当的补充对数据的采集和整理的能力,能够和计算机的专业和系统自由的对话,但也不需要太深,毕竟不是做这个专业的。

第二个需要去思考我做这个东西在业务上是有什么价值。如果是我去做这个项目,我可能会在中间保留我们的,在前面补充数据采集的可能,后面补充做science或者营销方面的知识。