嘉宾介绍 演讲介绍
郁彬(UC Berkeley)

Bin Yu is Chancellor’s Professor in the Departments of Statistics and of Electrical Engineering & Computer Science at the University of California at Berkeley. Her current research interests focus on statistics and machine learning theory, methodologies, and algorithms for solving high- dimensional data problems. Her group is engaged in interdisciplinary research with scientists from genomics, neuroscience, and remote sensing. She obtained her B.S. degree in Mathematics from Peking University in 1984, her M.A.and Ph.D. degress in Statistics from the University of California at Berkeley in 1987 and 1990, respectively. She held faculty positions at the Univ of Wisconsin-Madison and Yale University and was a Member of Technical Staff at Bell Labs, Lucent. She was Chair of Department of Statistics at UC Berkeley from 2009 to 2012, and is a founding co-director of the Microsoft Lab on Statistics and Information Technology at Peking University, China, and Chair of the Scientific Advisory Committee of the Statistical Science Center at Peking University. She is Member of the U.S. National Academy of Sciences and Fellow of the American Academy of Arts and Sciences. She was a Guggenheim Fellow in 2006, an Invited Speaker at ICIAM in 2011, and the Tukey Memorial Lecturer of the Bernoulli Society in 2012. She was President of IMS (Institute of Mathematical Statistics) in 2013-2014, and will be the Rietz Lecturer of IMS in 2016.
The multi-facets of a data science project to answer: how are organs formed?

Genome wide data reveal an intricate landscape where gene actions and interactions in diverse spatial areas are common both during development and in normal and abnormal tissues. Understanding local gene networks is thus key to developing treatments for human diseases. Given the size and complexity of recently available systematic spatial data, defining the biologically relevant spatial areas and modeling the corresponding local biological networks present an exciting and on-going challenge. It requires the integration of biology, statistics and computer science; that is, it requires data science. In this talk, I present results from a current project co-led by biologist Erwin Frise from Lawrence Berkeley National Lab (LBNL) to answer the fundamental systems biology question in the talk title. My group (Siqi Wu, Antony Joseph, Karl Kumbier) collaborates with Dr. Erwin and other biologists (Ann Hommands) of Celniker's Lab at LBNL that generate the Drosophila spatial expression embryonic image data. We leverage our group's prior research experience from computational neuroscience to use appropriate ideas of statistical machine learning in order to create a novel image representation decomposing spatial data into building blocks (or principal patterns). These principal patterns provide an innovative and biologically meaningful approach for the interpretation and analysis of large complex spatial data. They are the basis for constructing local gene networks, and we have been able to reproduced almost all the links in the Nobel-prize winning (local) gap-gene network. In fact, Celniker's lab is running knock-out experiments to validate our predictions on gene-gene interactions. Moreover, to understand the decomposition algorithm of images, we have derived sufficient and almost necessary conditions for local identifiability of the algorithm in the noiseless and complete case. Finally, we are collaborating with Dr. Wei Xue from Tsinghua Univ to devise a scalable open software package to manage the acquisition and computation of imaged data, designed in a manner that will be usable by biologists and expandable by developers.
张潼(百度大数据实验室)

张潼博士现在是百度大数据实验室的负责人,并且是美国新泽西大学统计系教授。他是机器学习,大数据分析和统计学领域的国际知名学者以及美国统计学会的Fellow。他在国际权威的机器学习期刊担任编辑,并且曾经参与过美国科学院大数据专家委员会。张潼本科毕业于美国康奈尔大学,并且在美国斯坦福大学获得了计算机科学的博士学位。
互联网的大数据实践

作为国内最大的互联网公司之一,百度在大数据实践上积累了很多经验。在这个报告里我介绍一下百度大数据的一些案例,技术积累,和挑战。
白硕(上海证券通信有限责任公司)

1990年毕业于北京大学,获理学博士。曾任中科院计算所副研究员、研究员、博士生导师、软件室主任、软件方向首席科学家。2000年起参与组建国家计算机网络应急技术协调中心(CNCERT/CC),2002年起任上海证券交易所总工程师,2012年起任上海证券通信有限责任公司董事长。主要研究方向:基于内存的分布式事务处理系统设计、自然语言处理与信息检索、信息安全。
自然语言与知识引擎

知识服务是未来信息服务的升级形态。人工智能的一个最可行的途径就是通过群体的知识积累来武装相应的智能终端。自然语言既是知识服务的素材的载体,又是群体知识的载体。通过深层自然语言处理技术实现的知识引擎,将是知识服务和智能终端共同的核心组件,值得业界高度关注。
袁晓如(北京大学)

袁晓如,研究员。任职于北京大学机器感知与智能教育部重点实验室,信息科学技术学院信息科学中心副主任。1997/98年分获北京大学化学/知识产权专业双学位,2006年8月获美国明尼苏达大学计算机科学博士学位。主要研究方向包括科学可视化,信息可视化和可视分析等。在高维数据、时空轨迹数据、社会媒体数据、复杂流场数据等可视化与可视分析领域领导北京大学可视化与可视分析研究组开展了具有国际影响的系统工作。其他信息参见http://vis.pku.edu.cn/wiki
让数据触手可及-可视分析

超级计算中心和各种大科学装置产生巨大的数据,人类的日常生活和网络活动更是产出了前所未有信息。然而拥有大量的数据并不等于获得相应数据的价值,复杂数据对发展相应的分析工具提出了新的挑战和要求。可视分析通过将人的因素积极引入分析过程,提供了处理复杂大数据的新的途径。我们将讨论包括高维数据可视分析,时空轨迹分析,网络数据分析等的重要课题,介绍可视化和可视分析对复杂数据理解的重要性,从数据规模,数据复杂性,可扩展性等多个方面讨论在可视化与可视分析面临的挑战和机遇。
冯永昌(微量网)

冯永昌,央行互联网金融博士后,北大光华统计学博士,人大统计学学士,美国芝加哥大学访问学者。目前担任微量网创始人兼CEO,量邦集团董事长,北京大学对冲基金实验执行主任。
用R语言进行高级量化投资——一个期货和期权组合的策略案例

报告提出用股指期货的日内程序化交易策略和做空波动率的期权组合形成风险对冲策略,即Risk-Neutral策略,模拟业绩显示复合策略大幅提升夏普比率,平滑曲线走势。这是用股指期权管控量化交易风险的一个实验性案例。报告也给出如何用R实现该案例的研究和交易。
苏萌(百分点)

苏萌:美国康奈尔大学博士,专长于大数据营销、数据建模、推荐系统、个性化营销、消费者行为量化模型。曾执教于北京大学光华管理学院,任副教授、副系主任、博士生导师、新媒体营销研究中心执行主任,在个性化、推荐引擎、消费者行为与偏好建模等领域有多篇论文发表于国内外顶尖学术期刊,他负责的大数据建模研究曾获国家自然科学基金重点项目。2009年创立百分点 - 推荐引擎与大数据技术公司,离开北大全职教授工作后,担任百分点董事长兼CEO。过去六年里,他带领团队完成了百分点推荐引擎、分析引擎、营销引擎三个核心引擎级产品以及企业级大数据平台的研发,这些产品目前服务于1000家电子商务企业,500家互联网媒体,以及200家传统企业。2014年完成高瓴资本领投的2,500万美元的C轮融资,目前三轮总融资金额为4,200万美元。苏萌曾入选国家千人计划、北京市海聚工程、中关村创业领军人才。
基于分布式架构的大数据商业建模

1. 大数据产业链全球生态格局 2. 大数据技术与应用 3. 基于分布式架构的大数据商业建模 4. 大数据建模应用场景 - 用户画像 5. 大数据商业建模应用案例
叶信岳(肯特州立大学)

Dr. Xinyue Ye’s research focuses on space-time analytics development, implementation, and application of big social data. His work won the national first-place award of "research and analysis" from the US University Economic Development Association in 2011 and he received the emerging scholar award from AAG’s Regional Development and Planning Specialty Group in 2012. He has co-edited eight journal special issues and about 50 journal articles. Dr. Ye is the founding director of Computational Social Science Lab at Kent State University since 2013. Recent and current main federal research projects include University Center Program (Department of Commerce), Coastal Ohio Wind (Department of Energy), Comparative Space-Time Dynamics (National Science Foundation), and Spatiotemporal Modeling of Human Dynamics Across Social Media and Social Networks (National Science Foundation). Dr. Ye’s research is closely related to the mission of R and open source computation in his work on computational social science, especially social media analytics, spatial social network analysis, and firm-level spatial economic analysis. Dr. Ye got Ph.D. in Geography from University of California, Santa Barbara.
​Open Source Comparative Spatiotemporal Dynamics

A powerful analytical framework for identifying research gaps and frontiers is fundamental to comparative study of spatiotemporal phenomena throughout the social sciences. The multiple dimensions and scales of socioeconomic dynamics pose numerous challenges for the application and evaluation of public policies in the comparative context. At the same time, research in the fields of temporal GIS and spatial econometrics has generated many novel space-time methods. However, the strengths of these spatiotemporal modeling methods have rarely been utilized to their full potential because the characteristics and structure of space-time datasets vary greatly in different fields of study. Hence, duplicated efforts exist and many critical gaps remain unexplored. This talk aims at contributing to comparative analysis of the dynamics of spatial inequality. Achieving a more balanced territorial distribution of wealth is among the biggest challenges for public policy design. Comparative analysis of spatial economies will reveal the dynamics of spatial economic structures, such as the emergence and evolution of poverty traps and convergence clubs, enabling economies to benefit from each other’s experiences and lessons learned. More specifically, I will develop a methodological framework for comparing spatial inequality dynamics and an open source toolkit that can be used to systematically analyze and assess the differences between two socioeconomic systems. This framework will not only pave the path to developing models for explaining such inequality but also provide a vehicle for projective studies. The open source approach allows a broader community to incorporate additional advances in research inquiry for specific goals, thus facilitating interdisciplinary collaboration.
王汉生(北京大学光华管理学院)

王汉生教授多年来致力于高维数据分析,统计学在电子商务领域的应用等研究,尤其关注网络数据和位置轨迹数据的统计分析。他1998年北京大学数学学院概率统计系本科毕业,2001年美国威斯康星大学麦迪逊分校统计系博士毕业。现任北京大学光华管理学院商务统计与经济计量系教授,博士生导师,系主任;北京大学商务智能研究中心主任;博雅立方科技有限公司首席科学家;微信公众号“狗熊会”创始人。近年来,他发表英文学术论文共计五十余篇,中文论文近二十篇。合著英文专著1本,独立完成中文教材2本,先后担任多个学术刊物副主编(Associate Editor)。此次入选美国统计协会(American Statistical Association)2014年会士(Fellow)。
网络结构数据与互联网征信

面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长。在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析,实现快速准确征信是一个非常重要的问题。为此,不同的数据都可以做出一定的贡献。例如:消费、缴费、职业、人口统计特征等。但是,我们认为在着所有数据中,基于社交网络的网络结构数据是最为重要的,扮演者核心的角色。网络结构数据给信贷方提供了两个重要的支持。第一、通过连接不同个体,提供了通过一个人的好友,增进对该个体了解的能力,能够极大地丰富并且补充数据。第二、在缺乏实物抵押的情况下,网络结构数据是一种重要的信用资产,是催收的重要手段。而本报告将从这两方面,通过实际案例,做出一定的分析和探讨。
周杰(百度研究院)

中国科学院理论物理研究所统计物理学博士, 当前的工作为对深度学习相关的算法进行探索和研究, 重点是利用深度学习模型解决自然语言理解相关的问题。
自然语言理解中的深度学习

该报告首先对最近几年深度学习在各个领域已经取得的成功进行概括, 尤其是在图像和语言识别领域的成就。 接下来将描述自然语言理解领域, 人们所关心的重要问题, 以及解决这些问题所使用的传统方法和使用深度学习方法曾经遇到的困难。 然后将重点描述当前百度在利用深度学习模型解决这类问题所进行的尝试和已取得的进展。
罗恒(百度)

罗恒,2011年于上海交通大学获博士学位,后随Yoshua Bengio从事博士后研究,2014年加入百度深度学习实验室。参与百度并行分布式深度学习平台PADDLE研发、深度学习在搜索中应用等工作。
深度学习的历史及面临的挑战--自我疑惑解答

从个人参与从事深度学习研究应用的角度,回顾深度学习历史,介绍什么是深度学习,为什么需要深度学习,上世纪90年代发生了什么导致神经网络研究的低潮,2006年以来深度学习有了那些的进展。非监督学习(或生成学习)的意义。深度学习在百度搜索(网页和图像)中的应用,以及面临的挑战。
夏添(百度研究院)

百度研究院深度学习实验室(IDL)视觉组资深研发工程师,主要从事图像识别方向的研究。2009年毕业于中科院计算所所,获得博士学位。
图像识别技术的进展和应用

图像理解是机器视觉领域一个历久弥新的核心问题,同时也是深度学习大放异彩的舞台,更是工业界和学术界各方竞技、百花齐放的技术领域。本次报告将围绕百度大规模图像识别系统--GENOME,系统介绍包括图像分类,目标检测,语义分割等图像识别技术,以及在百度产品中的应用实践。
毕然(百度)

百度高级研究员。他在商业营销、在线广告、电信、国家安全等领域有丰富的大数据分析和建模经验。曾因对百度的杰出贡献,获得首届百度百万美金最高奖,并多次获得商业体系创新奖。专注于理论与实践的相互促进,在大数据分析与挖掘、经济与商业机制、营销与心理学、互联网产品战略几个方面都有涉猎,并深入研究其背后根源,融合并设计成课程。乐于分享,百度学院明星讲师,著有多个大数据分析与经济学原理的相关课程(《经济学与百度商业应用》《漫画机器学习》等),其中的大数据分析课程《数据分析的道与术》获在线评分的最受欢迎产品技术系列课程。
互联网促销策略中的统计模型

在搜索推广的优惠促销领域,如何设计与众不同的营销思路(价格歧视、博弈机制下的竞争传播),及在其中的机器学习模型。主要点明如何讲经济学模型的一些理论,怎样和统计模型做很好的结合,跨领域的发挥巨大价值,这个项目获得了首届100万美金的百度最高奖。
黄晶(百度)

黄晶,2009年硕士毕业于北京大学数学科学学院,加入百度工作。现任百度复合搜索部资深研发工程师,负责百度知心广告产品线的流量召回和点击率预估的研发工作
transfer learning在广告点击率预估的应用

百度的知心广告有很多种展示形式,在做点击率预估的时候,我们会出现有些展现形式数据量不够的情况,我们采用transfer learning中的parameter base方法从其他展现形式“借”数据,很好的解决了部分展现形式数据量不够的问题。
沈毅(百度)

ECharts 团队成员。ECharts-X 作者。目前专注于前端图形和可视化方向。
图说 ECharts

ECharts 的简单介绍和演示。 ECharts 的目前状态,github 关注数等。 ECharts-X 分支介绍。globe viz 和 3D plots 的演示。 在 ECharts 3.0 中已经加入和即将加入的新特性。
张江(北京师范大学系统科学学院)

张江,北京师范大学系统科学学院副教授,集智俱乐部创始人,主要研究领域包括:复杂系统建模与分析,涵盖互联网上的集体注意力流、城市复杂系统的建模分析等。
Collective Attention Flows on the Web

In information age, human attention has been becoming a scarce resource. To know how collective attention flowing on the sea of information resources is of importance. We model collective attention flows as open flow networks. In the first study, we embed the network of the Indiana university clickstream data into a high dimension space and show how attention distributing on websites. Second, we show the flows of collective attention along various paths in the network may determine the success of an online community by the users' behavior data of the largest ask-answer community stackexchange. Third, we study 30,000 online forums of Baidu Tieba, and show that forums resembling organisms have metabolism and obey the generalized Kleiber law. The scaling exponent of the Kleiber law can be treated as a novel and stable indicator of stickness of the given forum.
许小可(大连民族大学)

许小可,教授,硕士生导师。 2008年6月博士毕业于大连海事大学通信与信息系统专业,香港理工大学博士后,目前为大连民族大学学术带头人、民族信息资源挖掘与利用研究所所长,主要从事在线社交网络和非线性时间序列方面的研究工作。2013年入选辽宁省优秀人才支持计划,获得第一届CCF-腾讯犀牛鸟科研基金资助,在阿里巴巴数据创新大赛暨阿里巴巴青年学者支持计划一等奖;2014年获得大连市“青年科技之星”称号。
社交网络中的亲属关系识别及应用

亲属关系一种非常特殊的强链接,在信息、舆情、谣言和行为传播中起到特殊的重要作用,我们与腾讯社交网络事业群合作对在线社交网络中的亲属关系进行了分析和识别。我们使用R语言程序包基于腾讯的QQ社交网络数据,首先比较了待检测用户的嵌入性、中心性以及离散度等指标来识别用户亲属关系的准确性高低,提出用户的亲属关系是一种局域强关系而非全局强关系的识别思想。根据该识别思路,通过度量节点被删除后对网络连通的破坏程度来定义该节点的局域重要性。对网络连通的破坏程度越大, 则说明被删除的节点越重要, 就越有可能是用户的亲属节点。由于本研究不但度量了用户之间的强弱关系,更重要的是基于网络结构特征识别出了用户和好友之间的关系类型,因此对于信息和行为传播规律的理论研究具有借鉴意义,对于病毒营销和计算广告学等实际应用具有指导作用。同时,基于在线社交网络的一对夫妻用户数据,通过视频可视化的方式演绎了他们各自建立社交圈子的过程以及两者之间社交关系的演化,从中可以看到他们相遇相识到相伴相守的全过程。
陈光(北京邮电大学)

陈光,1996级北邮电子系学生,现任北京邮电大学信息与通信工程学院副教授,研究方向为机器学习和文本计算,在数据分析和数据可视化方面有着广泛的兴趣。近年来,其指导的小组多次参加国际信息检索领域最权威的TREC评测,在包括微博检索、实体关系抽取等多个项目上多项指标取得第一。其新浪微博账号“爱可可-爱生活”,以领域的广阔视野,对业界的敏锐观察,丰富优质的资源推荐,为广大机器学习和数据科学爱好者所熟悉和喜爱。
大数据时代的"读"者之道——社会化阅读趋势与应用

随着互联网的发展,由用户主导产生内容的互联网产品快速兴起,从信息匮乏到信息过载好像只在一瞬间,未来内容依旧为王,但重心已经由生产转向消费。大数据当前,多(有覆盖)、快(及时有效)、好(准确个性化)、省(时间&精力)已然成为用户的主要阅读需求,倡导分享、互动、传播的社会化阅读,能否助读者一臂之力,在信息汪洋里“得道”?作为用户,又该如何有效利用社交平台和社会化阅读平台高效获取有用信息?让我们一起深入探讨。
周静(北京大学光华管理学院)

北京大学光华管理学院市场营销系博士研究生,2012年于中央财经大学获管理学学士学位。博士期间的研究方向为营销模型,主要的工作重点是通过网络数据建模解决实际营销问题,如基于移动社交网络的消费者促销模型、网络抽样技术、社交媒体上的消费者行为,重点关注基于朋友间互相依存关系的选择行为。
个体网络特征对客户流失的影响

客户流失是客户关系管理中一个比较经典的研究议题,之前的研究重点关注影响客户流失的内在因素,如研究人员探索了很多能显著影响客户流失的因素。最近由于社交网络的兴起,一些研究者开始将目光投向社交网络信息,用户的社交信息是否和他的离网有显著关系呢?我们用某移动运营商的数据进行客户的个体网络特征与其离网行为的研究,这里我们主要考虑三个因素:分别是通话人数、人均通话时长和人均通话时长的分布,初步的分析结果显示通话人数和流失率存在显著的负相关关系,利用该流失预警模型,我们对该移动运营商进行了未来流失人群的预测,根据实际结果,我们模型的预测精度可以达到70%,这大大降低了该公司在挽留高风险客户上的成本。
高涛(中国人民大学统计学院)

中国人民大学统计学院研究生三年级,统计之都编辑部成员,曾翻译《R语言实战》和《ggplot2: 数据分析与图形艺术》。研究兴趣:高维统计分析、概率图模型、大规模分布式算法
高斯图模型应用和其大规模算法

本演讲将从经典高斯图模型出发,回顾高斯图模型各方向的进展以及相关应用,同时介绍大规模(高维情况)高斯图模型的学习算法。
黄丹阳(北京大学)

黄丹阳,2007年至2011年于中国人民大学统计学院取得经济学学士学位,主修统计学专业,副修金融学专业。2011年至今就读于北京大学光华管理学院商务统计与经济计量系。研究方向包括搜索引擎营销背景下的超高维变量选择问题,社会关系网络建模。
Least Squares Estimation of Spatial Autoregressive Models for Large-Scale Social Networks

Due to the rapid development of various online SNS websites, the usefulness of the spatial autoregressive model has been recognized and popularly used to explore social network structures. However, traditional estimation methods are practically infeasible if network size is huge (e.g., Facebook, Twitter, Sina Weibo, WeChat, etc). We propose here a novel least squares estimation (LSE) approach, the computational complexity of LSE is only linear in the network size for sparse network. Under certain regularity conditions, we show theoretically that the proposed least square estimator (LSE) is $\sqrt{n}$-consistent and asymptotically normal. In addition to that, the proposed method can be readily applied to sampled network data. Numerical studies based on both simulated and real datasets are presented.
刘天权(量客投资管理(北京)有限公司)

丰富量化投资和程序化交易策略与技术平台研发,主导研发“量邦系”多款量化投资软件产品“量邦天语”“量邦天金”等,主导研发“微量网”云交易平台支持多账户、证券与期货策略托管交易,主导研发量客投资高频研究平台和高频交易平台。对程序化交易、高频交易、套利等策略研发和技术交易有丰富经验。
R语言在程序化交易与高频交易中的应用

1、国内程序化交易现状 2、R语言在程序化交易中的应用 3、高频交易的研究思路及发展趋势
解环宇(北京大学)

解环宇,北京大学光华管理学院11级本科生。曾在多家投行、咨询公司、VC、PE参与一级市场实习工作,毕业后加入某外资对冲基金。
From banking to quant trading

一级市场与二级市场看似毫不相关,实则联系紧密。演讲者将结合自身经历讲述如何从banking过渡到为quant trading。 一级市场方面,介绍投行中投行部门(IBD)的一些经验以及一些需要的技能。并介绍作为一名junior,如何踏入买方的大门。 二级市场方面,以一些中低频交易策略为实例,讲述如何以金融知识为基础,结合统计、编程实现最终的交易策略。
张俊妮(北京大学光华管理学院)

张俊妮为北京大学光华管理学院统计学副教授。1998年毕业于中国科学技术大学,获计算机软件学士学位;2002年毕业于美国哈佛大学,获统计学博士学位。研究领域为因果推断、贝叶斯分析、小区估计、数据挖掘以及文本挖掘。
Distillation of News Flow into Analysis of Stock Reactions

News carry information of market moves. The gargantuan plethora of opinions, facts and tweets on financial business offers the opportunity to test and analyze the influence of such text sources on future directions of stocks. It also creates though the necessity to distill via statistical technology the informative elements of this prodigious and indeed colossal data source. Using mixed text sources from professional platforms, blog fora and stock message boards we distill via different lexica sentiment variables. These are employed for an analysis of stock reactions: volatility, volume and returns. An increased (negative) sentiment will influence volatility as well as volume. This influence is contingent on the lexical projection and different across GICS sectors. Based on review articles on 100 S&P 500 constituents for the period of October 20, 2009 to October 13, 2014 we project into BL, MPQA, LM lexica and use the distilled sentiment variables to forecast individual stock indicators in a panel context. Exploiting different lexical projections, and using different stock reaction indicators we aim at answering the following research questions: (i) Are the lexica consistent in their analytic ability to produce stock reaction indicators, including volatility, detrended log trading volume and return? (ii) To which degree is there an asymmetric response given the sentiment scales (positive v.s. negative)? (iii) Are the news of high attention firms diffusing faster and result in more timely and efficient stock reaction? (iv) Is there a sector specific reaction from the distilled sentiment measures? We find there is significant incremental information in the distilled news flow. The three lexica though are not consistent in their analytic ability. Based on confidence bands an asymmetric, attention-specific and sector-specific response of stock reactions is diagnosed.
任乾(厦门大学王亚南经济研究院)

厦门大学王亚南经济研究院硕士生,R语言用户,主要从事量化交易。
C++/R工作环境配置

在一些有高性能计算的场景中,R通过Rcpp无缝调用C++在程序流、架构等诸多方面仍然不能满足需要。特别是系统框架本身在C++上实现,而在一些特定计算步骤中需要无缝内嵌R来完成时,RInside提供了完美的解决方案。本演讲即介绍Windows系统中基于mingw-w64工具链配置C++/R无缝内嵌工作环境的方法,并在此基础上通过量化策略回测的例子简要介绍SQLite/MySQL C/C++接口、boost::interprocess等工具。
任坤(厦门大学王亚南经济研究院)

毕业于厦门大学金融系、王亚南经济研究院,R语言资深用户,learnR教程、pipeR、rlist扩展包的作者,在个人博客(http://renkun.me)中写了数十篇文章讨论数据分析相关工具、R语言高级编程等主题。主要兴趣为金融量化交易研究与工具开发。
金融衍生品新时代中的量化分析工具链

以上证50ETF为标的的期权于2015年2月9日在上海证券交易所上市,开辟了国内金融衍生品市场新的篇章。随着各类限制逐渐放宽、各种衍生品工具的推出,对冲基金、量化交易则迎来了金融市场快速发展的新时代。掌握相关理论、熟练运用量化分析工具则成为了从事金融量化分析、研究领域的核心竞争力。该演讲以上证50ETF期权为例,简要分析其衍生品合约特征,基于市场高频行情数据,用R语言中的相关工具评估该市场的流动性,分析市场中存在的套利机会,并用可视化工具呈现了分析结果,并将该工作流程整合为自动化的日度报告。
李宜熹(台湾高雄第一科技大学金融系)

学历:台湾中山大学财务管理博士、中南大学管理科学与工程博士生 专长:金融风险管理 程式爱好:Matlab、EViews、R、Stata、Lingo
ESG 经济情境产生器之系统开发

本演讲主要展演以 Orthogonal-ARMA-GARCH 方法论,以及采 Matlab 为工具所开发的经济情境产生器 (Economic Scenario Generator, ESG)。演讲的重点在于说明 ESG 的发展历程与用途、Orthogonal-ARMA-GARCH 方法论 以及对应 R 之套件的发展。
刘斌(南京邮电大学计算机学院)

2014.07 ~至今 南京邮电大学,计算机学院,副教授,硕士生导师 2012.12 ~2014.06 南京邮电大学,计算机学院,讲师,硕士生导师 2012.06~2012.12 华为公司(北京)研究所,高级工程师 2010.09~2012.05 深圳光启高等理工研究院,高级研究员 2010.04~2010.07 杜克大学,电子与计算机工程系,研究助理 2009.02~2010.03 杜克大学,统计科学系,研究学者,同时担任统计与应用数学研究 所(美国国立研究所)序列蒙特卡洛方法学项目研究员
Adaptive Annealed Importance Sampling for Bayesian Multimodal Posterior Exploration

In this talk, I describe an algorithm that can adaptively provide mixture summaries of multimodal posterior distributions in the context of Bayesian inference. This work was motivated by an astrophysical problem called extrasolar planet detection, wherein the computation of stochastic integrals that are required for Bayesian model comparison is challenging. The difficulty comes from the highly nonlinear models that lead to multimodal posterior distributions. An importance sampling procedure is used to estimate the integrals, and the task is translated to be how to find a parametric approximation of the posterior. A mixture proposal distribution is used to capture the multimodal structure in the posterior. The parameters of the mixture proposal are tailored by a proposed iterative delete/merge/add process, which works in tandem with an expectation–maximization step. The efficiency of the proposed method is tested via both simulation studies and real exoplanet data analysis. The result was published in a flagship journal on astrophysics.
王江浩(中国科学院地理科学与资源研究所)

从事GIS与遥感研究,侧重地理时空数据分析与挖掘,偏爱琢磨开源软件中的时空数据分析方法与可视化。
R中的地理时空数据分析与可视化

地理空间信息和多维时间序列数据是大数据时代时常要面临的数据形式。如何从时空数据中科学地挖掘知识,形象地可视化这些高维复杂的数据是数据科学家们面临的新挑战。演讲者将针对实际问题,基于R开展时空数据分析方法研究,并分享如何利用时空统计和计算机技术来处理、分析、并交互可视化时空数据。
罗应琏(北京维艾思气象信息科技公司)

气象大数据应用
气象大数据+

介绍中国与全球气象数据构成与实际行业应用案例 1. 快速有效的庞大气象数据质检工具-统计与数学的应用 2. 天气在全世界80%的经济活动中扮演着决定性的角色-电商案例 3. 天气+,是消费行为最有效的驱动之一-介绍指数型天气保险的跨界应用-空调行业
李栋(中国城市规划设计研究院)

规划师,近期的研究兴趣是利用基于地理位置的新型数据开展城市和区域研究。
位置数据分析对区域规划的启示

当前互联网、智能手机、各类地图和O2O应用的盛行催生了海量的位置数据,极大地扩展了传统地理信息数据的分析框架,这些用户生成的数据不仅仅对互联网行业意义重大,对城镇化、人口移动、群体行为模式等社会经济发展的重大问题同样具有参考价值。我们正在经历一场从传统数据向多源混合数据过渡的阶段,如何通过适当的分析手段,基于新型数据的视角来回答传统的社会问题,是当前主要的技术挑战。本次演讲基于位置微博、春运迁徙等公开数据为例,分享一些相关的尝试案例与实施感想。
周扬(JDPOWER)

J.D.POWER 数据分析师,浙江大学客座教师,统计之都核心成员。生物信息硕士,毕业于四川大学、军事医学科学院,拥有互联网、汽车、制药、农业等领域工作背景,熟悉R, HTML5/CSS3, Python, Javasript 工程开发。、拥有一项国家发明专利和四项软件著作权。曾在国际著名期Bioinformatics(生物信息学)上发表论文两篇,在Nuclear Acid Research(核酸研究)上发表论文一篇。
R与可视化的邂逅让数据有了别样的味道

R作为数据分析处理和统计建模的语言,已经成为数据科学领域的不二之选;数据可视化作为数据分析以及数据结果输出的重要形式,赋予数据新的生命。因此,作为数据分析建模利器的R与赋予数据新生命的可视化邂逅在一起,让数据产生了无限的可能性和别样的味道。本次演讲将围绕数据可视化(特别是动态可交互的数据可视化)在R中的主要实现机制,分别探讨作为普通用户而言,有哪些可以获取的数据可视化资源和实现方式(leaflet/DT等扩展包);作为开发者而言,如何使用htmlwidgets/shiny/RMarkdown框架实现快速、简单、有效地开发出自定义的数据可视化产品。
何宇兵(辰智商务信息咨询公司)

曾就职Esri担任高级架构师期间获2008年Esri中国技术创新奖二等奖,2009年Esri中国技术创新奖二等奖,后就职于麦当劳中国区担任GIS数据应用系统分析师,2014年加入辰智咨询
GIS+R正在加速地理信息的商业应用

GIS是什么? 地理+信息+系统+? GIS有哪些应用场景? 数据管理、可视化、网点规划、选址评估、物流优化、渠道管理…… GIS商业应用有哪些开发工具? Arcgis,Mapinfo,Q-Gis,PostGis,R,…… 辰智咨询运用GIS做了哪些商业应用产品? 商圈秀、叠趣、客户拜访系统、全量数据分析平台 辰智咨询如何运用GIS+R的技术研发产品? GIS是空间数据的容器与底层开发平台,R是空间建模的算法与部分可视化的利器
周星(腾讯)

周星,2010年加入腾讯,先后从事搜索广告、长尾广告和社交广告的算法研发工作,负责开发了腾讯最早的大规模并行逻辑回归训练平台,组建了搜索广告和长尾广告的点击率预估团队,目前负责广点通转化优化方面的研发工作。专注于大规模机器学习技术、大数据处理技术和广告闭环生态建设。加入腾讯前,从事百度精准广告和搜索广告的算法研发工作。
效果广告闭环生态建设——转化预估技术

著名广告大师约翰•沃纳梅克提出:"我知道我的广告费有一半浪费了,但遗憾的是,我不知道是哪一半被浪费了"。作为互联网广告平台的一支新军,广点通以腾讯的生态系统为依托,基于大规模机器学习技术和大数据处理技术,解决了效果广告中的核心问题之一——转化预估。因此,面对约翰•沃纳梅克提出的难题,我们可以自豪的说:“在广点通,广告费中的每一分钱,都会有转化效果的保证。你在找的,正在找你!” 1. 效果广告闭环生态系统; 2. 转化跟踪技术; 3. 转化预估技术; 4. 大规模并行训练及特征工程技术;
谭乃强(北京品友互动)

谭乃强,毕业于湖南大学,现任品友互动资深算法工程师。
Learning to Rank在RTB中的应用

Learning to Rank在RTB(实时交易平台)有大量的应用。对于DSP(需求方平台),需要需要衡量每一个用户的价值,并以合适的价格去竞到,由于竞争的存在,同样的准确率下,Ranking不一样,会导致竞价结果完全不一样。模型需要关注更多转化率(点击率)更高的用户。我们会讨论Learning to Rank在点击率,转化率和推荐系统的应用并分析各种评估Metric对效果的影响。
刘思喆(京东商城)

刘思喆先生,于2012年加入京东商城, 历任京东商城数据部高级算法工程师、个性化推荐组经理、推荐搜索部高级经理,现主要负责关联推荐产品的策略改进以及算法优化。14年获得京东“数据达人”称号,京东技术学院金牌讲师。同时也是中国人民大学大数据分析实验班、中央财经大学统计系校外导师。工作之余,刘思喆专注于数据科学领域,尤其对R语言,是《153分钟学会R》的作者以及《R核心技术手册》的译者。
京东商城推荐算法实践

京东的推荐系统从2013年开始向第二代过渡,本次分享将从京东的推荐系统产品定位出发,阐述系统的架构、算法和策略的实践,以及对未来的优化方向的思考。
黄鑫(极光推送)

极光推送首席科学家,多年推荐系统,数据挖掘与产品开发架构经验,专注于大数据的落地和产品化应用。曾就职于豆瓣,珍爱网等互联网公司,曾参与多个产品的推荐算法设计,对社区的产品和运营都用着浓厚的兴趣,目前专注于大数据时代云服务的企业化发展和应用。
情景化推荐算法的设计

在传统的推荐算法中,我们推荐算法设计的特征更多地依赖于条目的内容,以及用户与条目的评分等等静态特征,但是在移动互联网及智能硬件时代,我们却可以更多地捕获用户信息及其用户场景信息,在这次演讲中,会主要介绍基于用户情景以及用户当前实时状态的推荐算法设计,以及工程化中的实践经验。
陈丽云(eBay)

我在eBay做数据分析,天天跟随机实验打交道,日子久了就顺便玩点好玩的分析。另有博客名“落园”,故有时候自诩落园园主,顺手写点好玩的故事。
网站随机实验中的方差 (Variance Reduction in Online Randomized Experiments)

网站实验一般呈现“弱信号”特征:实验效果淹没在海量数据中(多重数据来源、复杂数据纬度),加之用户本身的异质性。很多时候随机实验成为了做一个公平的比较的最好的办法、以期从盘根错节的各种相关关系形成的网络中寻得一丝丝因果关系的脉络。在此之上,我们还希望可以进一步的减少噪音(方差)从而得到更清晰的信号,同时也好奇是不是不同特质的用户会对实验有着迥异的反应。在这个演讲中我将从实践的角度介绍一些提高估计效率(降低方差)和分析异质效应的模型。 Online experiments often shows the weak signal problem among massive data set and huge heterogeneity in user behaviors. Though a random experimental design helps disentangle casual effects from correlationships, we still want to reduce the noise (variance) and obtain better signals; in addition, we want to learn if the treatment affects different users differently. In this talk I will go through some variance reduction and heterogeneous treatment effect models from a practical point of view.
马恩驰(京东商城)

京东商城推荐搜索部数据架构负责人,在个性化领域有丰富的经验,对推荐系统和RTB竞价广告有深入的研究。曾任随视传媒数据中心高级经理,主要负责RTB竞价算法的开发与优化、广告数据产品设计。现就职于京东商城,主要负责推荐和搜索业务数据架构的搭建与优化,推荐搜索报表平台、分析监控系统的设计与开发等工作。
基于开源框架的推荐搜索BI系统

电商的推荐和搜索业务对BI系统有着极高的要求,海量点击流日志、复杂的实验分析、产品的快速迭代、多样化的分析需求使得BI系统面临更加严峻的挑战。我们主要从业务需求、架构设计、实验分析、产品优化等角度阐述京东推荐搜索在BI系统上的设计理念和实践经验。 作为数据挖掘人员比较喜爱的两门语言:R和python,我们在京东推荐搜索BI系统中大量的应用这两门语言,从TB级别的数据预处理、中间层的逻辑计算、不同实验间的数据分析、可视化图表展示。让每个数据从业人员真实的感受到R和python带给我们的价值。
殷腾飞(Seven Bridges Genomics)

南开大学生命科学本科,ISU遗传学博士辅修统计,Genentech两次暑期实习与工作,现任波士顿Seven Bridges Genomics生物信息云计算公司可视化部门产品经理。BioVis 2015委员会成员。开发维护了10+ CRAN和Bioconductor的软件包。
R在Seven Bridges Genomics平台上的开发,部署,使用和分享

Seven Bridges Genomics是全球领先的生物信息云计算公司,为全球多家企业和研究机构,以及美国国家政府和英国国家政府提供基因组分析的云计算存储和分析解决方案。生物信息是生物,计算机和数学统计碰撞产生的火花,SBG同样致力于对开源社区和开源语言的支持,基于docker和common workflow languange标准流程描述语言的rabix项目,可以轻量简单的在本地和SBG的云端进行开发部署与分享开源软件。本次报告,将介绍SBG平台对R语言的支持,包括云端文件的加载,Rstudio的使用,基于docker和rabix的R包的开发,部署和分享,以及如何与应用库里的已存工具进行对接,来完成生物数据的数据分析,挖掘和统计分析。
陈钢(WeGene)

陈钢,2012年在中南大学获得计算机博士学位,之后加入深圳华大基因,历任研究员、副总监、副总裁等职。2015年4月加入WeGene,致力于构建面向中国人的个人基因组解读平台。
机器学习在中国人祖源成分分析中的应用

以23andme、Ancestry.com为代表的美国个人基因组服务提供商利用近百万份人类基因组数据,构建起了面向全球用户的祖源成分分析系统。但在这些系统中,原本成分复杂的中国人都被抽象成了统一的Chinese。 我们试图通过收集中国人的祖源信息和基因组数据,整合公共数据库,利用支持向量机、隐马尔科夫等模型构建起面向中国人的祖源成分、姓氏起源和民族成分分析系统。 我们将自行收集的基因组和祖源信息跟HGDP项目的数据整合在一起,采用基因组上45万个跟祖源有密切关系的位点的基因型信息构建训练数据集。所有的位点根据其在基因组上的位置排序,划分滑动窗口。对每个窗口训练多分类支持向量机,并用隐马模型修整结果。所构建的系统已经在为用户提供祖源分析服务,并且随着训练数据的增加定期重建模型,优化分析结果。 该系统主要由Go语言编写,机器学习部分采用R语言,数据库采用了MongoDB和MySQL。
尤晓斌(National Healthcare Group, Singapore)

现任新加坡国立医疗集团数据分析员,曾就读于新加坡国立大学统计系和厦门大学统计系。有6年的R使用经历。兴趣领域为:贝叶斯统计,计算机统计学,统计学习,数据科学,可视化以及人口医疗相关分析。
用数据科学优化人口健康模式

新加坡医疗系统在2014年Bloomberg医疗体系效率排名中位列第一。哈佛大学医学院教授哈兹尔廷用“价廉质优”一词,形容新加坡用4%的国内生产总值交出了一流成绩单——全民医疗覆盖,低婴儿死亡率和高预期寿命。 新加坡医疗系统同样面临人口老龄化的挑战。据估计,至2030年新加坡65岁以上的人口将超总过人口的20%。为了优化医疗系统以迎接人口老龄化的挑战,新加坡积极探索区域医疗模式,纵向整合综合医院,联合诊所,社区医院及疗养院等医疗资源,形成六大区域医疗协同合作的局面。 数据科学在探索区域医疗的过程中注入了新的科技活力。数据仓库的管理整合医疗机构运营数据以及SNOMED,ICD和WHO drug dictionary等标准化编码系统;统计学习建模能综合多方面信息协助决策;可视化及GIS有助于分析成果的阐释和理解。从数据预处理,建模到最终成果展示这一流程中,R语言都扮演着重要的角色。
刘乐平(天津财经大学)

天津财经大学统计学教授,2003年毕业于中国人民大学统计系
大数据与统计分析的第三范式——以云医疗为例

以云医疗为例,探讨频率学派与贝叶斯学派争议的历史,现状和未来,并对大数据时代新的统计分析范式做出展望…
冯凌秉(江西财经大学 金融管理国际研究院)

男, 1988年5月生, 安徽合肥人。本科毕业于中南财经政法大学统计学专业,研究生毕业于中国人民大学统计学专业,博士毕业于澳大利亚国立大学。研究兴趣为应用统计与金融计量。
imputeR: A General Imputation Framework

数据的搜集、记录和保存过程很难保证数据的完整性,数据的缺失基本是难以避免的,然而大多数统计模型又都需要数据是完整的,从而导致缺失值问题成为数据分析不可逾越的鸿沟。如何精确有效的插补数据中的缺失值一直是统计学的热门研究课题。 imputeR建立在missForest(Stekhoven & Bühlmann, 2013)方法之上,提出了一个综合性的缺失值插补框架。在此框架下, 1. 所有具有变量选择功能的模型,比如最小子集回归,Lasso, 决策树,随机森林等都可以用作缺失值的插补;2. 它可以插补三种类型的数据:连续性变量数据,分类型变量的数据以及混合型变量的数据。本演讲将结合imputeR包介绍该算法的设计细节,插补精度与效率表现以及实证收敛特性。
马莹莹(北京大学)

北京大学光华管理学院统计系博士生,2012-2013年曾在USC Marshall 商学院访问。研究兴趣集中在付费搜索广告、社交网络、高维数据分析。
具有低维因子结构的高维两样本检验

本文针对具有低维因子结构的高维两样本数据提出了一种新型检验方法,这种检验方法适用的对象包括:股票收益率数据,搜索引擎营销数据,超市销售数据等具有典型低维因子特征的高维数据。本文提出了新的检验方法,并给出了此检验方法的渐进理论性质,最后,本文通过股票收益率数据分析来举例说明此种检验方法如何应用到实际的数据分析中。
薄满辉(中航信移动科技有限公司)

航旅纵横创始人,中航信移动科技有限公司执行董事、总经理。毕业于复旦大学,北大光华MBA。2003年加入中国航信至今,在旅游交通信息化领域具有丰富的产品开发及项目管理经验。
用数据智慧我们的出行

阐述航旅纵横的产品逻辑,用案例分析民航大数据在航旅纵横出行场景中的应用。
朱雪宁(北京大学)

北京大学光华管理学院商务统计系13级博士生。
高端车潜在用户搜索行为研究

利用奇虎360大数据平台,我们对100万在线用户的13亿搜索序列文本做了分析,并对高端车用户以及商学院人群做了对比分析。我们希望通过提取有效指标、数据分析,以及统计建模的方式,试图理解高端车潜在用户在搜索平台上表现出的“忠诚”以及“叛变”行为,从而对在搜索引擎中的广告投放的策略提出可行建议。
徐文昕(西南大学)

西南大学数学与统计学院教师,经济计量方向。主要研究经济计量建模、应用, 极值与风险管理。
某网站浏览者潜在需求研究

通过对某网站浏览者访问数据的分析,试图理解潜在客户的需求,为潜在客户画像,并对网站的业务构成提出一些建议。
吴睿(西安欧亚学院)

2006年就读于西安建筑科技大学应用数学专业硕士研究生,2009年加入西安欧亚学院
某留学网站潜在客户浏览行为探究

通过对某留学网站潜在客户浏览数据的分析,试图理解潜在客户的需求,并尝试对网站结构以及业务构成提出一些建议。
杨雨成(北京大学)

北京大学元培学院11级统计学方向本科生,北京大学国家发展研究院经济学双学位学生。对社会网络、社交媒体大数据分析有浓厚兴趣,参加或主导过多个相关课题的研究。现为某大数据技术公司数据科学家,即将赴美国威斯康星大学麦迪逊分校攻读经济学博士。
大数据与选秀节目结果的预测——以中国好歌曲为例

大数据不仅在商业界应用广泛,对于日常生活中许多问题也有着极大的洞见性和预测力。本研究使用国内著名选秀节目——中国好歌曲的相关历史数据与比赛结果,通过机器学习等大数据建模的方式,成功预测了2015年度中国好歌曲的赛果。这是我在一家数据公司实习时运用所学在业余时间完成的工作,使用完全非敏感的数据向大众展示了大数据建模的作用,受到很多关注。
Rainbow 7(北京大学)

我们是来自北京大学光华管理学院的数据研究小组,由6名大二的同学和1位大三的同学组成。在学习了数据分析及SAS软件的相关知识后,我们对数据的统计处理产生了强烈的兴趣,并且针对自己感兴趣的话题做了深入研究,同时想借助本次会议与大家分享我们的研究成果。
英超赛场进球数研究

通过分析英超球员在不同赛季的进球数与其表现的各项指标之间的联系,从而建立回归模型,并将最终的回归结果与比赛赔率相联系。
袁进辉(微软亚洲研究院)

袁进辉,现为微软亚洲研究院人工智能组研究员。2003年7于西安电子科技大学计算机学院获工学学士学位,同年免试推荐入清华大学计算机科学与技术系攻读博士学位(导师为张钹院士),研究方向为计算机视觉及机器学习应用,2008年7月于清华大学计算机科学与技术系获工学博士学位,同年留校做师资博士后,参与计算神经学科建设,并与李兆平等国际知名学者开展计算神经科学领域的相关研究。2011年加入网易有道任高级应用研究员,参与机器学习在多媒体、计算广告等领域的应用研究。2012年初加入北京万博科斯信息技术有限公司,任研发工程师,参与360搜索引擎研发工作。主要研究兴趣为计算机视觉、机器学习与视觉相关的神经科学。2004年至2007年,作为主要设计人员开发基于机器学习的视频镜头边界检测系统在美国标准技术研究院(NIST)组织的TRECVID评测中名列前茅,2008年,博士论文获清华大学优秀博士学位论文二等奖。2010年,负责中国斯诺克“鹰眼”系统核心模块研发,该系统已广泛应用于国际大赛和国家队日常训练。2012年,参与研发的360搜索引擎跃居国内市场份额第二。2013年8月起在微软亚洲研究院任职,研究兴趣包括大规模机器学习,神经网络的理论性质等。2014年发明LightLDA技术,把单个词Gibbs采样计算复杂度降到均摊O(1),并把该算法并行化,可以用比已有工作显著少的计算资源完成显著更大规模的任务。业余时间喜欢在微博上发表段子。
LightLDA: Making Super Large Topic Model Possible

When building large-scale machine learning (ML) programs, such as massive topic models or deep neural networks with up to trillions of parameters and training examples, one usually assumes that such massive tasks can only be attempted with industrial-sized clusters with thousands of nodes, which are out of reach for most practitioners and academic researchers. We consider this challenge in the context of topic modeling on web-scale corpora, and show that with a modest cluster of as few as 8 machines, we can train a topic model with 1 million topics and a 1-million-word vocabulary (for a total of 1 trillion parameters), on a document collection with 200 billion tokens --- a scale not yet reported even with thousands of machines. Our major contributions include: 1) a new, highly-efficient $\mathcal{O}(1)$ Metropolis-Hastings sampling algorithm, whose running cost is (surprisingly) agnostic of model size, and empirically converges nearly an order of magnitude more quickly than current state-of-the-art Gibbs samplers; 2) a model-scheduling scheme to handle the big model challenge, where each worker machine schedules the fetch/use of sub-models as needed, resulting in a frugal use of limited memory capacity and network bandwidth; 3) a differential data-structure for model storage, which uses separate data structures for high- and low-frequency words to allow extremely large models to fit in memory, while maintaining high inference speed. These contributions are built on top of the Petuum open-source distributed ML framework, and we provide experimental evidence showing how this development puts massive data and models within reach on a small cluster, while still enjoying proportional time cost reductions with increasing cluster size.
裴文哲(北京大学信息科学技术学院计算语言学研究所)

北京大学信息科学技术学院计算语言学研究所硕士 研究方向为深度学习在自然语言处理中的应用
深度学习在NLP结构化模型中的应用

语言是由字、词汇、短语等较小粒度的基本单位以特定的规则组织在一起的复杂的表示形式。因此,自然语言处理的很多任务本质上都是在分析语言的结构。例如序列标注任务和树的解析任务。虽然前人已提出很多有效的结构化学习模型(如条件随机场、结构化感知机等),但这些模型和传统机器学习模型一样需要大量的人工特征,因而极大地限制了模型的效果以及解码效率。本演讲将展示我在基于深度学习的NLP结构化学习任务中的探索,特别地,我将介绍深度学习技术在分词和依存句法分析中的应用。
黄浩军(腾讯科技(北京)有限公司)

毕业于北京大学 研究方向为自然语言处理与机器学习,现供职于腾讯科技(北京)-广点通-用户定向组。
Natural Language Processing in a Deep Way

自然语言处理是以语言结构为研究对象的学科,与机器学习、人工智能、计算逻辑密切相关。受益于机器(深度)学习的发展,自然语言处理也取得了很大的进展。本文主要从深度学习角度介绍自然语言处理中词法、句法、语义等层面的最新进展,并对比传统模型分析深度学习的优点。从词法层面来看,自从Bengio在NIPS(2003)上提出神经网络语言模型以来,已经出现了各种类型的word embedding表示;句法层面,也出现了不少令人欣喜的工作(比如,Richard Socher的Recursive NN,Recursive Tensor NN等);语义层面,结合形式模型,也存在不少不错的工作;更进一步的,在知识库辅助构建、扩充和推理等方面也有不俗的表现。
王菲菲(北京大学光华管理学院)

王菲菲,北京大学光华管理学院商务统计与经济计量系博士研究生,2012年毕业于中国人民大学统计学院,获经济学学士学位。感兴趣的研究领域有:文本挖掘,贝叶斯分析等。目前的研究课题集中在本挖掘领域,尤其是主题模型在营销领域中的应用、中文分词以及文档分类等。
Semi-supervised Document Classification through a Bayesian Hierarchical Model of Latent Topics

文档分类是有效组织大规模文档的第一步。通过借鉴潜在狄利克雷模型(LDA)以及它的扩展模型的研究思路,本文提出了一种半监督文档分类模型,即基于潜在主题的贝叶斯层次模型。该模型假设每个大类都可细分为一些独特的主题,同时各大类共享一个公共主题;每个主题,包括从属于某个类别的主题以及公共主题,在词典空间上都各有一个概率分布。本文使用MCMC方法对模型进行估计,在建模时同时使用已分类文档和未分类文档,并预测出未分类文档的类别。该模型被用于几个实际数据集,并和使用标准LDA模型得到主题分布,然后使用随机森林和支持向量机建立分类器的两阶段方法进行了对比。结果显示,本文提出的贝叶斯层次模型能够显著提高分类正确率,且结果稳定。
王健(北京大学光华管理学院)

王健:北京大学光华管理学院商务统计与计量经济系博士研究生。毕业于吉林大学数学学院,本科专业为信息与计算科学。研究方向为文本挖掘,包括中文分词,文本分类,以及文本挖掘方法在企业社会责任研究中的应用。
Integrating word segmentation with text classification

文档分类在文本挖掘领域有着广泛的应用。对中文数据而言,文本分类往往和分词联系在一起。比较常用的方法是先对中文文本进行分词,然后利用分词的结果建立模型实现文本分类,比如使用主题模型。本文将介绍一种结合分词和文本分类的新方法,通过分词从已分类文本中选出具有代表性的词,然后利用这些词帮助文本分类。即首先对已分类的训练数据进行分词,从中选取能够代表每个类别的“判别词”。在对测试数据进行建模时,结合分词和文档在各个类别上的概率分布信息,并对“判别词”的概率分布进行一定限制。模型的结果包括对测试数据中每篇文档的分词结果,以及每篇文档在所有类别上的概率分布,利用该概率分布即可对文档所属的类别进行预测。
常象宇(西安交通大学管理学院,数据科学与信息质量研究中心)

常象宇,毕业于西安交通大学数学与应用数学系。现为西安交通大学管理学院数据科学与信息质量研究中心助理教授。主要研究统计机器学习,高维统计分析与商务智能等。
分布式回归算法的参数设置

解决大规模数据的统计计算的基本想法之一是分布式计算。分而治之的思想是分布式计算的一种主流策略。该策略的基本思想是把某一大规模数据集分成(Split)可被计算的小块数据,然后把小块数据的计算结果集成(Combine)回来作为最终的计算结果。例如分布式计算的MapReduce的框架,R中的plyr包等都是基于上述策略开发的。使用分而治之的策略进行统计计算,必然在参数设置上遇到两个问题:第一,应该把数据分成多少块?第二,对于每块数据使用某种统计模型如何设置该模型参数?本演讲讲会针对回归问题从统计理论与实验上部分回答上述两个问题。从而解释例如分布式K紧邻回归,Nadaraya-Watson估计,线性回归和桥回归的参数如何设置。
周琦(cmcm.com)

Python中文社区创始人(之一) / 管理员, 热心于 Python 等等社区的公益事业, 大家熟知的社区"大妈"; O.B.P (Open Book Proj.~中文蟒样开放图书计划) 及 蟒营(PythoniCamp) 工程设计者 /主持人; 参与并主持各种线上 / 线下活动; 主持编撰了 <<可爱的python>> 坚持用 Pythonic 感化国人进入 FLOSS世界进行学习 / 分享 / 创造...
R or Py 这是个问题

以数据科学为对象,探讨: - 需要什么层次的能力 - 这些能力在 py 中怎么体现 - 是否需要学习 r 才能理解数据科学 - etc. 水平设定在初级的科普的.
颜林林(北京大学生命科学学院生物信息中心)

本人生物信息专业,爱好编程,崇尚开源。因统计只学到皮毛,故平时捣鼓R语言本身多于用R做统计。希望通过R会议的平台与其他同好互相交流学习。
解构R语言中的“黑魔法”

R语言中有许多设计精妙的用法(比如管道),它们基于R语言本身灵活的语法支持,实现出了各种近乎神奇的效果。本次演讲将尝试用“重复发明轮子”的方法,尽可能简洁地来重建这些“暗黑魔法”,使大家能够理解它们背后的实现机制。演讲的具体内容预计包括:(1) 函数与自定义运算符 (2) 闭包与环境 (3) 延迟计算 (4) 语法解析和构建。
李舰(堡力山集团)

李舰,毕业于中国人民大学统计学院(本科)和北京大学软件与微电子学院(研究生),现就职于堡力山集团,担任副总。是Rweibo、Rwordseg、tmcn等R包的作者,《数据科学中的R语言》的作者,还参与翻译了《R语言核心技术手册》和《机器学习与R语言》。邮箱:lijian.pku@gmail.com,主页:http://jianl.org/
R语言中的最优化方法

R是一个专业的统计计算环境,但同时也是一个非常灵活的开发平台。最优化方法本来不是R擅长的领域,但是这些年随着R语言越来越流行,很多作者将不少非常优秀的最优化工具整合到了R环境中,赋予了R更强大的功能。 本次报告将会结合演讲者的工作经验,介绍非线性规划、线性规划、非线性混合整数规划、遗传算法等业界常用的最优化方法及其在R环境中的实现方式,此外,还会针对这些最优化方法的应用场景与运行性能和商业软件进行比较。
张常有(中国科学院软件研究所)

张常有,工学博士,中国科学院软件研究所副研究员。长期从事高性能计算、协同计算、智能信息网络方面的研究。中国计算机学会会员(高性能计算专业委会委员、协同计算专业委员会委员、青年科学家论坛YOCSEF委员)、中国人工智能学会会员(智能信息网络专业委员会委员)、国际杂志《IEEE Transaction on Signal Processing》和《International Journal of Automation and Computing》论文匿名审稿人。
Julia语言进展及面向领域的支撑环境

Julia语言的语法对计算领域非常亲和,有很强的分布式高性能支持能力和数学库扩展能力。本报告第一部分介绍Julia语言的语法新特性,分享基本程序结构特征。第二部分重点阐述Julia语言对并行计算的支持能力和面向领域的工具库制作使用方法。第三部分介绍OpenBlas算法库方面的工作新进展。最后,阐述面向企业计算的高性能Julia云编程环境,示例基于深度学习的领域应用构建方法的近期尝试。
宫雨(中国石油大学(北京))

中国石油大学(北京)商学院副教授,从事管理信息系统、数据挖掘方面的教学和研究工作。业余时间喜欢编写与统计计算软件相关的代码,对R及julia比较感兴趣,尤其是R和julia的分布式计算。
rjulia:提高R计算效率的另外一条途径

rjulia结合了R和Julia两者的优点,提供了另外一条提高R计算效率的途径,为想要结合R和Julia的数据分析者提供了一个便利的工具。用户可以在计算密集的部分使用julia,而无需使用C/Fortran或Rcpp等语言来编写扩展包,降低了代码编写、调试的难度,同时也获得了效率提升。另外,还可利用julia的并行计算来进行大数据处理和分布式计算,对目前R尚不完善的分布式计算提供了补充。
谭炳东(香港浸会大学)

香港浸会大学Mphil在读, 前talkingdata数据挖掘工程师
spark与R,Python在数据建模上的协作✏️

主要是从一个数据建模人员的角度去分享在数据建模到数据模型上线过程中的一些问题以及解决方案。R,Python是数据科学家进行科学建模的首选,但是在大数据量的情况下,有些不适用。Spark是处理大数据的好平台,也有类似MLlib之类的包,但是进行快速的建模实验上又不太方便。演讲会通过一个游戏付费预测的案例去分享spark跟R,Python协作的数据建模以及转化成线上产品的过程,以及一些个人的思考。
邓一硕(北京大家玩科技有限公司)

邓一硕,北京大家玩科技有限公司财务总监、风控委员会委员;毕业于中央财经大学统计与数学学院,曾任职首钢集团计财部,2014年起加入北京大家玩科技有限公司(懒投资),历任金融项目部总监、财务总监、风险委员会委员。统计之都理事会理事、COS沙龙联合发起人;《R语言核心技术手册》等书译者。
结构化互联网金融产品的投资与设计

互联网金融时代来临,个人资产配置的标的和手段都日渐多元化,本演讲讲简单阐述在此背景下如何结合资产组合技术配置个人资产,从而实现个人资产的稳健增值。
张云松(融360)

专注于量化模型,决策分析,互联网金融产品,曾就职于Experian,德勤等咨询公司,现为融360风控决策总监。
互联网金融中的数据掘金者

互联网金融产业的火爆成了数据分析师的春天,四处高薪挖角来的分析师真的能给企业带来相应的回报么?如何能成为。演讲者将分享互联网金融中围绕数据相关的商业模式,分享企业级的数据模型平台构建,风控模型输出,征信数据服务,数据价值挖掘及数据产品化的经验。
柏亮(零壹财经-爱有财)

柏亮,零壹财经、爱有财创始人及CEO。零壹财经是专业的互联网金融第三方服务机构,拥有全国最大的p2p、众筹等行业数据系统,并出版《互联网金融:框架与实践》《中国P2P借贷服务行业白皮书》《众筹服务行业白皮书》《比特币》《数字货币》《中国融资租赁行业2014年度报告》等专业研究著作。爱有财(iyoucai.com)是零壹财经旗下的互联网理财玩家社区,为理财用户提供金融消费前服务。
互联网理财的资产供给

1.互联网理财呈现出资产多元化态势,各类金融资产、类金融资产及非金融类资产,通过互联网金融平台,设计成新型的理财产品 2.不同资产的特征决定了产品设计、风险特征、投资者认知 3.不同资产被“互联网化”的逻辑是什么,趋势如何 4.互联网理财产品与资产证券化的异同,市场比较,替代关系
葛伟平(考拉征信)

葛伟平,考拉征信服务有限公司首席技术官,2005年复旦大学计算机软件博士毕业,2012 年加盟拉卡拉,任集团副总裁,负责收单研发、系统运行、大数据平台体系架构建设和管理。2014年作为股东代表,参与组建考拉征信服务有限公司,负责数据平台、评分模型、征信系统搭建工作,带领团队先后推出了多个企业和个人信用分产品,同时兼任中国科学院大学・考拉征信模型实验室主任,是上海市科委现代服务业专家组成员。
基于大数据技术的互联网征信

探讨如何利用Hive、Impala、图数据库等平台和技术,以金融类数据为基础,结合公共部门合作数据,参考互联网信息,在移动互联网端给个人和商户提供快速信用评估服务。
刘路(中南大学数学与统计学院)

研究方向:随机过程的统计
带图结构的大偏差理论

带有图结构的大偏差理论。图结构上经验分布的产生(模拟)。潜在的应用包含,判断网络结构(大规模)与某个体属性间的关联,估计个体属性在给定网络上的演化规律,通过局部信息估计网络的某些整体属性(如联通性,有无闭环)。
吴奔(中国人民大学统计学院)

中国人民大学统计学院在读研究生,感兴趣的研究领域为金融随机分析与高频数据、独立成分分析。
ICA:独立成分的估计顺序研究

独立成分分析( ICA)是一种将p维的观测变量进行适当的线性变换,使得变换之后得到的随机变量(通常也是p维),其诸分量之间相互独立的一种方法。换言之,ICA认为观测到的变量由一些潜在的相互独立的变量(独立成分)经过线性组合(混淆矩阵)而产生。因此主要的问题即为根据观测变量估计出潜在的独立成分,等价地,也即估计出混淆矩阵。 然而,如果数据的维数较高,而只有少量的独立成分对观测变量有决定性的影响,那么发现这些少量的独立成分是具有重要意义的。此时,通常的做法是利用PCA先进行降维,再进行ICA的估计。由于PCA仅考虑二阶矩的信息,这种做法有可能破坏原本的数据结构。因此,我们需要另外的降维方法,这意味着独立成分的估计顺序是一个重要的问题。

本文转载自http://china-r.org/lectures/,请访问会议官方网站获取最新信息