香港科技大学易珂老师在中国人民大学计算机系进行了一场题为总结分布式数据的演讲,中国人民大学信息学院正是培养信息领域高素质专业人才的基地。香港科技大学易珂老师的演讲的基本内容是:
数据汇总是一种有效的方法来处理“大数据”的问题。虽然传统上已被研究数据汇总问题是流模式,焦点开始转向分布式模型,作为分布式/并行计算似乎是唯一可行的方法来处理今天的大量数据集。在这次演讲中,易珂将介绍一些基本的数据总结了如何可以通过计算与通信培训费低分布式数据。
易珂是香港科技大学计算机科学与工程学院副教授。他获得了B.E.来自清华大学和博士学位来自杜克大学,在2001年和2006年分别,无论是在计算机科学。在加入香港科技大学之前,他是在数据库部门AT&T实验室的研究员。他的研究重点是对海量数据的算法及其在数据库系统中的应用。
原文:Data summarization is an effective approach to dealing with the “big data” problem. While data summarization problems traditionally have been studied is the streaming model, the focus is starting to shift to distributed models, as distributed/parallel computation seems to be the only viable way to handle today’s massive data sets. In this talk, I will show how some fundamental data summaries can be computed over distributed data with low communication costs.