研究方向
随着信息技术应用的日益深入,海量数据逐渐成为信息化社会重要的生产要素。人们对“大数据”的运用必将掀起新一轮的技术浪潮。大数据是一个具有国家战略意义的新兴产业,正受到政府的高度关注。“大数据”带给广东的是挑战更是机遇,广东省作为改革开放的前沿阵地,正处于在结构调整和产业升级转型的关键时期,在这场新一轮信息化浪潮中抢占先机,组建广东省大数据分析与处理重点实验室显得尤为必要。实验室设三个主要研究方向,分别为:大数据的存储与管理,大数据的分析与挖掘,大数据的高级应用。主要研究内容如下:
1)大数据的存储与管理
大数据的存储和管理是本实验室研究的一个重要内容。数据存储和管理为大数据分析和处理提供系统支撑。由于大数据在数据规模、多样性等方面的特性,使得传统的数据库系统不能满足大数据存储和管理需求。近年来以分布式文件系统为底层基础的对象存储及NoSQL技术已经成为大数据存储和管理的重要手段。但是,由于各类数据的急剧增长,各类应用的不断涌现,大数据处理对存储技术和系统的要求也水涨船高。特别是在高容量、高可用、高可靠及安全性等方面提出了严峻挑战。
本方向的研究工作结合数据存储和数据管理,进行综合性、系统性优化设计。采取分块多点存储、压缩的方式来保证数据的高效存储;采取分布式副本放置和低开销的一致性维护实现高可靠高可用;采取信息编码、匿名化、加密查询等方式实现海量数据的安全和隐私保障。更为重要的是,我们将结合分布式并行处理技术,研究有效的分布式数据缓存和内存数据库技术,实现低延迟、大吞吐量的海量数据实时处理,为流式数据存储和处理提供支撑。
2)大数据分析与挖掘
对于大数据应用而言,如电子政务、电子商务、智能交通以及智能教育等,大数据融合的一个重要方面是从信息的分类、预测、聚类和关联上体现出来的,文本分类、聚类和关联分析将传统数据挖掘的思想和方法应用于大数据上,从中抽取感兴趣的、潜在的、有用的模式和隐藏信息,是对数据信息进行整理并从中获取知识的过程,是大数据融合和知识服务的重要组成部分。如何进行有效的非结构化信息的分析和挖掘是一个具有挑战的问题。大数据很多是高维的,数据降维是一个重要的预处理过程,有助于提高大数据分析和挖掘的效果。另外,随着互联网的发展,在大数据应用中产生和演化了大量的社区网络,可以为用户提供有价值的、可靠的、及时的、具有个人特点的信息,并且代表着网络中的社会活动。这些社区网络是由用户、资源等复杂链接所组成的巨大信息源,而且以很快的速度在不断的扩大。针对这样一个不断变化的信息源,如何利用和发现社区网络中的有用信息,并基于发现的网络信息进行有效推荐变得越来越具有挑战性。
3)大数据高级应用
大数据概念的提出与大数据技术发展的驱动力在于应用。2011 年,《自然》杂志(Nature)出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。因此,大数据技术的意义不在于掌握庞大的数据信息,而在与对这些含有意义的数据进行有效处理与分析,使其变得有用。本研究方向着眼于将前面两个方向的研究成果转化为具体应用成果—建设智慧城市(智慧广东)。欧盟对智慧城市的评价分为六个方面:智慧经济、智慧治理、智慧生活、智慧人民、智慧环境、智慧移动性。也就是说智慧城市要促进经济的发展,要改进和帮助更多大众的参与,让老百姓享受智慧的生活,人民得到更好的服务,居住环境更加优化。智慧城市的应用很广泛,包括:物流、交通、电网、工业、农业、建筑、环境、医疗等方面。广东省在建设国际化大都市过程中必然产生大数据,本研究方向将运用大数据的各项技术,包括:大数据采集、管理、处理、分析等,促进智慧城市建设。