随着互联网的快速发展,特别是近年来,随着社交网络、物联网、云计算和各种传感器的广泛应用,数量大、类型多、时效性强的非结构化数据不断
随着互联网的快速发展,特别是近年来,随着社交网络、物联网、云计算和各种传感器的广泛应用,数量大、类型多、时效性强的非结构化数据不断涌现,数据的重要性越来越突出。传统的数据存储和分析技术难以实时处理大量的非结构化信息,于是大数据的概念应运而生。如何获取、聚合和分析大数据已经成为广泛关注的热点问题。介绍了大数据的概念和特征,分别讨论了大数据的典型特征,分析了大数据要解决的关联分析、实时处理等核心问题,最后讨论了大数据可能面临的各种挑战。
“大数据”是近年来IT行业的热词。大数据在各行业的应用逐渐普及。比如2014年两会,我们听到最多的就是大数据分析。那么,什么是大数据,大数据的概念是什么?如何理解大数据的概念?让我们来看看。
大数据的概念:大数据,或称巨量数据,是指涉及如此巨大的数据量,以至于无法被当前主流软件工具捕捉、管理、处理和组织,以帮助企业在合理的时间内做出更积极的商业决策的信息。(在Victor Mayer-schoenberg和Kenneth Cookeye写的《大数据时代》中,[2]大数据是指在没有随机分析(抽样调查)这种捷径的情况下使用所有数据的方法)大数据的4V特征是:体积(海量)、速度(高速)、多样性(多样性)和价值(价值)。
大数据概念的发展史:“大数据”一词最早的引用可以追溯到apache org的开源项目Nutch。当时大数据是用来描述大量需要同时批量处理或分析的数据集,以便更新网络搜索索引。随着Google MapReduce和Google File System (GFS)的发布,大数据不再仅仅用来描述大量的数据,还涵盖了数据处理的速度。
早在1980年,著名未来学家阿尔文托夫勒(alvin toffler)就在其著作《第三次浪潮》中热情地将大数据誉为“第三次浪潮”。
潮汐的丰富多彩的运动。”然而,大约从2009年开始,“163大数据”成为互联网信息技术行业的热门词汇。根据美国互联网数据中心的数据,互联网上的数据每年将增长50%,每两年将翻一番。目前世界上90%以上的数据都是近几年才产生的。另外,数据不仅仅指人们在互联网上发布的信息。世界各地的工业设备、汽车、电表上有无数的数字传感器,随时测量和传输位置、运动、振动、温度、湿度甚至空气中的化学物质的变化,也产生了海量的数据信息。
大数据的概念结构:大数据只是互联网发展到现阶段的一种表征或特征。没有必要将其神话或保持敬畏。在以云计算为代表的技术创新背景下,这些原本难以收集和使用的数据开始被轻松利用。通过各行各业的不断创新,大数据将逐渐为人类创造更多的价值。
其次,要想系统地理解大数据,就必须对其进行全面细致的分解。我将从三个层面开始:
第一个层次是理论,理论是认知的必由之路,是被广泛认同和传播的基线。我会从大数据的特征定义来理解行业对大数据的整体描述和定性;从大数据价值的讨论,深入剖析大数据的珍贵;洞察大数据发展趋势;本文从大数据隐私这一特殊而重要的视角来审视人与数据的长期博弈。
第二个层面是技术,技术是体现大数据价值的手段,是进步的基石。我将从云计算、分布式处理技术、存储技术、传感技术的发展来阐述大数据从采集、处理、存储到成果形成的全过程。
第三个层次是实践,实践是大数据的终极价值体现。我将从互联网大数据、政府大数据、企业大数据、个人大数据四个方面来描述大数据已经展现的美好场景和将要实现的蓝图。
大数据概念的特点:与传统的数据仓库应用相比,大数据分析具有数据量大、查询分析复杂的特点。《计算机学报》发表的《构建大数据:挑战、现状与展望》一文列举了一个大数据分析平台需要具备的几个重要特性,分析总结了目前主流的平台,即——并行数据库、MapReduce以及基于它们的混合架构,指出了各自的优缺点,并介绍了各个方向的研究现状以及作者在大数据分析方面所做的努力,对未来的研究进行了展望。
大数据的四个“V”,或者说特征,有四个层次:一是数据量巨大。从TB级跳到PB级;第二,数据类型多。前面提到的博客、文章、图片、地理信息等等。第三,处理速度快,一秒定律可以快速从各类数据中获取高价值信息,这也是与传统数据挖掘技术的本质区别。第四,只要数据使用合理,分析正确准确,就会带来很高的价值回报。业内将其归类为四个“V”——体量(大体量)、品种(品种)、速度(高速)、价值(价值)。
某种程度上,大数据是数据分析的前沿技术。简而言之,从各类数据中快速获取有价值信息的能力就是大数据技术。理解这一点很重要,也正是这一点让这项技术有潜力走向很多企业。
大数据概念的运用:大数据可分为大数据技术、大数据工程、大数据科学和大数据应用。目前,人们谈论最多的是大数据技术和大数据应用。工程和科学问题没有得到重视。大数据工程是指大数据的规划、建设、运营和管理的系统工程;大数据科学侧重于在大数据网络的发展和运行过程中,发现和验证大数据的规律及其与自然和社会活动的关系。
物联网,云计算,移动互联网,车联网,手机,平板电脑,PC,遍布全球的各种传感器,都是数据来源或者承载方式。
一些例子包括网络日志、RFID、传感器网络、社交网络、社交数据(由于数据革命的社会)、互联网文本和文件;互联网搜索索引;调用详细记录、天文学、大气科学、基因组学、生物地球化学、生物学和其他复杂和/或跨学科的科学研究、军事侦察和医疗记录;摄影档案的文章文件;以及大型电子商务。
大数据的作用对于普通企业来说,大数据的作用主要表现在两个方面,即数据的分析使用和二次开发项目。通过分析银禧信息的大数据,不仅可以挖掘出隐藏的数据,还可以通过这些隐藏的消息和实体的销售来提升我们的客户来源。至于数据的二次开发,则多用于网络服务项目。通过对这些信息的总结和分析,我们可以制定出符合客户需求的个性化方案,创造出全新的广告营销方式。在这里,你需要明白,通过大数据的分析,把产品和服务结合起来,并不是偶然,往往是数据时代的领导者意识到了这一点。
综上所述,大数据的应用不仅标志着时代的进步,也激励着人们在更深的领域探索。另外,对于大数据的研究,除了以上内容,还需要了解大数据的三个特点,即规模大、运行速度快、数据多样性。通过这三个方面的研究,不仅更容易观察到数据的本质,也有利于软件处理平台的有效运行。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们