《大数据时代》是英国维克托·迈尔-舍恩伯格教授的著作,被公认为是国内外大数据研究的先河之作。作者通过枚举了上百个例子,对大数据的方方面面进行了系统、详细解说,让每一名读者,即使是外行也能很容易理解,直观感受到大数据给社会和生活带来的改变。
在本书中,对于大数据时代,作者主要提出了三个核心观点: 1、要全体不要抽样。分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。2、要效率不要绝对精确。我们乐于接受数据的纷繁复杂,而不再追求精确性。3、要相关不要因果。我们不再探求难以捉摸的因果关系,转而关注事物的相关关系。
这三个观点在某种程度上颠覆了我们的传统思想。
要全体不要抽样:
传统的统计学方法是解决如何通过选取少量样本,通过对样本的分析,然后推断整体的趋势和规律。而大数据时代告诉我们“样本=全体”,在很多时候,我们不再需要费心去考虑样本抽样、数据过滤等问题。我们利用大量数据,甚至是所有数据,然后用算法去计算分析,从而更精准的找到各个因素之间的相关关系(不是因果关系),以发现数据之间的规律。
要效率不要绝对精确:
在传统的统计学中,由于抽样的限制,研究往往会对精确度做很严格的要求,譬如置信区间的概念。而大数据时代会把这些条件放的更宽松。我们要学会在精度和效率之前做取舍,要能够容忍错误,学会在瞬息万变的信息中掌握趋势,为下一刻的决策提供依据,这就够了。正如作者所说:“接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。”
要相关不要因果:
这个观点也区别于我们传统的教育理念。我们习惯于“打破砂锅问到底”、“举一反三”式的教育方式。当我们找到了自以为是的答案时,其实可能只是冰山一角,探索事物背后本质的动机不能停止。但大数据时代告诉我们要放弃对因果关系的渴求,取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。
上述作者提出的三个观点对于大数据的发展具有深远的指导意义。我也深信这三个观点在未来也将长久地改变着我们的社会和生活。对于大数据,接下来我也想谈一谈个人的理解和认识。
大数据时代,统计学依然是数据分析的灵魂。大数据时代提出的观点是“样本=全体”,因此,有一部分人甚至抛出了大数据时代统计无用的观点。他们认为数据中包含了所有的意义,只要计算能力足够强大,就不需要什么理论。但是他们似乎忘了,数据≠信息。一方面,大数据采集的数据是原油而非汽油,不能够直接拿来使用,另一方面,大数据中“全”的概念本身就难以界定。“全”在某种意义上也是一种边界。但如何确定这种边界进而进行数据的全面收集,本身就是一件困难的事情。因此,在大数据时代,数据分析的很多根本性问题和小数据时代并没有本质区别。它在某种程度上是样本的无限放大。
大数据的根基是“数据”。数据是大数据发展的前提。如果没有有效的数据,大数据技术也只是空中楼阁。因此,一方面,如何积累丰富的数据资源,是我们急需解决的问题,另一方面,对于已有的数据资源,如何有效地利用,提高数据标准化、准确性、完整性水平,也需要我们思考。就目前来看,大数据的未来更加关注的是“社会化大数据”,即人和人的关系、人和数据之间的关系。通过对社会化数据分析,使得我们能够对人、社会和商业有更加深入的理解。这也解释了为什么在美国,很多人认为Facebook的价值在某种程度上要大于谷歌。因此,企业在日常运行中,要注重积累这方面的数据资源,同时要配套相应的数据采集标准和方法,最大程度提高数据利用价值。
大数据的关键是处理。大数据的核心价值是预测。但大数据的特点对数据分析的确提出了全新挑战。面对海量的数据,如何寻找快速有效的方法进行分析挖掘,为我们的决策提供依据也是摆在我们面前的一个难题。对此问题,一方面我们可以结合传统统计方法,对结构复杂、来源多样的数据建立有效统计模型,先行对数据进行加工处理。另一方面,需要开发先进的软件平台和算法,例如目前已有的Hadoop、MapReduce等,尽可能用低成本和扩拓展的方式处理大数据。
总而言之,大数据很精彩。对于企业来讲,一方面需要挖掘更多创造数据的渠道,另一方面要提升数据处理挖掘的能力,最为关键的是找到数据和应用的结合点,这样才能乘着大数据东风,让企业发展更上一个台阶。
标签: 大数据
评论列表