股票学习网

如何学炒股,入门炒股,股票入门,股票怎么玩,学习炒股网,股票技术,股票知识学习 - - 股票知识网!

大数据概念(什么是大数据概念)

2023-04-17 18:59分类:投资策略 阅读:

随着时代进步和科技发展,大数据逐步为人类创造出更多的价值。你知道大数据的概念是什么吗?它又有怎样的特点呢?

大数据又称巨量数据、海量数据,是由数量巨大、结构复杂、类型众多的数据构成的数据集合,基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。也有相关机构对其有所定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。换言之,大数据就是在浩如烟海的信息中,利用数据分析的技术,对冗杂无序的数据进行分析和整理,并迅速筛选出有价值的信息。

2010年10月,麦肯锡在《大数据:创新竞争和提高生产率的下一个新领域》的研究报告里正式使用“大数据”一词,并最早提出“大数据”时代已经到来。简单地说,“大数据”即“海量数据”+复杂类型的数据,麦肯锡认为大数据就是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据有4个方面的典型特征:数据体量巨大、数据类型繁多、价值密度低、处理速度快。

大数据可以将数据分析和整合的结果应用于为企业提供决策支持,也可以将分析与建模的成果转化为具体的应用集成到业务流程中,为业务直接提供数据的支持。大数据的应用一般分为两类。一类是嵌入业务流程的数据辅助功能,如我们在网络购物时,经常会有“相关推荐”“猜你喜欢”等购物推荐,这就是通过数据分析与建模,分析我们的购物喜好,进行数据整合和筛选,最终得出推荐给我们的内容。另一类则是以数据为驱动的业务场景,如我们在出行前进行相关准备时,经常会在网络上对住宿,门票,车票等进行比价,这就是在采集各电商网站报价的基础上,利用大数据对同一产品进行识别和排序,从而得到最优方案。

提到大数据的发展,我们不得不提到一个概念——大数据的生命周期。事实上,它指的是某个集合的大数据从产生和获取到销毁的过程。也就是企业在实际运用大数据的过程中,在大数据战略的基础上,定义大数据范围,确定大数据采集、存储、整合、呈现与使用、分析与应用、归档与销毁的流程,并根据数据和应用的状况,对该流程进行持续优化。

随着移动互联网、物联网、云计算技术的迅速发展,大数据技术也越来越受人们关注。

本作品为“科普中国-科学原理一点通”原创,转载时务请注明出处。

 

大数据 Big Data

据说,词源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。

逝者 | 阿尔文·托夫勒:如何化解未来的冲击

虽然大数据是一个泛泛的概念词,但是关于大数据,关于大数据处理分析的话题近来持续升温,现在基本成了新一轮工业革命级别的话题。

大数据是什么,作为数据采集团队 ,我们很长的时间里一直也在思考,什么是大数据,大数据的前景和价值在哪里。

这篇文章里,我会跟大家一起分享我的看法以及各种有趣的内容和资源,它们关于:

  1. 什么是大数据

  2. 大数据的实践

  3. 大数据的应用场景

硬广:我们团队的帮助你零门槛采集数据:

造数 - 最好用的云爬虫工具 进击的爬虫工具!

最近都在说裁员,如果想知道互联网裁员潮对就业薪资是不是真的产生了持久的负面影响,可以用我们的工具,帮你定时每天采集几次生成列表看一看。

(一)什么是大数据

先听听行家的说法:

大数据就是多,就是多。原来的设备存不下、算不动。

————啪菠萝·毕加索

大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

_______Schönberger

移步ted:Kenneth Cukier: Big data is better data

America's favorite pie is?Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.

曾经人们以为最爱吃的派都是苹果派,不过当你有了更细致的数据,你会发现,苹果派受欢迎其实是一种妥协的结果:苹果派是每个人第二喜欢的口味。

拿到小尺寸派的数据以后你更发现,其实苹果派只能排到第四,第五位的样子了。

你有了更多数据,你就能看到之前你看不到的信息。

大数据最核心的价值是什么? - 商业 - 知乎 推荐@Han Hsiao这篇内容的结构十分清晰,对大数据的正面意义提出了非常清晰地探讨。

大数据听着很牛,实际上也很牛吗? - 人工智能 - 知乎 这里 @陈萌萌说的也特别好,怀疑她是不是真的是一个ai。

大数据最核心的价值是什么? - 商业 - 知乎,依然是这个问题, @刘飞的文章。

大数据是大数据的采集

大数据行业,本身是依托于数据源存在的服务性行业。

大数据最根本之处在于信息收集方式出现了重大变化与革新。大数据的出现与大量信息直接在网络呈现关系非常紧密。

微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。

Joel Selanikio:Transcript of "The big-data revolution in healthcare"

There's a concept that people talk about nowadays called "big data." And what they're talking about is all of the information that we're generating through our interaction with and over the Internet, everything from Facebook and Twitter to music downloads, movies, streaming, all this kind of stuff, the live streaming of TED. And the folks who work with big data, for them, they talk about that their biggest problem is we have so much information. The biggest problem is: how do we organize all that information?

现在人人都说大数据,但其实大家说的是 facebook,twitter,streaming 等等站点上每天产生的信息,做大数据的人呢,会觉得我们有的数据量实在太大了。

(组织信息仍然是最难的问题)

can tell you that, working in global health, that is not our biggest problem. Because for us, even though the light is better on the Internet, the data that would help us solve the problems we're trying to solve is not actually present on the Internet. So we don't know, for example, how many people right now are being affected by disasters or by conflict situations. We don't know for, really, basically, any of the clinicsin the developing world, which ones have medicines and which ones don't. We have no idea of what the supply chain is for those clinics. We don't know -- and this is really amazing to me -- we don't know how many children were born -- or how many children there are -- in Bolivia or Botswana or Bhutan. We don't know how many kids died last week in any of those countries. We don't know the needs of the elderly, the mentally ill. For all of these different critically important problems or critically important areas that we want to solve problems in, we basically know nothing at all.

许多有效的数据还完全不在网络上,要依靠原始的方法来收集。数据方面还有很多基本层面的问题在非常多的领域非常明显。

有哪些「神奇」的数据获取方式? - Liu Cao 的回答 - 知乎 看到这里推荐一个 @Liu Cao

的回答。

严澜(lanceyan)的博客 - 技术分享 框架交流 大数据处理 架构搭建 机器人

强烈推荐:如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?其中 @Xiaoyu Ma

(二)大数据的实践

工具看这里:大数据分析一般用什么工具分析? - JavaScript - 知乎

最近看到个例子,说pokemon go 带给玩家运动量上的变化:


1、应用中的数据分析示例:

六个月以后,大部分pokemon go 的玩家的运动量逐渐和 non-player基本一致了。

看来确实是一个能用相当效果的游戏。

2、交通状况大数据分析示例:

Susan Etlinger: What do we do with all this big data?

Now, there's a group of data scientists out of the University of Illinois-Chicago, and they're called the Health Media Collaboratory, and they've been working with the Centers for Disease Control to better understand how people talk about quitting smoking, how they talk about electronic cigarettes, and what they can do collectively to help them quit. The interesting thing is, if you want to understand how people talk about smoking, first you have to understand what they mean when they say "smoking." And on Twitter, there are four main categories: number one, smoking cigarettes; number two, smoking marijuana;number three, smoking ribs; and number four, smoking hot women.

这里非常有趣

(三)大数据的应用场景

先贴两个新闻观察:

京津冀大数据产业发展现状 | 报告 | 数据观 | 中国大数据产业观察_大数据门户

数据观 | 中国大数据产业观察_大数据门户

如今,在政策上,国家战略层面上,大数据受到的重视程度都越来越高。

应用场景上,现在分布在:

  1. 供应链和渠道分析&优化

  2. 定价分析与优化

  3. 欺诈行为分析&检测

  4. 设备管理

  5. 社交媒体分析&客户分析

《大数据时代》一书作者维克托认为大数据时代有三大转变:“第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。”大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据

据野史记载,中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。从前的人喜欢批评这位君王的天真品性,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。

在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。

硬广

造数 - 最好用的云爬虫工具

http://zaoshu.io/

 

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。

“Big Data is like teenage sex:Everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it too.”

2013年被称为大数据元年,各行各业都逐渐开启大数据应用时代。直至现在,大数据依然为人所津津乐道。

何为大数据?

1PB够大吗?

如果你没有直观印象,可以联想一下你的电脑硬盘容量,标配是500G-1TB,大部分人用了一两年,可能这部分容量都没用完。而1PB=1024TB=1048576GB。

在实际中,一个小有名气的游戏一天的数据量就在数十TB左右,甚至更多。

如果你以为PB单位已经是最大了?那就大错特错了!!!!

在PB之上,还有EB(Exabyte 百亿亿字节 艾字节),ZB(Zettabyte 十万亿亿字节 泽字节),YB(Yottabyte 一亿亿亿字节 尧字节),而这些单位也只是为了方便统计海量数据所给出的当前单位,在未来还可能出现更大的单位。

因特尔公司首席执行官Brian Krzanich表示,2020年互联网用户每天将产生1.5GB的数据。

HIS数据预测,到2025年,全球互联网(IoT)连接设备的总安装量预计将达到754.4亿,这部分设备每天产生的数据量可想而知。

按照前面的数据关系,得出1ZB大概是1.1万亿GB,等同于全世界沙子数量总和。

从上图中不难看出,互联网数据每年都在爆炸式增长。当然,大数据并不只是数据量大而已,它还有其他更深的含义。

对于大数据,麦肯锡全球研究所给出的定义是:

”一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。“

大数据具有五大特点,称为5V。

1. 多样(Variety)

大数据的多样性是指数据的种类和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。

2. 大量(Volume)

大数据的大量性是指数据量的大小,这个就是上面笔者介绍的内容,不再赘述。

3. 高速(Velocity)

大数据的高速性是指数据增长快速,处理快速,每一天,各行各业的数据都在呈现指数性爆炸增长。在许多场景下,数据都具有时效性,如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时,必须要高速处理,快速响应。

4. 低价值密度(Value)

大数据的低价值密度性是指在海量的数据源中,真正有价值的数据少之又少,许多数据可能是错误的,是不完整的,是无法利用的。总体而言,有价值的数据占据数据总量的密度极低,提炼数据好比浪里淘沙。

5. 真实性(Veracity)

大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。

数据一直都在,变革的是方式

大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是对有价值的数据进行专业化处理。

人类从来不缺数据,缺的是对数据进行深度价值挖掘与利用。可以说,从人类社会有了文字以来,数据就开始存在了,现在亦是如此。这其中唯一改变的是数据从产生,到记录,再到使用这整个流程的形式。

1. 数据生产

在人类社会的早期,民以食为天,数据的产生大多与商品,食物,土地等挂钩。旧石器时代的部落人民在树枝或骨头上刻下凹痕来记录日常的交易活动或物品供应。

为了衡量商品长度,中国人发明了尺、里、寸、丈、步、仞等长度单位;为了衡量重量,发明了升、斗,斛等重量单位。

在互联网时代,数据的生产变得更为容易。美国互联网数据中心曾指出,互联网上的数据每年都将增长50%,每两年便将翻一倍,而目前世界上90%以上的数据是最近几年才产生的。

每人每天都会产生海量数据,如视频数据,电商数据,社交数据等等。

全球每60秒产生的数据

2. 数据记录

千年之前,人们用龟甲石鼓、简牍绢帛到造纸术成熟后的刻本等一切触手可及的器物来作为数据的载体。

千年之后,人们用图书,报纸,硬盘,光盘,存储器等各种更为灵活,简便的方式记录数据。

3. 数据利用

古人利用利用甲骨文占卜判断凶吉,利用占星术预测朝代兴衰;利用蚂蚁搬家,燕子低飞,蚯蚓出洞来预测天气。

互联网时代,企业或产品利用电商数据为用户推荐商品,利用社交数据做广告营销等等。

在大数据概念兴起之前,大部分企业并没有注意到数据的宝贵价值,只是在纯粹的生产和记录数据。更有甚者视海量数据为累赘,因为数据的存储与管理需要耗费企业大量的成本,极少有企业能把数据作为一种资源,嗅到大数据背后的价值,从而加以利用。就算到现在,数据资源的整合利用能力依然是考验每个企业的一大难点。

大数据应用

大数据作为一个能够改变产业应用的技术,只有切实落地才能带来真正的价值。

其实大数据的应用范围非常广,不单单限于互联网行业,在其他诸如金融,制造业,交通物流方面也都有非常大的应用价值。

1. 大数据让借贷款更加放心

在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。

借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等(据说一个用户的标签维度可以达到7000个)。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。

借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。

2. 大数据让广告营销更高效

广告作为互联网行业最常见的变现手段之一,大数据赋能广告营销,让广告从惹人恼转变为广告即内容,广告即服务。

曾几何时,你会发现日常生活中看到的广告居然那么懂你。点开淘宝,你最爱的商品被推荐在Banner首页;打开微信朋友圈,映入眼帘的是你正想要做的汽车保养;打开百度搜索,你前两天看的别墅信息赫然出现。

这一切的实现都得益于大数据赋能广告。

在广告投放前期,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,并从中挖掘出有效的信息;构建全面的用户画像,结合广告业务,精准定位目标用户,保证广告定向投放。

大数据构建用户画像

在广告投放的中后期,通过实时数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,调整广告的呈现方式与广告的展览位置,让同一个用户在不同的场景下享受不一样的广告服务,实现一人千面,增加广告营销效果,提升广告主KPI。

3. 大数据赋能零售

新零售时代,客户的需求无时无刻不在变化,大数据赋能零售,让零售在人,货,场上进行变革。

零售商可以借助大数据对未来市场需求进行预测,抢先一步对库存进行管理。在流量高发的前期,及时补足库存,提升商品供应率;在流量散去的前期,及时去库存,避免库存积压。

借助大数据分析用户地域分布情况,商店流量,消费者习惯等那个,在合适的地区开设商店,建造仓库。在物流发货时,从数据出发,合理规划运输路劲,降低运输成本。

利用数据还可以统一上下游供应链交互,解决数据不对成问题,减小牛鞭效应,提升供应链中每个环节的利用效率。

总结

数据一直都在,大数据变革的只是方式。大数据并不神秘,神秘的是对未知数据的探索与利用。

本文由 @pm_SWolf 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

https://www.suoduoma.com

上一篇:股票行情(中利科技股票股吧)

下一篇:股票000802行情走势(股票)

相关推荐

返回顶部