怎样用大数据

2024-05-17 07:46

1. 怎样用大数据

数据显示，17%-18% 的妇女都曾因受孕困难寻求过医学帮助。PayPal 联合创始人兼 CTO Max Levchin 认为：“受孕困难说到底是一个信息问题。大多数妇女如果能更好地掌握自己排卵周期，更好地读懂自己身体发出的各种信号。她们怀孕的几率会大很多。”于是 Levchin 想借助大数据和移动互联网来解决这个困扰夫妇的实际问题。
在近日的 D11 大会上，Levchin 展示了其打造的助孕应用Glow。通过 Glow，妇女们能够记录和跟踪与怀孕有关的各种重要身体信号，包括月经周期、晨温、上一次性行为时间、体重、心理压力，当然还有最重要的宫颈粘液稠度。具体 Glow 是如何助孕的，女生们可以参考其官网的FAQ页面。这里就不多解释了，还是有些害羞哈。Glow 目前正在等待 App Store 的审核。
怀孕是两个人的事，不孕自然男人也脱不了干系。Levchin 表示，未来还会推出记录和跟踪男性身体信号的应用。而目前，丈夫也是可以使用 Glow 来记录自己对妻子的观察数据。
录入数据之后，Glow 内置的算法能够推算出可能的受孕时间。想造人的夫妻就可以赶紧利用这个时间，而不想要拖油瓶的夫妻则最好尽量避免这个时间。另外，在预测准确率方面，Levchin 表示，随着用户的增多，Glow 的大数据技术能够提高准确率。
不只想做受孕预测，Glow 还想做一款金融工具。Levchin 表示，美国很多夫妻当遇到不孕不育问题都会寻求医疗帮助，但这笔数目不小的费用却没有纳入美国的医保体系，很多夫妻表示压力山大。对此，Glow 推出了一个 “不孕不育公积金”的概念。每对有受孕困难的夫妇可以选择每月在公积金里存 50 美元，连存 10 个月。10 个月之后，如果 Glow 都还没能帮助你受孕，你就可以拿着这笔钱去医院接受不孕不育的治疗。
希望能解决您的问题。

怎样用大数据

2. 大数据怎么用？

当下，大多数企业都明白大数据的作用。大数据——这个庞大甚至是有时是压倒性的信息包含了企业日常经营的过程：销售策略，营销邮件的打开率，网站点击量等等，利用好大数据也能让你发现消费者的行为和心理。
拥有大数据和数据分析工具确实是有帮助的，然而这也是一把双刃剑：过于依赖数据，可能会让我们忽视自己强大的直觉(甚至经常是正确的直觉)。这些直觉又无法量化。针对这个问题，来自青年企业家理事会(YEC)的3位创业者提供了如下意见，告诉我们如何利用大数据，而不盲从数字，不至于所有商业决策都任凭大数据的摆布。


1.大数据只是指导作用，但不能是只依靠大数据
我认为大数据是很有效的，但是我们在做品牌营销决策的时候不能完全以大数据“马首是瞻”。应该有一种有效结合了大数据和“直觉判断”的方法。通过数据指导，我可以为品牌吸引新的用户，但是我不会让数据决定我和读者之间互动的形式。
_Sean Ogle of Location Rebel

2.理解商业数据需求
这取决于你的商业模型，你需要考虑你的数据获取、数据测量的难易性，还是为人为失误留出了空间，你是在调查观点，事实还是数据。在你全面使用大数据之前考虑这些要素，不要盲从大数据。这是你的业务，你才是这方面的专家
_Kevin Conner of Vast Bridges

3.分析数据找到潜在客户
大数据让我的企业和销售可以了解和预测用户行为，比如人们在哪些场景下网购，购买什么?未来几个月用户可能会转移到哪些场景。这样，销售团队得以找出潜在顾客——真正有望购买产品或服务的顾客，以及掌握向他们推销的最佳时机。
_John Daniel of Innovator John


更多大数据相关资讯及学习关注【火山数据】公众号

3. 怎样用大数据

说起掘金大数据，一定绕不开政府数据。    
地方政府掌握着80%以上的数据。每隔一段时间，从中央到地方，都会发布关于大数据开放的政策。高层谈新经济，言必称大数据。   
 而在执行层面，目前地方政府大多处于观望状态。关注政务数据领域的清华大学数据科学研究院执行副院长韩亦舜表示，政府数据开放并没有那么复杂，需要有地方能真正去实践和摸索，做一些事情，当下所有的人都在谈数据开放，但做实事的不多。    
韩亦舜曾建议西部一些地方政府借大数据发展的机会，率先开放数据获得先发优势，另外同步做好信息化补课。    
6月份，笔者见到一位来北京寻求合作的西部省份地理信息测绘局局长，他长期在部委工作，前些年调到地方当部门一把手，发展大数据思路清晰，不过让他苦恼的是，当地信息化水平不高，很多地方没有数据，有的数据还在纸上。    
他酝酿出台一个规定，以后所有的图都不准画在纸上，必须上网，以电子化的形式存储。当下他最想解决的问题是信息化，先收取数据，然后通过建立地方数据中心的形式，与企业合作，做地理信息垂直领域的数据开放和挖掘。    
走在前沿的贵州省，希望以发展大数据弯道超车，实现新经济的腾飞。然而从数据开放的程度来看，当地一些职能部门，所谓的公开数据还停留在提供PDF文件阶段，远非结构化的数据，按照国际数据公开标准来说，并不能算政府数据公开。    
单从数据开放来看，思路最清晰规划更具体的，还是广东、上海等发达地区。对于地方政府的大数据园区来说，发达地区好比“富二代”，一出生就含着金汤匙，但大部分地区还是“穷二代”，需要更大力度的数据挖掘与开放。由于各地在大数据方面存在差距，不同区域的数字鸿沟会继续深化。
“ 饥渴的大数据创业公司
在掘金大数据的背景下，企业早已经等不及了。    
早些年，部分企业通过各种交易手段，获得政府数据。在数据开放的背景下，部分企业还在依托不规范交易，已经有政府部门被巡视组查出了因数据交易衍生腐败。   
 一部分企业希望参与政府数据公开进程，帮助政府做数据公开。比如数据堂公司与贵阳市政府共建数据生态城市。还有一批公司，则是急速扩张，跟各地政府成立相关的合资公司。   
 当然，还有转型大数据二次创业的公司。在贵阳数博会上，笔者见到很多大数据公司，就是以前卖电脑和软件开发的IT公司，转型做大数据，业务范围无所不在，包括智慧城市、软件开发、智慧农业、医疗等。   
 除上述归类外，企业为了获取政府数据，采取各种“曲线救国”的招式。前不久，笔者熟悉的一家南方大数据创业公司，为了获取某西部城市政府部门数据，报名参加当地的创业大赛，希望通过得奖，引起当地政府重视，达成数据合作。    
这家公司的CEO在参赛间隙，拖着行李箱与当地国企联络，希望能够以合资的形式成立公司，共同挖掘当地数据。    
这位CEO还通过各种方式，找到该市分管大数据的负责人，希望能够谈成合作。他勾画的蓝图很美好：获取一个城市的数据，做成样板，然后在全国复制，迅速从0到1成为该行业的“寡头”企业。    
不过，目前还没有关于这家公司取得实质进展的消息，但这家公司寻求政府大数据开放的决心和路径，颇具有典型性。    
政府资源导向，仍是目前很多数据公司努力的方向。很多大数据公司在融资过程中，强调一定要有国有资本进入，而且坚决远离境外资本。    
从2015年国内最大的几笔大数据创业公司的融资情况来看，几乎都有国有资本进入，即便只占很小的比重。在某大数据公司融资发布会上，笔者随机问了几家投资机构选择投资这家公司的原因，答案惊人一致：有政府数据资源。    
而在一些专家和专业投资人看来，从价值投资的角度，一是真正有技术优势的公司，二是有自己数据源的公司。依托政府资源的公司，从长远来说，并没有太大的投资价值。    
乐观者认为，政府数据开放最终会走向规范化，有科技含量的公司最终会在泡沫破灭后存活下来。

怎样用大数据

4. 大数据究竟怎么用

数据怎么用是我们评价大数据应用的一个关注点。《大数据纲要》规划了许多大数据应用领域和方向，包括公共部门和产业领域，实际上是提出了许多需要大数据解决的问题或期待大数据完成的任务。如何解决这些问题，如何把数据资源转化为解决方案，实现产品化，这是我们特别关注的问题。大数据只是一种手段，并不能无所不包、无所不用。我们关注大数据能做什么、不能做什么，现在看来，大数据主要有以下几种较为常用的功能。
追踪。互联网和物联网无时无刻不在记录，大数据可以追踪、追溯任何一个记录，形成真实的历史轨迹。追踪是许多大数据应用的起点，包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息，等等。
识别。在对各种因素全面追踪的基础上，通过定位、比对、筛选，可以实现精准识别，尤其是对语音、图像、视频进行识别，使可分析内容大大丰富，得到的结果更为精准。
画像。通过对同一主体不同数据源的追踪、识别、匹配，形成更立体的刻画和更全面的认识。对消费者画像，可以精准推送广告和产品;对企业画像，可以准确判断其信用及面临的风险。
提示。在历史轨迹、识别和画像基础上，对未来趋势及重复出现的可能性进行预测，当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测，大数据大大丰富了预测手段，对建立风险控制模型有深刻意义。
匹配。在海量信息中精准追踪和识别，利用相关性、接近性等进行筛选比对，更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。
优化。按距离最短、成本最低等给定的原则，通过各种算法对路径、资源等进行优化配置。对企业而言，提高服务水平、提升内部效率;对公共部门而言，节约公共资源、提升公共服务能力。
上述概括并不一定完备，大数据肯定还有其他更好的功能。当前许多貌似复杂的应用，大都可以细分成以上几种类型。例如，贵州推行的“大数据精准扶贫项目”，从大数据应用角度，通过识别、画像，可以对贫困户实现精准筛选和界定，找对扶贫对象;通过追踪、提示，可以对扶贫资金、扶贫行为和扶贫效果进行监控和评估;通过配对、优化，可以更好发挥扶贫资源的作用。这些功能也并不都是大数据所特有的，只是大数据远远超出以前的技术，可以做得更精准、更快、更好。当然，技术无法左右利益，贵州扶贫目标的完成，并不是有了大数据就万事大吉了。

5. 如何运用大数据

1.可视化分析
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
2. 数据挖掘算法

 大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统
计 
学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如
 果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
3. 预测性分析
 大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。
4. 语义引擎
 非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。 大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
 
大数据的技术
数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据存取： 关系数据库、NOSQL、SQL等。
基础架构： 云存储、分布式文件存储等。
数
据处理： 自然语言处理(NLP，Natural Language 
Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理
解也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。
统计分析：  
假设检验、显著性检验、差异分析、相关分析、T检验、 方差分析 、 
卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、
 因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。
数
据挖掘： 分类 
（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity 
grouping or association rules）、聚类（Clustering）、描述和可视化、Description and 
Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
模型预测 ：预测模型、机器学习、建模仿真。
结果呈现： 云计算、标签云、关系图等。
 
大数据的处理
1. 大数据处理之一：采集
大
数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的 
数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除
 此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时
有可能会有成千上万的用户 
来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间
 进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二：导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些
海量数据进行有效的分析，还是应该将这 
些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使
 用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
3. 大数据处理之三：统计/分析
统
计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通 
的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于
 MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
4. 大数据处理之四：挖掘
与
前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数 
据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于
 
统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并
 且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。
 
整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

如何运用大数据

6. 如何利用大数据

大数据。这是一个术语，已在最近几个月自由抛圆。它是指数据集是如此之大，他们变得尴尬。面对它，不引人注意，但是，如果正确使用这些数据的价值是首屈一指的，这句话可能让大数据。本文将探讨大数据的影响，将有世界各地的营销（或有）。
什么是大数据？
正如我前面提到的，大数据是一个术语，指数据集（或数据集），是尴尬的工作，由于其规模，复杂性或增长率。对于一个数据集被视为“大”，它通常具有超过50TB大小，虽然在一些复杂的情况下，大小已经上升到多个PB。为了把一个PB的角度来看，相当于100万GB。
最近一个时期，有些大数据已成为一个时髦的词语。这样做的原因是，这是一个新的概念或一种新近发现的资源，但是，这仅仅是最近的技术发展远远不够，让我们在一个智能的，有见地的方式处理数据。
现在我们可以处理，虽然数据的分析和解释，它可以被用在许多方面，在许多不同的行业中。
大数据规模
大数据是如此不同， - 取决于数据集 - 它可以有或多或少是一个无限量的用途。这部分是因为我们生活在这样大大数据填充世界。
现代社会化媒体平台完全说明了这一点。知名的微博客网站Twitter时钟高达约12万亿字节的数据，每天，当你认为这完全来自140个字符的“推特”的土堆，它确实是显着的。然后，这些数据的解释和分析，形成产品的情感分析的基础上最终产品的改进。
他们处理甚至在Facebook更大的数据集。Facebook的超过500TB的数据，每天收集。此数据包括状态更新，喜好，上传的相片和所有其他的相互作用。
以较大的比例，据估计，90％，在世界上的数据已被收集在过去2年。这意味着有更多的数据，期间在2010年和2012年之间，比1000年之前。
因此，毫无争议的数据存在，但一旦你拥有它，你能做些什么呢？
使用大数据
不出所料，它是大企业在商业世界。在世界商业智能，数据通常可以被分为两组。第一组是交易数据。事务的数据是收集周围的事件，如网上购物，用户行程和物流。第二组是互动的数据。互动数据是收集周围人之间的相互作用。想想社交媒体配置文件，视频和照片。社交媒体上面的例子是一个完美的例子互动数据。
在Facebook的基础设施 - 副总裁杰伊·帕瑞克 - （相对）有句名言：“如果你不利用大数据，那么你不会有大的数据，你只是有一堆的数据。” 那么，什么可以被用于？
大数据正在成为一个大的方式，使企业能够超越竞争对手。案例研究表明，它可以用来增加市场份额，提高营业利润率，增加资本投资回报。
它可以被用来改善产品或服务，以及。公司可以分析一个产品如何被使用，谁使用它，他们认为，他们会改变什么。
也许最骇人的是，大数据可以用来了解你。你喜欢什么，不喜欢，你去过的地方更多。所有这一切都可以被用于目标广告和推销产品。以及消费者的信息是值得很多钱，如果出售，可以卖到几十万英镑身价不菲。为什么你认为Facebook是免费的吗？
这真的只是冰山一角，有这么多这是可能的。
更方便
大数据的独家资源的大企业大集的数据和近乎无限的计算资源。现在，情况并非如此，现在中小型企业和规模较小的组织可以利用大数据由于云计算。现在是大数据分析作为一种服务，这使得它更容易获得群众不再有如此大的初期资本支出。
这个水平的小型和大型企业之间的公平竞争，因为现在在一定程度上，如果你的数据，你可以使用它。

7. 如何利用大数据

大数据包含几个方面的内涵吧
    1. 数据量大，TB，PB，乃至EB等数据量的数据需要分析处理。
    2. 要求快速响应，市场变化快，要求能及时快速的响应变化，那对数据的分析也要快速，在性能上有更高要求，所以数据量显得对速度要求有些“大”。
    3. 数据多样性：不同的数据源，非结构化数据越来越多，需要进行清洗，整理，筛选等操作，变为结构数据。
    4. 价值密度低，由于数据采集的不及时，数据样本不全面，数据可能不连续等等，数据可能会失真，但当数据量达到一定规模，可以通过更多的数据达到更真实全面的反馈。

很多行业都会有大数据需求，譬如电信行业，互联网行业等等容易产生大量数据的行业，很多传统行业，譬如医药，教育，采矿，电力等等任何行业，都会有大数据需求。

随着业务的不断扩张和历史数据的不断增加，数据量的增长是持续的。
如果需要分析大数据，则可以Hadoop等开源大数据项目，或Yonghong Z-Suite等商业大数据BI工具。

不同行业的数据有不同的自身特点，还需要结合自身的行业知识才能把大数据转换为价值。

如何利用大数据

8. 怎样应用大数据

身边很多IT人对于大数据的新技术、新趋势都是兴趣满满，为程序员又迎来了一场春天，投身大数据领域，锻造新技能。今天就与你共同分享三个精准应用大数据的秘诀，助力你的业绩直线上升。

秘诀一：目标要明确
一个公司拥有再多的数据，也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据，了解到公司利用大数据可以达到什么目标，公司才有可能真正成功。在公司在发展过程中往往也会面临诸多选择，也只有目标设定明确了，才能够缩小选择范围聚焦精力去发展。企业应时刻保持头脑清醒，朝着自己定好的目标前进，才有助于公司进行持续长久的良好运作。
其实有时候，利用太复杂先进的数据分析工具往往也会带来很多问题，不过如果我们能够依靠分析大量的数据来得到的结果，那就不用怀疑了，你就干吧，至少方向肯定是对的。

秘诀二：要谨慎对待数据
有时，企业是没有能力去获取数据的，也就没法用数据去解决问题。就算公司获得了一些数据，他们往往也不清楚这些数据能否解决他们的问题。
在这一点上，建议是，一个数据是否有效，是否能帮助公司解决问题，建议询问数据小组的意见。
有时候，重要的数据可能会被忽略。比如，当为某家企业搭建交通情况模型时，大家普遍认为天气是预测交通状况的重要因素。后来研究结果却显示，影响那个地区交通状况的是当地学校的放学时间。当学生们放学时，堵车情况尤为严重。
负责人说，从一开始的假设来看，我们并没有预见到会得出这样的结论，所以，应谨慎认真对待数据，数据会真实客观地告诉你想要的答案。有时，数据能告诉你的会让你大吃一惊。
秘诀三：要避免得出错误的结论
由于人为主观因素和不相关数据的干扰，有时候得出的结论往往是错误的。
“不要让不相干的数据影响到整个结果，有相当一部分的数据并不重要，这些不相关的‘树’往往并不能代表整个‘森林’。如果使用了错误的数据，得出的结论往往也是错的。”
数据选择上的错误会影响人们解决问题的过程，也会影响人们如何看待这些数据和结果。错误的数据选择可能影响到公司做出相关决策。