身处大数据时代，不妨了解一下“小数据”的重要性

大家好，欢迎来到IT知识分享网。

对于小型企业来说，收集小数据更为实用，同时仍然足以进行分析。

一直以来，当我们听到“人工智能”这个术语时，会很自然地想到诸如“大数据”、“信息筛选”和“特征标记”等概念。

的确，在过去的几年里，许多人工智能的突破在很大程度上都是依赖于大数据。例如，得益于ImageNet数据集（内含数以百万计的图像，并被人工分为数千个类别）的发展，图像分类应用在过去十年中呈指数式增长。

然而，对于企业来说，除了要掌握大数据时代的脉搏，了解“小数据”的力量也很重要。

近年来，我们可以看到很多关于小数据应用的例子，最典型的就是“转移学习”（Transfer Learning）。转移学习也被称为“微调”，其原理是通过在大数据集上训练出一个模型，然后用较小的数据集重新对它进行调试。

关于“小数据”的应用有一个经典的案例。在丹麦首都哥本哈根有一家中高档餐厅Sokkelund Café & Brasserie（以下简称：Sokkelund），加州大学的Christian Nielsen和Morten Lund对其进行了长达7年的跟踪研究。

数据显示，以2009年的起点，该餐厅有40个座位，年营业额为110万美元。2017年，该餐厅增加了34个座位，营业额也猛增到610万美元。整个转变切实反映了如何将一个餐厅从一个传统的业务模式转变为一个数据驱动的“小数据餐厅”。

具体来说，在业务数字化的过程中，Sokkelund选择依靠餐厅产生的更小、更容易管理的数据。这涉及到以下几个方面：

客户数据，如预订信息、购买的饭菜、每个座位的营业额、以及客户流量的季节性变化。所有这些都可以很容易地获得；

供应链信息也被精简，变得更容易管理；
能源和水的消耗；
员工安排的数字化；
社交媒体和数字媒体的应用。

所有这些数据都很容易访问、管理和操作，不需要大规模的服务器和昂贵的人工智能算法。通过跟踪上面列出的数据，Sokkelund能够对其业务增长做出渐进的决定，并及时采取行动。

但这并不是说小数据不能更智能化，企业也有可能使用复杂的算法使小数据的应用更进一步。例如，印度的研究人员利用ImageNet分类器的大数据，仅用45个训练实例就训练出一个旨在定位超声波图像中肾脏的模型。

由于小数据具有成本效益，对于小型企业来说，收集小数据更为实用，同时仍然足以进行分析。在数据保护立法和消费者隐私意识提高的情况下，企业访问大数据可能会越来越困难，考虑到这一点，更多的企业应该开始着手准备加强对小数据的理解和应用。

▍什么是小数据？

相对于大数据侧重于个人和消费者产生的大量信息，供企业查看和人工智能程序筛选，小数据是由规模更大的、易于获取的、一小块一小块的信息组成的，人类可以通过解读这些信息来获得可操作的见解。

根据Gartner的分析，到2025年，多达70%的企业将把重点从大数据转向小数据和宽数据（wide data ）。与小数据一样，宽数据依赖于企业将其产生的一系列不同来源的数据联系在一起（如网站流量、商店访问、社交媒体参与和电话咨询）。

而且大数据由于其非结构化的特性、大量所需的存储空间，以及常常需要存储在 SQL 服务器中，导致小型企业难以触及。但小数据就具有很大的吸引力，因为它可以随时分类，不需要合并表格。它也可以存储在本地PC或数据库中，以方便访问。

然而，小数据也给企业也带来了一些挑战，网络安全是一个值得关注的领域。集中存储的数据集可能更容易被黑客窃取，所以企业必须利用适当级别的网络安全来保护其客户的隐私，并保持其机密数据的安全。

此外，虽然小数据可以帮助企业获得可操作的见解，但由于可用数据量较小，出现误解和偏见的危险也更大。

▍单样本学习

从人类和机器的学习能力来看，我们可以发现人类通常能够从单一的例子中学习，并拥有高度准确地区分新物体的能力，但是同样的特性对于机器来说却很难掌握。

深度神经网络（Deep Neural Network，DNN）需要大量的数据来训练和归纳其结果。对于那些没有海量数据可以利用的企业来说，这可能是一个缺点。然而，相应的解决方案也已经有了，那就是借助单样本学习（One-shot learning）用极小的数据集来训练神经网络。

这意味着，通过分析一个大数据集，单样本学习将从其过程中学习，并在明显较小的甚至是单一的数据上重复这些过程。这对那些没有足够客户流流的小企业来说肯定是有用的，因为它们没法调用人工智能来产生可操作的见解。简单地说，单样本学习只需要一个大数据集，将其过程应用于后续的小数据集。

近年来，我们已经看到了很多单样本学习的例子，其中最常见的是护照扫描仪。这种扫描仪的任务是从护照图像中识别出你的脸——这是一张它从未接触过的照片。

这种技术也可以被训练成从极小的客户数据样本中学习，比如过去的购买行为。

▍因果人工智能

除了借助单样本学习外，小数据也需要更多量身定制的人工智能系统。因果人工智能（Causal AI）代表了人工智能的下一个前沿领域，这项技术已经被开发出来，以类似于人类的方式来推理世界。虽然我们可以从极小的数据集中学习，但因果人工智能也被开发出来做同样的事情。

从技术上讲，得益于数据发现算法（data discovery algorithms），因果人工智能模型可以从极小的数据点中学习。数据发现算法是一类新颖的算法，旨在像人类一样通过非常有限的观察来识别重要信息。

另外，因果人工智能还可以使人类与算法分享他们自己的见解和预先存在的知识，这可以成为一种创新的方式，在间接数据并不正式存在的情况下生成间接数据。

从商业角度来说，这意味着因果人工智能算法可以通过一系列不同来源的小数据来识别典型增强现实（AR）无法解决的重复性主题。

随着技术的不断涌现，我们可能会看到因果人工智能通过企业在一系列接触点上产生的丰富信息，为营销人员确定更多的消费者认知。这可以为小数据模型注入新的活力，并为企业配备一种更易于管理的方法来组织他们的数据。

▍结语

虽然人人都在谈论大数据，但在数据保护和消费者隐私意识加强的历史潮流中，小数据可能会成为未来主导企业运营的一个重要部分。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/62232.html

身处大数据时代，不妨了解一下“小数据”的重要性

相关推荐

发表回复