让 DevOps 适合认知和人工智能系统-2

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-3-17 12:07 | 只看该作者

让 DevOps 适合认知和人工智能系统-2

训练生命周期为了理解训练 AI 系统的生命周期，我们将考虑 (CRISP-DM)。CRISP-DM 提供了一种标准化的方法，我们可以采用该方法来创建支持和构成认知系统的各种类型的模型。生命周期模型（参见下图）包含 6 个阶段，箭头表明了各个阶段之间最重要和最频繁的依赖关系。阶段的顺序不必那么严格。根据 AI 任务或工作负载的类型，训练细节和步骤可能会有所不同，但基本原理和整体阶段保持不变。
图 3. CRISP-DM 生命周期模型

该流程的另一个大体视图类似于下图。在此流程中，我们提供了监控和采集周期中的反馈的附加步骤。这些重要步骤有助于我们评估该系统并不断改进它。
图 4. 显示了更多步骤的 CRISP-DM 生命周期模型

训练数据机器学习可以分为监督学习和无监督学习。区别在于是否为模型提供了它必须学会预测的答案。在监督式 ML             中，训练数据包含答案（称为“带标签的”数据）。这使得算法能预测生成特定答案的输入组合。一些最广泛使用的监督学习算法包括支持向量机、随机森林、线性回归、逻辑回归、朴素贝叶斯和神经网络（多层感知）。
在无监督 ML             中，训练数据是没有标签的，算法仅限于用来确定最相似数据分组。甚至在深度学习中，也需要使用带标签的数据集来训练模型，但特征工程步骤在很大程度上是自动化的。
强化学习也成为一种非常流行的方法，其中的模型或算法是通过一个反馈系统进行学习的。强化学习最常用于自动驾驶汽车、无人机和其他机器人应用程序中。
训练数据示例让我们考虑一个根据许多因素预测房屋销售价格的系统。当 ML 需要根据一系列输入值来预测输出时，需要有一系列的输入和带标签的输出。
面积（平方英尺）卧室数量卫生间数量英亩销售价格2000320.3250,0001500220.2200,000160021.51.2280,000
一条不错的经验规则是，将输入列的数量乘以 50，并提供与所得数量相同行数的数据作为带标签的训练数据。我们的示例有 4             个输入（面积、卧室数量、卫生间数量、英亩），所以要得到可靠的模型，需要 200 行训练数据。
现在让我们看看一个自然语言处理练习，其中需要从纯文本中提取某些类型的数据。训练数据包括多个文本段、要提取的数据类型和该数据的位置。
文本注释The quick brown fox jumped over the lazy                         dog.Animal[fox](16,19)
                     Animal[dog](41,44)The cow jumped over the moon.Animal[cow](4,7)
                        Location[moon](24,28)The dish ran away with the spoon.-
在这里，一条不错的经验规则是为每种类型提供 50 个正例和 50             个反例作为事实库。您希望训练数据中存在足够的差异，以便模型能学习您想要提取的所有模式。另外，收集和准备的事实库中训练与测试数据通常按 80:20             的比例来拆分（60:40 和 70:20:10             等其他比例很常见）。将更大比例的数据划分为测试数据，可确保模型性能得到更好的验证。如果训练数据太少，提供给模型学习的数据就更少，从而导致欠拟合（算法显示出较低的方差和较高的偏差）。当训练集的比例高于测试集时，就会导致过拟合（算法显示出较高的方差和较低的偏差）。过拟合和欠拟合都会导致模型在新数据集上获得糟糕的预测质量和性能。因此，选择有代表性的事实库对训练认知系统绝对至关重要。

收藏分享评分

回复引用

订阅 TOP

返回列表