电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛

标题: 让 DevOps 适合认知和人工智能系统-3 [打印本页]

作者: look_w 时间: 2018-3-17 12:08 标题: 让 DevOps 适合认知和人工智能系统-3

训练方法概览一种有用的比喻是将 AI 系统想象为一个大学生。大学生从家庭作业中学习某个主题，作业的答案位于书的背面。学生不断解答问题并查找答案，同时改进他们对主题材料的思维模式。在期中考试之前，学生针对一组单独的问题进行练习测验并评比成绩，但这些问题通常与他们的家庭作业类似。最后，学生参加期中考试，解答他们以前从未见过的问题。期中考试成绩是学生应用其知识的能力的最佳指标。在这个比喻中，家庭作业问题是训练集，练习测验是测试集，期中考试是盲集。
有关应获取多少数据的讨论和相关示例，请参阅文章“”有关为什么整理训练数据要花如此长时间的一些思考，请参阅“”。
训练一种自然语言处理系统的初始流程训练基于 NLP 的系统的初始流程包含的步骤已在下图中描绘并在下文列出。更确切地讲，下图描绘了训练实体提取模型时涉及的步骤，这些模型代表着我们之前讨论的认知或 AI 系统的一个方面。
图 5. 针对实体提取的 NLP 训练过程

类型系统设计。定义和组织需要提取的实体和关系。这些实体和关系基于业务目标，可以使用行业标准或基于组织的本体论作为基础。
语料库导入（包括预处理）。这一步将描述如何收集和导入代表性的自然语言文本样本，需要使用 NLP 来处理这些样本，从而提取信息。这一步还包括预处理用作事实库的文档所涉及的任务，包括格式转换和分块。
词典创建。定义由相似词汇组成的词典。该词典类似于一个同义词词典。例如，如果您在寻找货币的概念，可以定义一个货币词典。在这个货币词典中，可以放入与货币相关的词汇，比如“美元”、“美分”和“USD”。
预注释。对语料库应用预定义的词典和其他任何规则。这会创建一个训练数据基准。
人工注释。人工评审来自语料库的文档。因为文档已依据词典和规则进行了预注释，所以它们已包含注释。评审人员需要更正所有注释错了的数据，并添加系统缺少的任何注释。这使得系统能够拥有准确的训练数据来实现下一步，还为人们提供了一种教会系统何时基于上下文来标记实体的方式。在不同的人工注释员先后注释重叠的文档时，您可能还需要解决训练数据冲突问题。需要有一个人来担任评审人员，查看注释员间一致性 (IAA) 评分，并解决已注释文档中的冲突。
训练机器学习模型。在这一步中，将会实际训练基于机器学习的注释模型，该模型可以提取实体、关系和属性。这一步可能涉及到识别正确的特征集。如果您使用了一个类似 IBM Watson Knowledge Studio 这样的工具，它会自动为您执行特征选择任务。在这一步中，将会选择想要用来训练机器学习模型的文档集。还要指定用作训练数据、测试数据和盲数据的文档比例。只有通过批准或判断后成为事实库的文档，才能用来训练机器学习注释器。
识别和创建规则模型。定义确定性规则来注释语料库中出现的实体。这些规则至少应在大部分时间是准确的。这些规则不需要完全准确的原因有两个：NLP 永远不会达到完全准确；而且您有机会在这些规则不适用时，在以后的步骤中调整训练数据。
模型分析。在这一步中，将会评审训练的模型的性能，确定是否必须对注释器执行任何调整，以改进它在文档中查找有效的实体提及、关系提及和相互引用的能力。评审指标以确定系统的准确率。两个重要的指标是 F-measure 和准确率，下面将会探讨它们。通常应该分析一个混淆矩阵中提供的分析统计数据，包括找回率、精确率和 F1 分数。然后可以根据分析结果，执行一些步骤来提升机器学习注释器性能。

完成分析后，继续运行该周期。使用分析的输出来确定后续步骤，比如修正类型系统并向训练语料库添加更多数据。

欢迎光临电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)