首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

让 DevOps 适合认知和人工智能系统-3

让 DevOps 适合认知和人工智能系统-3

训练方法概览一种有用的比喻是将 AI                系统想象为一个大学生。大学生从家庭作业中学习某个主题,作业的答案位于书的背面。学生不断解答问题并查找答案,同时改进他们对主题材料的思维模式。在期中考试之前,学生针对一组单独的问题进行练习测验并评比成绩,但这些问题通常与他们的家庭作业类似。最后,学生参加期中考试,解答他们以前从未见过的问题。期中考试成绩是学生应用其知识的能力的最佳指标。在这个比喻中,家庭作业问题是训练集,练习测验是测试集,期中考试是盲集。
有关应获取多少数据的讨论和相关示例,请参阅文章“”有关为什么整理训练数据要花如此长时间的一些思考,请参阅“”。
训练一种自然语言处理系统的初始流程训练基于 NLP                的系统的初始流程包含的步骤已在下图中描绘并在下文列出。更确切地讲,下图描绘了训练实体提取模型时涉及的步骤,这些模型代表着我们之前讨论的认知或 AI                系统的一个方面。
图 5. 针对实体提取的 NLP 训练过程
  • 类型系统设计。定义和组织需要提取的实体和关系。这些实体和关系基于业务目标,可以使用行业标准或基于组织的本体论作为基础。
  • 语料库导入(包括预处理)。这一步将描述如何收集和导入代表性的自然语言文本样本,需要使用 NLP                    来处理这些样本,从而提取信息。这一步还包括预处理用作事实库的文档所涉及的任务,包括格式转换和分块。
  • 词典创建。定义由相似词汇组成的词典。该词典类似于一个同义词词典。例如,如果您在寻找货币的概念,可以定义一个货币词典。在这个货币词典中,可以放入与货币相关的词汇,比如“美元”、“美分”和“USD”。
  • 预注释。对语料库应用预定义的词典和其他任何规则。这会创建一个训练数据基准。
  • 人工注释。人工评审来自语料库的文档。因为文档已依据词典和规则进行了预注释,所以它们已包含注释。评审人员需要更正所有注释错了的数据,并添加系统缺少的任何注释。这使得系统能够拥有准确的训练数据来实现下一步,还为人们提供了一种教会系统何时基于上下文来标记实体的方式。在不同的人工注释员先后注释重叠的文档时,您可能还需要解决训练数据冲突问题。需要有一个人来担任评审人员,查看注释员间一致性                    (IAA) 评分,并解决已注释文档中的冲突。
  • 训练机器学习模型。在这一步中,将会实际训练基于机器学习的注释模型,该模型可以提取实体、关系和属性。这一步可能涉及到识别正确的特征集。如果您使用了一个类似                    IBM Watson Knowledge Studio                    这样的工具,它会自动为您执行特征选择任务。在这一步中,将会选择想要用来训练机器学习模型的文档集。还要指定用作训练数据、测试数据和盲数据的文档比例。只有通过批准或判断后成为事实库的文档,才能用来训练机器学习注释器。
  • 识别和创建规则模型。定义确定性规则来注释语料库中出现的实体。这些规则至少应在大部分时间是准确的。这些规则不需要完全准确的原因有两个:NLP                    永远不会达到完全准确;而且您有机会在这些规则不适用时,在以后的步骤中调整训练数据。
  • 模型分析。在这一步中,将会评审训练的模型的性能,确定是否必须对注释器执行任何调整,以改进它在文档中查找有效的实体提及、关系提及和相互引用的能力。评审指标以确定系统的准确率。两个重要的指标是                    F-measure 和准确率,下面将会探讨它们。通常应该分析一个混淆矩阵中提供的分析统计数据,包括找回率、精确率和 F1                    分数。然后可以根据分析结果,执行一些步骤来提升机器学习注释器性能。
完成分析后,继续运行该周期。使用分析的输出来确定后续步骤,比如修正类型系统并向训练语料库添加更多数据。
返回列表