训练机器学习模型。在这一步中,将会实际训练基于机器学习的注释模型,该模型可以提取实体、关系和属性。这一步可能涉及到识别正确的特征集。如果您使用了一个类似 IBM Watson Knowledge Studio 这样的工具,它会自动为您执行特征选择任务。在这一步中,将会选择想要用来训练机器学习模型的文档集。还要指定用作训练数据、测试数据和盲数据的文档比例。只有通过批准或判断后成为事实库的文档,才能用来训练机器学习注释器。
模型分析。在这一步中,将会评审训练的模型的性能,确定是否必须对注释器执行任何调整,以改进它在文档中查找有效的实体提及、关系提及和相互引用的能力。评审指标以确定系统的准确率。两个重要的指标是 F-measure 和准确率,下面将会探讨它们。通常应该分析一个混淆矩阵中提供的分析统计数据,包括找回率、精确率和 F1 分数。然后可以根据分析结果,执行一些步骤来提升机器学习注释器性能。