为机器学习模型提取相关特征在数据科学家理解文本数据中所包含的信息后,可决定稍后要用于分析的文本特征。例如,数据科学家可能想要根据车辆事故原因(如“由刹车设备导致的事故”或“由发动机导致的事故”)对车辆事故报告进行分类。通过 Content Miner,数据科学家可以使用组件名称进行分类。例如,“ABS”或“刹车片”之类的关键字可能与归入“由刹车设备导致的事故”一类的文本数据密切关联。因此,数据科学家可将组件名称注册到 Watson Explorer 的用户字典注释器中。根据注释器设置,Watson Explorer 可注释关键字,并将注释结果转换为向量化数据。向量化数据称为“特征”,此流程即“特征提取”流程。这些特征可用作使用机器学习的预测模型的输入。 训练、部署、评估和使用机器学习模型DSX Local 为数据科学家提供了团队合作的机会。Watson Explorer for Data Science Experience 利用非结构化数据分析和可视化扩展了 DSX Local 的功能,进而满足团队新人和专家的不同需求。
DSX Notebook 是面向具有编程背景的数据科学家的分析工具。可在 Notebook 上使用 Python API 调用 Watson Explorer 的功能(图 4)。此 API 还支持数据科学家使用特征提取(图 5)功能。因此,数据科学家可使用生成的向量化数据来创建预测模型(图 6)。最后,可将模型部署至模型管理和部署服务器,以便进行联机评分。 图 4.可从 Notebook 将 Watson Explorer 的功能作为 Python 库调用 图 5.WEX Feature Extractor 可将文本数据转化为向量化数据 图 6.使用 Watson Explorer 生成的向量化数据创建逻辑回归模型