Board logo

标题: 为复杂数据集开发预测分析模型(1) [打印本页]

作者: look_w    时间: 2018-7-7 13:50     标题: 为复杂数据集开发预测分析模型(1)

为了演示 dashDB 功能,您需要了解 Kaggle 数据挖掘比赛,以及如何使用 IBM Bluemix™ 和 dashDB        中提供的分析服务来充分参与到比赛中。即使您没有计划参加 Kaggle 比赛,也可以更深入地了解 dashDB 中的分析服务。
Kaggle 是一个数据科学家社区,科学家在该社区中合作解决复杂的数据科学问题。Kaggle 提供了公开的数据科学挑战,许多公司在这些挑战中提交了他们的数据。挑战(参见 图 1)发布给来自全球的统计学家和数据挖掘者,让他们比赛开发最佳的预测模型。任何人都可参与解决这些挑战,成功者将获得非常有诱惑力的奖励。
图 1. 示例 Kaggle 比赛构建您的应用程序需要做的准备工作
解决        Kaggle Titanic 挑战在本教程中,我们将使用 Kaggle 。2,000 多人参加了这次比赛,该比赛是一个开始掌握数据挖掘的非常流行的用例。
本案例分析引用了 1912 年英国皇家邮轮泰坦尼克号的沉没。泰坦尼克号的灾难因为与历史上 “优先抢救妇女儿童”        的海商法有关联而出名。因为泰坦尼克号没有配备足够数量的救生艇,所以只有极少数乘客得以幸存。
在这次挑战赛中,您需要分析哪些类型的人可能幸存。将使用一个决策树来确定泰坦尼克号的乘客是否会幸存。该决策树是根据输入参数而动态生成的。图 2 显示了将创建的一个决策树的示例。
图 2. 示例决策树
本教程的输出包括:
Kaggle 比赛需要的一些高级工具。在本教程中,我们将解释哪些工具最好以及它们为什么是最好的。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0