首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

为复杂数据集开发预测分析模型(1)

为复杂数据集开发预测分析模型(1)

为了演示 dashDB 功能,您需要了解 Kaggle 数据挖掘比赛,以及如何使用 IBM Bluemix™ 和 dashDB        中提供的分析服务来充分参与到比赛中。即使您没有计划参加 Kaggle 比赛,也可以更深入地了解 dashDB 中的分析服务。
Kaggle 是一个数据科学家社区,科学家在该社区中合作解决复杂的数据科学问题。Kaggle 提供了公开的数据科学挑战,许多公司在这些挑战中提交了他们的数据。挑战(参见 图 1)发布给来自全球的统计学家和数据挖掘者,让他们比赛开发最佳的预测模型。任何人都可参与解决这些挑战,成功者将获得非常有诱惑力的奖励。
图 1. 示例 Kaggle 比赛构建您的应用程序需要做的准备工作
  • 一个  帐户
  • 熟悉 R

解决        Kaggle Titanic 挑战在本教程中,我们将使用 Kaggle 。2,000 多人参加了这次比赛,该比赛是一个开始掌握数据挖掘的非常流行的用例。
本案例分析引用了 1912 年英国皇家邮轮泰坦尼克号的沉没。泰坦尼克号的灾难因为与历史上 “优先抢救妇女儿童”        的海商法有关联而出名。因为泰坦尼克号没有配备足够数量的救生艇,所以只有极少数乘客得以幸存。
在这次挑战赛中,您需要分析哪些类型的人可能幸存。将使用一个决策树来确定泰坦尼克号的乘客是否会幸存。该决策树是根据输入参数而动态生成的。图 2 显示了将创建的一个决策树的示例。
图 2. 示例决策树
本教程的输出包括:
  • 一个要提交给 Kaggle 挑战赛来测试您分析的准确性的平面文件
  • 一个解释一些假设的           文档
  • 一个 Shiny 应用程序
Kaggle 比赛需要的一些高级工具。在本教程中,我们将解释哪些工具最好以及它们为什么是最好的。
返回列表