为复杂数据集开发预测分析模型(1)

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-7-7 13:50 | 只看该作者

为复杂数据集开发预测分析模型(1)

为了演示 dashDB 功能，您需要了解 Kaggle 数据挖掘比赛，以及如何使用 IBM Bluemix™ 和 dashDB 中提供的分析服务来充分参与到比赛中。即使您没有计划参加 Kaggle 比赛，也可以更深入地了解 dashDB 中的分析服务。
Kaggle 是一个数据科学家社区，科学家在该社区中合作解决复杂的数据科学问题。Kaggle 提供了公开的数据科学挑战，许多公司在这些挑战中提交了他们的数据。挑战（参见图 1）发布给来自全球的统计学家和数据挖掘者，让他们比赛开发最佳的预测模型。任何人都可参与解决这些挑战，成功者将获得非常有诱惑力的奖励。
图 1. 示例 Kaggle 比赛

构建您的应用程序需要做的准备工作

一个帐户
熟悉 R

解决 Kaggle Titanic 挑战在本教程中，我们将使用 Kaggle 。2,000 多人参加了这次比赛，该比赛是一个开始掌握数据挖掘的非常流行的用例。
本案例分析引用了 1912 年英国皇家邮轮泰坦尼克号的沉没。泰坦尼克号的灾难因为与历史上 “优先抢救妇女儿童” 的海商法有关联而出名。因为泰坦尼克号没有配备足够数量的救生艇，所以只有极少数乘客得以幸存。

在这次挑战赛中，您需要分析哪些类型的人可能幸存。将使用一个决策树来确定泰坦尼克号的乘客是否会幸存。该决策树是根据输入参数而动态生成的。图 2 显示了将创建的一个决策树的示例。
图 2. 示例决策树

本教程的输出包括：

一个要提交给 Kaggle 挑战赛来测试您分析的准确性的平面文件
一个解释一些假设的文档
一个 Shiny 应用程序

Kaggle 比赛需要的一些高级工具。在本教程中，我们将解释哪些工具最好以及它们为什么是最好的。

收藏分享评分

回复引用

订阅 TOP

返回列表