R 是 Kaggle 中使用的最流行的工具R 是 Kaggle 参赛者最常使用的工具,与随后的 Matlab 和 SAS 拉开了很大差距。 显示了 Kaggle 上使用的最流行工具的条形图。
图 3. 图 2:Kaggle 参赛者使用的流行工具 R 是一种用于统计计算和绘图的开源编程语言和环境。编写 R 代码的最佳 IDE 是 RStudio。
R 工具的优势源于其灵活性和广泛的功能,但众所周知,它的底层内存模型效率低下。不幸的是,由于数据集很大,许多 Kaggle 比赛都需要处理大量内存。
要在比赛中取得成功,拥有一个能在项目的不同阶段之间来回迁移并测试它们的强大基础架构非常重要。使用简单的笔记本电脑在大部分情况下已行不通。所以,要解决这些 Kaggle 比赛中的大数据挑战,可在 IBM Bluemix 分析服务中获取该基础架构。
为什么使用 dashDB?IBM dashDB 是云上的一个强大的数据仓库解决方案,它提供了强大的分析功能。
IBM dashDB 不仅提供了数据存储空间,还全面集成了 R。这种集成具有强大的威力,因为它提供了一个完全嵌入在 Web 浏览器中的完整 R Studio 实例,是最佳的 R IDE。IBM dashDB 利用您最喜欢的工具以最佳方式解决所有分析挑战。
在尝试解决 Kaggle 比赛挑战时,需要提供合适的位置来存储数据,还需要拥有合适的软件来分析它。IBM dashDB 为二者提供了解决方案。这些解决方案都包含在云中,而且为了提供最佳性能而进行了优化,以便您可以将精力集中在算法上,而不是处理基础架构。
第 1 步. 从 Github 复制存储库单击上面的获取代码按钮从 导出源代码。单击 Download ZIP 获取整个项目。
第 2 步. 在 Bluemix 上创建一个 dashDB 实例- (或 )。
- 转到仪表板并下滚到 Services。
- 单击 Add a service or API。
 - 单击 Big Data 类别或使用 Catalog 选项卡顶部的搜索框找到 dashDB 服务。

- 单击 dashDB。然后完成以下字段:
- 在 App 字段中,选择 Leave unbound。
- 保留 Service Name 字段的默认值。
- 在 Selected Plan 字段中,选择 Entry。如果需要,可以在未来更新它。
- 单击 Create。

几秒之后,您的 Bluemix 仪表板中将会有一个 dashDB 实例。
第 3 步. 将数据加载到 dashDB 中在大多数 Kaggle 比赛中,您都会获得两个数据集:
- 一个包含正确或预期的输出的培训数据集。这个数据集被用来培训您的模型的数据集。
- 一个用于测试您模型的预测能力和健全性的测试数据集。
可在 中下载的 Github 上的存储库中的 data 目录中找到这些数据集。
要将这些数据集加载到 dashDB 中:
- 可单击 IBM Bluemix 仪表板中的 dashDB 服务,然后单击 Launch。
 - 在打开的 IBM dashDB 管理控制台中,单击 Load your data 按钮。
- 在 File Name 字段中,单击 Browse files 找到 test.csv 文件,保留所有选项设置为默认值。单击 Load File,然后单击 Next。

- 在 Choose the target 选项卡中,选择 Create a new table and load,然后单击 Finish。几秒之后,您的数据就会加载到数据库中。
- 对 train.csv 数据集重复这些步骤。
|