标题:
Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中
[打印本页]
作者:
look_w
时间:
2018-6-23 08:29
标题:
Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中
业务数据存储在各种格式和来源中。在将数据导入 IBM® InfoSphere BigInsights 分布式文件系统中之前,您必须:
确定想要通过分析回答哪些问题
识别数据来源的数据类型
使用最适合您的业务需要的工具和过程
可以在现有基础架构或数据仓库中使用 InfoSphere BigInsights,以原始格式导入数据和内容,或者可以导入大量静止(静态)数据或不断传入的活动数据(不断更新的数据)。在导入数据后,可以单独探究该数据或组合数据来完成探究和分析。
许多企业可能希望了解某个特定品牌或服务在社交媒体中流行度。为本教程提供的数据是一个 应用程序对互联网上的 “IBM Watson™” 短语的实例的搜索结果。此搜索已经在教程 “”(developerWorks,2012 年 6 月)中详细介绍。
您需要使用本教程中引用的数据,所以请在继续阅读后面的文章之前 它。
接受条款和条件,将文件 article_sampleData 保存到本地系统中。解压文件内容后,article_sampleData 文件夹包含文件 RDBMS_data.csv、blogs-data.txt、news-data.txt 和详细描述该数据输出的 README.txt。记下保存这些文件的位置,很快您就需要将它们上传到云中。
在本教程和本系列中的下一篇教程中,仅使用了该搜索所返回的新闻和博客数据。返回的数据经过了细微修改,以便仅包含 BoardReader 应用程序从博客和新闻源收集的信息子集。已删除帖子、新闻的完整文本/HTML 内容,以及一些元数据,以便让每个文件的大小变得容易管理。
现在查看该文件系统,创建一个将用来加载该数据的文件夹。
创建一个文件夹
打开 InfoSphere BigInsights Web 控制台。
从
Files
选项卡中搜索 hdfs 文件夹。(
备注
:hdfs 文件夹可能已打开。)
在 hdfs 文件夹中,导航到 user 文件夹并找到包含您的用户 ID 的特定文件夹。(
备注
:这个 ID 位于 IBM Analytics for Hadoop 启动页面上。)
单击 Flies 工具栏中的
Create directory
图标,以便在分布式文件系统中创建一个存储此数据的目录。
为您的目录命名。对于本教程,我们将它命名为 bi_sample_data。然后您应该具有以下目录结构:hdfs/user/[userID]/bi_sample_data。
现在您有一个目录来存储所有来源数据文件和应用程序结果。接下来将要加载该数据。
加载数据可以通过许多方式将数据加载到 BigInsights 中。但为了简便起见,本教程只使用了 BigInsights 中原生的 Upload 功能,该功能仅推荐用于较小的数据集(低于 2 GB)。对于较大的数据集,可以使用 Distributed File Copy 应用程序。(请参见 IBM 知识中心,了解 的更多信息)。
确保您在 bi_sample_directory 文件夹中。
在 Files 工具栏中,单击
Upload
图标。
这将打开一个新的 “Upload files” 窗口。
在 “Upload files” 窗口中,单击
Choose file
。
在您的本地文件系统中导航到您在本教程前面保存 blogs-data.txt 和 news-data.txt 文件的地方。
选择 blogs-data.txt 并上传该文件。
重复该过程,以便选择并上传 news-data.txt。
两个文件都在 “Upload files” 窗口中时,单击
Ok
。
导航回您的 bi_sample_data 文件夹,确保这些文件都在这里。(
备注
:您可以单击 Files 工具栏上的
Refresh
按钮来刷新视图。)
如果想要看看刚加载的内容,可以单击 blogs-data.txt 或 news-data.txt 文件。 files 目录右侧的窗口显示了该半结构化数据的快速采用。
欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)
Powered by Discuz! 7.0.0