首页
|
新闻
|
新品
|
文库
|
方案
|
视频
|
下载
|
商城
|
开发板
|
数据中心
|
座谈新版
|
培训
|
工具
|
博客
|
论坛
|
百科
|
GEC
|
活动
|
主题月
|
电子展
注册
登录
论坛
博客
搜索
帮助
导航
默认风格
uchome
discuz6
GreenM
»
MCU 单片机技术
»
X86
» Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中
返回列表
回复
发帖
发新话题
发布投票
发布悬赏
发布辩论
发布活动
发布视频
发布商品
Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中
发短消息
加为好友
look_w
当前离线
UID
1066743
帖子
8283
精华
0
积分
4142
阅读权限
90
在线时间
233 小时
注册时间
2017-6-23
最后登录
2019-5-18
论坛元老
UID
1066743
1
#
打印
字体大小:
t
T
look_w
发表于 2018-6-23 08:29
|
只看该作者
Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中
业务数据存储在各种格式和来源中。在将数据导入 IBM® InfoSphere BigInsights 分布式文件系统中之前,您必须:
确定想要通过分析回答哪些问题
识别数据来源的数据类型
使用最适合您的业务需要的工具和过程
可以在现有基础架构或数据仓库中使用 InfoSphere BigInsights,以原始格式导入数据和内容,或者可以导入大量静止(静态)数据或不断传入的活动数据(不断更新的数据)。在导入数据后,可以单独探究该数据或组合数据来完成探究和分析。
许多企业可能希望了解某个特定品牌或服务在社交媒体中流行度。为本教程提供的数据是一个 应用程序对互联网上的 “IBM Watson™” 短语的实例的搜索结果。此搜索已经在教程 “”(developerWorks,2012 年 6 月)中详细介绍。
您需要使用本教程中引用的数据,所以请在继续阅读后面的文章之前 它。
接受条款和条件,将文件 article_sampleData 保存到本地系统中。解压文件内容后,article_sampleData 文件夹包含文件 RDBMS_data.csv、blogs-data.txt、news-data.txt 和详细描述该数据输出的 README.txt。记下保存这些文件的位置,很快您就需要将它们上传到云中。
在本教程和本系列中的下一篇教程中,仅使用了该搜索所返回的新闻和博客数据。返回的数据经过了细微修改,以便仅包含 BoardReader 应用程序从博客和新闻源收集的信息子集。已删除帖子、新闻的完整文本/HTML 内容,以及一些元数据,以便让每个文件的大小变得容易管理。
现在查看该文件系统,创建一个将用来加载该数据的文件夹。
创建一个文件夹
打开 InfoSphere BigInsights Web 控制台。
从
Files
选项卡中搜索 hdfs 文件夹。(
备注
:hdfs 文件夹可能已打开。)
在 hdfs 文件夹中,导航到 user 文件夹并找到包含您的用户 ID 的特定文件夹。(
备注
:这个 ID 位于 IBM Analytics for Hadoop 启动页面上。)
单击 Flies 工具栏中的
Create directory
图标,以便在分布式文件系统中创建一个存储此数据的目录。
为您的目录命名。对于本教程,我们将它命名为 bi_sample_data。然后您应该具有以下目录结构:hdfs/user/[userID]/bi_sample_data。
现在您有一个目录来存储所有来源数据文件和应用程序结果。接下来将要加载该数据。
加载数据可以通过许多方式将数据加载到 BigInsights 中。但为了简便起见,本教程只使用了 BigInsights 中原生的 Upload 功能,该功能仅推荐用于较小的数据集(低于 2 GB)。对于较大的数据集,可以使用 Distributed File Copy 应用程序。(请参见 IBM 知识中心,了解 的更多信息)。
确保您在 bi_sample_directory 文件夹中。
在 Files 工具栏中,单击
Upload
图标。
这将打开一个新的 “Upload files” 窗口。
在 “Upload files” 窗口中,单击
Choose file
。
在您的本地文件系统中导航到您在本教程前面保存 blogs-data.txt 和 news-data.txt 文件的地方。
选择 blogs-data.txt 并上传该文件。
重复该过程,以便选择并上传 news-data.txt。
两个文件都在 “Upload files” 窗口中时,单击
Ok
。
导航回您的 bi_sample_data 文件夹,确保这些文件都在这里。(
备注
:您可以单击 Files 工具栏上的
Refresh
按钮来刷新视图。)
如果想要看看刚加载的内容,可以单击 blogs-data.txt 或 news-data.txt 文件。 files 目录右侧的窗口显示了该半结构化数据的快速采用。
收藏
分享
评分
回复
引用
订阅
TOP
返回列表
电商论坛
Pine A64
资料下载
方案分享
FAQ
行业应用
消费电子
便携式设备
医疗电子
汽车电子
工业控制
热门技术
智能可穿戴
3D打印
智能家居
综合设计
示波器技术
存储器
电子制造
计算机和外设
软件开发
分立器件
传感器技术
无源元件
资料共享
PCB综合技术
综合技术交流
EDA
MCU 单片机技术
ST MCU
Freescale MCU
NXP MCU
新唐 MCU
MIPS
X86
ARM
PowerPC
DSP技术
嵌入式技术
FPGA/CPLD可编程逻辑
模拟电路
数字电路
富士通半导体FRAM 铁电存储器“免费样片”使用心得
电源与功率管理
LED技术
测试测量
通信技术
3G
无线技术
微波在线
综合交流区
职场驿站
活动专区
在线座谈交流区
紧缺人才培训课程交流区
意见和建议