首页
|
新闻
|
新品
|
文库
|
方案
|
视频
|
下载
|
商城
|
开发板
|
数据中心
|
座谈新版
|
培训
|
工具
|
博客
|
论坛
|
百科
|
GEC
|
活动
|
主题月
|
电子展
注册
登录
论坛
博客
搜索
帮助
导航
默认风格
uchome
discuz6
GreenM
»
MCU 单片机技术
»
X86
» Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)
返回列表
回复
发帖
发新话题
发布投票
发布悬赏
发布辩论
发布活动
发布视频
发布商品
Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)
发短消息
加为好友
look_w
当前离线
UID
1066743
帖子
8283
精华
0
积分
4142
阅读权限
90
在线时间
233 小时
注册时间
2017-6-23
最后登录
2019-5-18
论坛元老
UID
1066743
1
#
打印
字体大小:
t
T
look_w
发表于 2018-6-23 08:31
|
只看该作者
Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)
使用子工作簿来调整数据通常,在分析和探究数据之前,必须调整它的格式和内容。为此,可从每个主要工作簿创建子工作簿并删除不想要的列,以便细化数据量和类型。
除了保护原始数据,主要工作簿还会设置数据格式(包括各列的数据类型)。因此,必须创建子工作簿在其中修改您的数据。子工作簿从其主要工作簿中继承其格式和数据,但可以调整它们的属性,以便仅显示需要的数据。
从 BigInsights Web 控制台的 BigSheets 选项卡,选择
MyWatsonNews
主要工作簿。
单击
Build new workbook
。将使用名称 MyWatsonNews(1) 创建一个新工作簿。
单击
Edit
图标,将该工作簿命名为 MyWatsonNewsRevised,然后单击绿色勾号。
要在 Web 浏览器中查看 A 到 H 列,可以单击
Fit column(s)
。
对于本分析,不需要 IsAdult 列(列 E)。要删除它,可以单击列标题中的向下箭头,然后选择
Remove
。
备注
:从子工作簿删除列时,只会删除该子工作簿中的数据。这个子工作簿所基于的主要工作簿始终包含它加载的原始数据。如果在以后的分析中想要 IsAdult 数据,可以根据 MyWatsonNews 主要工作簿创建另一个子工作簿。
还有一些列是本分析不需要的。可以使用上一步中的相同方法删除它们,一次删除一个。要同时删除多列:
单击任何列标题中的向下箭头,然后选择
Organize Columns
。
单击随后的列旁边的红色 x 标记,以便将它们标记为应删除:
Crawled
Inserted
MoveoverUrl
PostSize
单击绿色勾号以删除这些列。
备注
:如果意外删除了比想要的更多的列,可单击
Undo
撤销上一个操作。
单击
Fit column(s)
来调整剩余的列。
单击
Save
,然后可以选择
Save & Exit
来保存并退出该工作簿。如果看到一个 Save workbook 窗口,那么可以在保存工作簿时输入或不输入描述。
在提示消息 “This workbook has never been run” 时,可以选择 Run 来运行它或选择 Close 来关闭此消息。单击
Run
。
可以在窗口的右上角看到一个进度指示器。
目前为止,您处理了 Watson 和内部 IBM 数据的子集。BigSheets 仅在内存中保留有限数量的行。右下角会显示一条消息,指示您看到的仅是 50 行数据的模拟采样。在运行该数据时,向整个数据集应用您自上次保存工作簿以来所做的所有更改。进度栏监视着作业的进度。在幕后,Pig 编写了初始 MapReduce 作业的脚本。运行时性能依赖于与您的数据集合关联的数据量,以及可用的系统资源。
现在,从 MyWatsonBlogs 主要工作簿创建一个子工作簿,并删除您的分析中不需要的列。
单击
Workbooks
链接返回到显示所有工作簿的页面。
选择 MyWatsonBlogs 主要工作簿,然后单击
Build new workbook
。会使用名称 MyWatsonBlogs(1) 创建一个新工作簿。
单击
Edit
图标来重命名新的子工作簿,输入 MyWatsonBlogsRevised,然后单击绿色勾号。
使用
Organize Columns
函数删除以下列:
Crawled
Inserted
IsAdult
PostSize
记住选择 Organize Columns 窗口中的绿色勾号。现在 MyWatsonNewsRevised 和 MyWatsonBlogsRevised 工作簿包含相同的列。要合并工作簿,每个工作簿必须包含相同的数据类型和列,或者
模式
。
保存并退出工作簿。
提示时,单击
Run
应用您对子工作簿所做的更改。
收藏
分享
评分
回复
引用
订阅
TOP
返回列表
电商论坛
Pine A64
资料下载
方案分享
FAQ
行业应用
消费电子
便携式设备
医疗电子
汽车电子
工业控制
热门技术
智能可穿戴
3D打印
智能家居
综合设计
示波器技术
存储器
电子制造
计算机和外设
软件开发
分立器件
传感器技术
无源元件
资料共享
PCB综合技术
综合技术交流
EDA
MCU 单片机技术
ST MCU
Freescale MCU
NXP MCU
新唐 MCU
MIPS
X86
ARM
PowerPC
DSP技术
嵌入式技术
FPGA/CPLD可编程逻辑
模拟电路
数字电路
富士通半导体FRAM 铁电存储器“免费样片”使用心得
电源与功率管理
LED技术
测试测量
通信技术
3G
无线技术
微波在线
综合交流区
职场驿站
活动专区
在线座谈交流区
紧缺人才培训课程交流区
意见和建议