标题:
Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)
[打印本页]
作者:
look_w
时间:
2018-6-23 08:31
标题:
Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)
使用子工作簿来调整数据通常,在分析和探究数据之前,必须调整它的格式和内容。为此,可从每个主要工作簿创建子工作簿并删除不想要的列,以便细化数据量和类型。
除了保护原始数据,主要工作簿还会设置数据格式(包括各列的数据类型)。因此,必须创建子工作簿在其中修改您的数据。子工作簿从其主要工作簿中继承其格式和数据,但可以调整它们的属性,以便仅显示需要的数据。
从 BigInsights Web 控制台的 BigSheets 选项卡,选择
MyWatsonNews
主要工作簿。
单击
Build new workbook
。将使用名称 MyWatsonNews(1) 创建一个新工作簿。
单击
Edit
图标,将该工作簿命名为 MyWatsonNewsRevised,然后单击绿色勾号。
要在 Web 浏览器中查看 A 到 H 列,可以单击
Fit column(s)
。
对于本分析,不需要 IsAdult 列(列 E)。要删除它,可以单击列标题中的向下箭头,然后选择
Remove
。
备注
:从子工作簿删除列时,只会删除该子工作簿中的数据。这个子工作簿所基于的主要工作簿始终包含它加载的原始数据。如果在以后的分析中想要 IsAdult 数据,可以根据 MyWatsonNews 主要工作簿创建另一个子工作簿。
还有一些列是本分析不需要的。可以使用上一步中的相同方法删除它们,一次删除一个。要同时删除多列:
单击任何列标题中的向下箭头,然后选择
Organize Columns
。
单击随后的列旁边的红色 x 标记,以便将它们标记为应删除:
Crawled
Inserted
MoveoverUrl
PostSize
单击绿色勾号以删除这些列。
备注
:如果意外删除了比想要的更多的列,可单击
Undo
撤销上一个操作。
单击
Fit column(s)
来调整剩余的列。
单击
Save
,然后可以选择
Save & Exit
来保存并退出该工作簿。如果看到一个 Save workbook 窗口,那么可以在保存工作簿时输入或不输入描述。
在提示消息 “This workbook has never been run” 时,可以选择 Run 来运行它或选择 Close 来关闭此消息。单击
Run
。
可以在窗口的右上角看到一个进度指示器。
目前为止,您处理了 Watson 和内部 IBM 数据的子集。BigSheets 仅在内存中保留有限数量的行。右下角会显示一条消息,指示您看到的仅是 50 行数据的模拟采样。在运行该数据时,向整个数据集应用您自上次保存工作簿以来所做的所有更改。进度栏监视着作业的进度。在幕后,Pig 编写了初始 MapReduce 作业的脚本。运行时性能依赖于与您的数据集合关联的数据量,以及可用的系统资源。
现在,从 MyWatsonBlogs 主要工作簿创建一个子工作簿,并删除您的分析中不需要的列。
单击
Workbooks
链接返回到显示所有工作簿的页面。
选择 MyWatsonBlogs 主要工作簿,然后单击
Build new workbook
。会使用名称 MyWatsonBlogs(1) 创建一个新工作簿。
单击
Edit
图标来重命名新的子工作簿,输入 MyWatsonBlogsRevised,然后单击绿色勾号。
使用
Organize Columns
函数删除以下列:
Crawled
Inserted
IsAdult
PostSize
记住选择 Organize Columns 窗口中的绿色勾号。现在 MyWatsonNewsRevised 和 MyWatsonBlogsRevised 工作簿包含相同的列。要合并工作簿,每个工作簿必须包含相同的数据类型和列,或者
模式
。
保存并退出工作簿。
提示时,单击
Run
应用您对子工作簿所做的更改。
欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)
Powered by Discuz! 7.0.0