首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)

Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(2)

使用子工作簿来调整数据通常,在分析和探究数据之前,必须调整它的格式和内容。为此,可从每个主要工作簿创建子工作簿并删除不想要的列,以便细化数据量和类型。
除了保护原始数据,主要工作簿还会设置数据格式(包括各列的数据类型)。因此,必须创建子工作簿在其中修改您的数据。子工作簿从其主要工作簿中继承其格式和数据,但可以调整它们的属性,以便仅显示需要的数据。
  • 从 BigInsights Web 控制台的 BigSheets 选项卡,选择 MyWatsonNews 主要工作簿。
  • 单击 Build new workbook。将使用名称 MyWatsonNews(1) 创建一个新工作簿。
  • 单击 Edit 图标,将该工作簿命名为 MyWatsonNewsRevised,然后单击绿色勾号。
  • 要在 Web 浏览器中查看 A 到 H 列,可以单击 Fit column(s)
  • 对于本分析,不需要 IsAdult 列(列 E)。要删除它,可以单击列标题中的向下箭头,然后选择 Remove


    备注:从子工作簿删除列时,只会删除该子工作簿中的数据。这个子工作簿所基于的主要工作簿始终包含它加载的原始数据。如果在以后的分析中想要            IsAdult 数据,可以根据 MyWatsonNews 主要工作簿创建另一个子工作簿。
  • 还有一些列是本分析不需要的。可以使用上一步中的相同方法删除它们,一次删除一个。要同时删除多列:
    • 单击任何列标题中的向下箭头,然后选择 Organize Columns
    • 单击随后的列旁边的红色 x 标记,以便将它们标记为应删除:
      • Crawled
      • Inserted
      • MoveoverUrl
      • PostSize
    • 单击绿色勾号以删除这些列。


      备注:如果意外删除了比想要的更多的列,可单击 Undo                撤销上一个操作。
  • 单击 Fit column(s) 来调整剩余的列。
  • 单击 Save,然后可以选择 Save & Exit 来保存并退出该工作簿。如果看到一个 Save          workbook 窗口,那么可以在保存工作簿时输入或不输入描述。
  • 在提示消息 “This workbook has never been run” 时,可以选择 Run 来运行它或选择 Close 来关闭此消息。单击            Run


    可以在窗口的右上角看到一个进度指示器。



    目前为止,您处理了 Watson 和内部 IBM 数据的子集。BigSheets 仅在内存中保留有限数量的行。右下角会显示一条消息,指示您看到的仅是 50            行数据的模拟采样。在运行该数据时,向整个数据集应用您自上次保存工作簿以来所做的所有更改。进度栏监视着作业的进度。在幕后,Pig 编写了初始 MapReduce            作业的脚本。运行时性能依赖于与您的数据集合关联的数据量,以及可用的系统资源。
现在,从 MyWatsonBlogs 主要工作簿创建一个子工作簿,并删除您的分析中不需要的列。
  • 单击 Workbooks 链接返回到显示所有工作簿的页面。
  • 选择 MyWatsonBlogs 主要工作簿,然后单击 Build new workbook。会使用名称 MyWatsonBlogs(1)          创建一个新工作簿。
  • 单击 Edit 图标来重命名新的子工作簿,输入          MyWatsonBlogsRevised,然后单击绿色勾号。
  • 使用 Organize Columns 函数删除以下列:
    • Crawled
    • Inserted
    • IsAdult
    • PostSize
  • 记住选择 Organize Columns 窗口中的绿色勾号。现在 MyWatsonNewsRevised 和 MyWatsonBlogsRevised            工作簿包含相同的列。要合并工作簿,每个工作簿必须包含相同的数据类型和列,或者模式
  • 保存并退出工作簿。
  • 提示时,单击 Run 应用您对子工作簿所做的更改。
返回列表