首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(4)

Bluemix 上的 Analytics for Hadoop-使用 BigSheets 探究数据(4)

通过分组类似信息来创建列我们希望确定使用每种语言编写了多少篇新文章和博客帖子。为此,使用 Group 表格及其组合、计算和排序语言数据的功能。
首先,使用 Calculate 功能按语言统计文章和帖子篇数。然后,按语言排序该列,以便首先显示最流行的语言。
  • 仍在 MyWatsonNewsBlogs 工作簿中,单击 Add Sheets,然后选择          Group
  • 在 New Sheet:Group 窗口中,完成需要的信息:
    • Sheet name 字段中,输入 Group by language。
    • Group by columns 下拉列表中,选择 Language,然后单击绿色加号 (+)              添加该列。Language 列名称显示在对话框底部。
    • 在窗口底部,选择 Calculate 选项卡。
    • Create columns based on groups 文本框中,输入                NumberArticlesandPosts,然后单击绿色加号 (+)。
    • NumberArticlesandPosts 下拉列表中,选择 COUNT
    • Column 下拉列表中,选择 Language,然后单击绿色勾号。
    在 Group by language 表格中,可以看到两个列:Language 和 NumberArticlesandPosts。Language 列显示了来自            News and Blogs 表格的所有语言;NumberArticlesandPosts 列统计了使用每种语言编写的帖子数。
  • 要查看有关 IBM Watson 的帖子的最常用语言,可以按帖子数量对 Pivot 表格进行排序。
    • 单击 NumberArticlesandPosts 右侧的下拉箭头。
    • 选择 Sort,然后单击 Descending
    可以看到 English 是最流行的语言,拥有 3169 篇帖子,随后一次是 Russian、Spanish 和 Chinese -            Simple。
    请注意,Chinese (spelling) 和 Chinese - Traditional            也靠近列表顶部。在本教程的其他版本中,可以将这些列表合并成一个。但是,为了简便起见,本教程没有涵盖合并语言的内容。
  • 单击 Save & Exit 保存并关闭工作簿。
  • 单击 Run 保存、排序和处理工作簿的整个数据集。可以在窗口的右上角看到一个进度指示器。运行工作簿后,会在          NumberArticlesandPosts 列中看到英文帖子数量的结果不同:5464.
BigSheets        的可视化功能BigSheets 提供了各种图表和地图。图表 在一个网格中描绘数据点,比如一个典型的饼图或直方图。          通过显示各个词汇相对于其重要性的大小,显示值的重要性。地图 包含的图表表示地理数据,比如热力地图按地理位置显示了各个数据点的浓度。
  • 打开 MyWatsonNewsBlogs 工作簿。
  • 单击 Add chart,然后选择 chart > Horizontal          Bar。首次填充各个类别的图表可能需要几分钟。
  • 在 New chart:Horizontal Bar 窗口中,输入或选择以下值:
    • Chart Name 字段中,输入 Language              Coverage。图表名称是工作簿底部选项卡上显示的名称。
    • Title 字段中,输入 IBM Watson Coverage by              Language。图表的标题显示在图表顶部。
    • X Axis 下拉列表中选择 NumArticlesandPosts
    • X Axis Label 中,输入 Number of posts。
    • Y Axis 下拉列表中选择 Language
    • Y Axis Label 中,输入 Language of post。
    • Sort By 下拉列表中选择 X Axis。我们希望按帖子数量排序。
    • Occurrence Order 下拉列表中选择              Descending。我们希望首先看到具有最多帖子数的语言。
    • Limit 字段中,输入 12。我们仅希望看到前 12 种帖子数最多的语言。
  • 单击绿色勾号预览包含示例数据的图表。
  • 单击 Run 从完整的工作簿数据集中生成图表。
即使您马上就看到了预览图,但实际图表在您看到进度栏为 100% 之后才会显示。从整个数据集生成图表可能需要一定的时间。可使用进度栏来监视图表的完成状态。
生成直方图后,可以看到 Russian 是帖子数排名第二的流行语言。还可以看到排名第五和第六的流行语言是中文的简体和繁体。
返回列表