首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

基于社交网络挖掘公司潜在用户(1)

基于社交网络挖掘公司潜在用户(1)

引言作为销售人员,在向客户介绍公司的新产品或技术的时候,是否考虑过参考已有的客户成功案例去说服新客户?是否想要去发现某客户可能采用的公司产品?是否希望去挖掘公司潜在的客户?回答是肯定的。挖掘潜在客户一直是每个公司重要的工作之一,准确的发现目标客户并向其推荐其可能使用的产品或方案能够帮助公司实现利益的增长。例如电子商务公司会根据个人浏览商品记录推荐可能感兴趣的其他商品;银行会根据个人的消费记录向其推荐适合的金融产品;娱乐媒体公司会根据个人的观看历史推荐其他相似的影片或音乐。
目前,社交网络在人们的日常生活中扮演着越来越重要的角色,已成为人们交往和获取信息的重要渠道。如何利用其包含的海量的具有时效性的非结构化数据引起了人们的关注。本文在这样的背景下提出一种为公司挖掘潜在客户的方法,从                Twitter 和 LinkedIn 等社交媒体上提取信息,利用 Watson API 和 NLTK 分词工具对这些信息进行处理,使用 Python                的主题模型工具包 Gensim 来进行公司之间的相似度计算,最后根据相似度计算结果为公司推荐潜在客户。本文余下章节介绍了具体实现步骤。
1 从 Twitter 上抓取推文基于社交网络挖掘公司潜在用户,首先需要在社交网络上搜索公司已有的成功案例。如 IBM 公司在 Twitter 中注册了一个名为 IBM Client                Voices 的账户,其发布的推文包含了 IBM 的某项产品或技术帮助了某个公司完成了某项任务。
例如:
推文 1: deploys  to help blind                runner  manage over                120,000 global data requests per second.
推文 2:"  with pureScale                enables real-time insight into where shipments are in our network, 24/7."                Client .
推文 3: partners with  to reduce                senior citizen fall rate by a dramatic 72%. Read: .
我们可以通过 Twitter 提供的 API 来提取 IBM Client Voices 账户发布的所有推文。具体的步骤如下:
1.1 OAuth 授权从 1.1 版本开始,使用 Twitter API 需要通过 OAuth 授权,授权过程是通过发送 http GET/POST 进行的。
  • 注册申请 Twitter 的开发者,创建 App,获得开发者的 Key 和 Secret,即 consumer_key &                    consumer_secret。
  • 用 Http 通过 Twitter 提供的 API url + 参数 consumer_key & consumer_secret                    到 Twitter 的服务器获取 request_token。
  • 用 Http 通过 Twitter 提供的 API url + 参数 request_token 到 Twitter                    服务器请求授权。
  • 授权确认后页面跳转到由你之前注册时填写的 callback_url 为地址前缀的的一个新网址(页面),并获取到                    oauth_verifer。
  • 最后,再发送 request_token & oauth_verifier 到 Twitter 服务器换取 access_token                    & access_token_secret, 有了这两个值就可以通过它们进行各种 Twitter 操作。
1.2 REST API获取 Twitter 数据的常用方法是通过 REST API。使用通过 OAuth 授权得到的 tokens,我们的应用可以向 Twitter                获取特定的数据。获取 Twitter 数据的流程如图 1 所示。
图 1. 获取 Twitter                    数据的流程本文使用 API GET st atuses/user_timeline,来获取某用户所发布的推文。
使用下面语句(本文出现的代码均以 Python 语言编写),可以获得用户 id 为 IBMclientvoices 发布的最新 20 条推文。推文如图                2 所示。
清单 1.                获取到用户最新发布的推文
api.user_timeline(id='IBMclientvoices', count=20, max_id=oldest_id-1)




图 2. 从 Twitter                    上获取的推文从 Twitter 上返回的数据为 JSON 格式,我们从 JSON 返回结果中抽取下列信息(如表 1 所示),并存入数据库中。
表 1. 推文中抽取的信息 id  推文的 id  author  推文的作者  created_at  推文的创建时间  text  推文的内容  user_mentions  推文中@的用户  hashtags  推文中涉及到 IBM 技术名字
其中 user_mentions 和 hashtags 为我们最为关注的公司名称和产品或方案名称。
返回列表