2020年12月26日星期六

如何采集抖音的数据,视频数据采集教程

如何采集抖音的数据,视频数据采集教程

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。



不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。
这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。
下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐"你可能感兴趣"的数据(如下图所示)用于商品营销。



点击"查看更多"可以看到更多的系统推荐用户列表数据,如下图所示。

我们按如下步骤模拟操作App:
1.启动抖音。
2.点击搜索按钮。
3.输入搜索关键词(抖音用户ID),点击搜索。
4.找到匹配的用户,点击关注。
5.点击系统推荐"查看更多",模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现"暂时没有更多了")。
于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。

模拟操作抖音App的脚本核心代码如下所示:

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐"你可能感兴趣"的数据(如下图所示)用于商品营销。点击"查看更多"可以看到更多的系统推荐用户列表数据,如下图所示。我们按如下步骤模拟操作App:1.启动抖音。2.点击搜索按钮。3.输入搜索关键词(抖音用户ID),点击搜索。4.找到匹配的用户,点击关注。5.点击系统推荐"查看更多",模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现"暂时没有更多了")。于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。模拟操作抖音App的脚本核心代码如下所示:view plaincopy to clipboardprint?from com.dtmilano.android.viewclient import ViewClient def search_douyin_for_recommend_user(douyin_id):  """采集指定抖音账号的关注推荐数据  """  log(u'准备采集"{}"对应的关注推荐数据'.format(douyin_id))  # 连设备  serialno = None  if serialno:   os.system('adb connect {}'.format(serialno or ''))   time.sleep(3)       device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno)  vc = ViewClient(device, serialno, autodump=False)    # 强制关闭抖音  log(u'强制关闭抖音.')  device.shell('am force-stop com.ss.android.ugc.aweme')  time.sleep(2)    # 启动抖音  log(u'启动抖音.')  device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')  time.sleep(5)  # 暂停视频播放  log(u'点击屏幕,暂停视频播放.')  device.touch(514, 1048)    # 点击搜索按钮  vc.dump()  search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj')  if search_btn:   log(u'点击搜索按钮,跳转到搜索页面.')   search_btn.touch()     vc.dump()   # 点击搜索输入框   search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_')   if search_input:     log(u'点击搜索框,准备输入关键词.')     search_input.touch()         # 输入抖音ID     log(u'输入搜索关键词: {}.'.format(douyin_id))     device.type(douyin_id.encode('UTF-8'))         # 点击搜索按钮     search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8')     if search_btn:      log(u'提交搜索.')      search_btn.touch()      time.sleep(2)      vc.dump()           ## 切换到用户      #user_tab = vc.findViewWithText(u'用户')      #user_tab.touch()           # 找到匹配的      matches = []      def find_matches(view):       if view.getClass() == 'android.widget.TextView':        text = view.getText()        if douyin_id.lower() in text.lower():          # 找到匹配的了          log(u'找到匹配的: {}'.format(text))          matches.append(view)        else:          #print text          pass      vc.traverse(transform=lambda view: find_matches(view))      if matches:       # 有没有已关注按钮       btn = vc.findViewWithText(u'已关注')       if btn:        # 先取消关注        log(u'之前关注过,先取消关注.')        btn.touch()        time.sleep(1)       user_matched = matches[0]       log(u'点击进入个人主页.')       user_matched.touch()       time.sleep(1)              # 点关注       vc.dump()       follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei')       if follow_btn:        # 点击关注        log(u'点击关注')        follow_btn.touch()        time.sleep(1)        # 点击查看更多        vc.dump()        viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn')        if viewmore_btn:          # 点击查看更多          log(u'点击查看更多系统推荐')          viewmore_btn.touch()          time.sleep(1)          i = 0          while True:           # 上滑动           device.drag((345, 1762), (345, 550), duration=100)           log(u'上滑以加载更多')           i += 1           if i % 5 == 0:            # 拖动10次判断一下是否还有更多            vc.dump()            if vc.findViewWithText(u'暂时没有更多了'):             log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))             # 采集成功了             return True            failed_tip = vc.findViewWithText(u'加载失败,点击重试')            if failed_tip:             log(u'加载失败,点击重试.')             failed_tip.touch()        else:          # 没有找到查看更多按钮          log(u'没有找到查看更多按钮')       else:        # 没有找到加关注按钮        log(u'没有找到加关注按钮')      else:       # 没有找到匹配的用户       log(u'没有找到匹配的用户')     else:      # 没有找到搜索提交按钮      log(u'没有找到搜索提交按钮.')   else:     # 没有找到搜索输入框     log(u'没有找到搜索输入框.')  else:   # 没有找到搜索按钮   log(u'没有找到搜索按钮.') 

上述脚本的运行截图如下所示:

最后附上抓取到的部分示例数据:



更多抖音,快手,小红书数据实时采集接口,请查看文档: TiToData


免责声明:本文档仅供学习与参考,请勿用于非法用途!否则一切后果自负。









原文转载:http://www.shaoqun.com/a/504049.html

跨境电商:https://www.ikjzd.com/

net-a-porter:https://www.ikjzd.com/w/2132

亚马逊应用商店:https://www.ikjzd.com/w/531


如何采集抖音的数据,视频数据采集教程抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从
asiabill:asiabill
欧舒丹:欧舒丹
河源桂山风景区交通方便吗?:河源桂山风景区交通方便吗?
东莞清远漂流一日游攻略?清远去哪里玩漂流?:东莞清远漂流一日游攻略?清远去哪里玩漂流?
珠海荷包岛自助游?荷包岛度假村自驾路线?:珠海荷包岛自助游?荷包岛度假村自驾路线?

没有评论:

发表评论