「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

发布时间:2020-07-14 10:00:42 作者:IT人故事
来源:网络 阅读:625

从19到24节都说的抖音数据的抓取,从web端用户信息抓取,app端粉丝数据抓取,视频数据。

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

(一)抓取三大块

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

技术困难:
个人数据界面-TTF混淆

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

解决方案:
枚举的方式分析出来数字

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

注意事项:
通过TTF字体数据对应,如果抖音TTF字体库发生改变,爬虫也需要做对应修改。

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

技术困难:
appium模拟滑动+mitmdump解析数据
通过一台设备抓取比较慢,多设备多进程抓取抖音的数据

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

注意事项:
1.appium模拟滑动抖音粉丝数据,一个名人一般仅能获取5000条粉丝数据。
2.移动设备设置代理进行抓包后,如遇到无法联网或无法解析https数据时,需要安装Xposed框架+JustTrustme组件进行屏蔽证书的校验。如果用真实手机建议直接刷个带Xposed框架和开通Root权限的系统,为了避免【变砖】。
3.在设置多设备,多进程数据抓取时,需要设置appium服务端的bootstrap端口,以及客户端的udid字段。

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

技术困难:
破解js获取signature,通过浏览器获取到signature

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

注意事项:
视频抓取,需要破解signature字段,使用拼接html,解析js

技术参考:
https://douyin.wlansq.cn/

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

2个请求中,getjs里面有个tac,最早的时候一直获取不到数据,后来才知道原来是tac 没有获取。

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

PS:

1.数据抓取的时,需要加上代理,伪装爬虫
2.条件允许最好还是使用真实移动设备,最好使用小米,华为的安全性太高了。国产的华为手机安全要求很高,不插入手机卡,usb调试模式都打不开。破解系统还需要收费。
3.小米刷机一般使用【刷机大师】,【刷机精灵】,(【线刷宝】会安装一些流氓软件,但是线刷宝确实好用,忍着吧)


推荐阅读:
  1. 「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(终结)(36)
  2. 「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(下)(35)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

docker python 爬虫

上一篇:如何实现vue模块拖拽效果

下一篇:拒绝了对对象 'sp_OACreate' (数据库 'mssqlsystemresource',架构 'sys')的 EXECUTE 权限

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》