查看原文
其他

Python爬取抖音短视频(无水印版)

点击上方 "Python人工智能技术关注,星标或者置顶
22点24分准时推送,第一时间送达
后台回复“大礼包”,送你特别福利

编辑:乐乐 | 来自:cnblogs.com/cherish-hao/p/12828027.html

Pythn人工智能技术(ID:coder_experience)第714期推文

上一篇:非常实用的 Python 库,推一次火一次!


正文


大家好,我是Python人工智能技术

1. 使用更简单的方法


在我之前的一篇博客中,我用了构造网址的方法来获取抖音短视频,但是在今天我又一次的研究抖音短视频的时候发现了一个更加简单的方法,发现我之前的分析实在是太过繁琐了,所以有写了一篇博客来记录下这个方法。
与上一篇博客不同的是,这个方法可以省略掉大量的分析步骤
随便打开一个抖音个人主页,我选择的是爱奇艺体育,接着右键检查网页元素,点击network选项卡下的xhr选项,分析抓到的包



点到preview选项卡,点击video->download_addr->url_list



发现这下面跟着的两个网址正好是视频的网址(根本不需要构造,只是这个网址藏的有点深,需要非常耐心的寻找),打开网址查看:



提取到这个网址的时候我以为已经结束了,但是一个大佬@金亭玉立给我发来了一篇文章提醒了我一些没有想到的东西,在此表示感谢!


我们接着往下看,在下面的play_addr下面也有一个链接,这个链接下面的视频就是无水印版本的视频


ok,现在我们只要想办法提取到它就大功告成了。另外搜索公众号后端架构师后台回复“后台系统”,获取一份惊喜礼包。


我这次使用的方法中用到了jsonpath模块,直接pip下载就可以了:


pip install jsonpath



2. 代码


import requestsimport jsonimport jsonpath
class Douyin: def page_num(self,max_cursor): #随机码 random_field = '00nvcRAUjgJQBMjqpgesfdNJ72&dytk=4a01c95562f1f10264fb14086512f919' #网址的主体 url = 'https://www.iesdouyin.com/web/api/v2/aweme/post/?sec_uid=MS4wLjABAAAAU7Bwg8WznVaafqWLyLUwcVUf9LgrKGYmctJ3n5SwlOA&count=21&max_cursor=' + str(max_cursor) + '&aid=1128&_signature=' + random_field #请求头 headers = { 'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36', } response = requests.get(url,headers=headers).text #转换成json数据 resp = json.loads(response) #提取到max_cursor max_cursor = resp['max_cursor'] #遍历 for data in resp['aweme_list']: # 视频简介 video_title = data['desc'] #使用jsonpath语法提取paly_addr video_url = jsonpath.jsonpath(data,'$..paly_addr') for a in video_url: #提取出来第一个链接地址 video_realurl = a['url_list'][1] # 请求视频 video = requests.get(video_realurl, headers=headers).content with open('t/' + video_title, 'wb') as f: print('正在下载:', video_title) f.write(video)
#判断停止构造网址的条件 if max_cursor==0: return 1 else: douyin.page_num(max_cursor)
if __name__ == '__main__': douyin = Douyin()     douyin.page_num(max_cursor=0)


3. 优点


这个方法的优点是可以省去很大一部分的分析网址的步骤,而且没有调用到webdriver(可以不限制浏览器),速度也会有显著提升,得到的视频也是无水印的


4. 不足


还是没有解决随机生成字符串的问题,操作比较麻烦


你还有什么想要补充的吗?

免责声明:本文内容来源于网络,文章版权归原作者所有,意在传播相关技术知识&行业趋势,供大家学习交流,若涉及作品版权问题,请联系删除或授权事宜。


技术君个人微信


添加技术君个人微信即送一份惊喜大礼包


→ 技术资料共享

→ 技术交流社群



--END--


往日热文:

看看人家那物业管理系统,那叫一个优雅(附源码)

一款神仙接私活儿软件,吊到不行!

保姆级别!带你搭建一台服务器!

用Python爬取高颜值美女(爬虫+人脸检测+颜值检测)

2021编程语言排行榜出炉!

Python模块包导入

Logback 也炸了。。。

警告!VPN翻墙被抓了!已大规模行政处罚!


Python程序员深度学习的“四大名著”:



这四本书着实很不错!我们都知道现在机器学习、深度学习的资料太多了,面对海量资源,往往陷入到“无从下手”的困惑出境。而且并非所有的书籍都是优质资源,浪费大量的时间是得不偿失的。给大家推荐这几本好书并做简单介绍。


获得方式:

1.扫码关注本公众号
2.后台回复关键词:名著

▲长按扫描关注,回复名著即可获取

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存