2023 批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf和抓取文章数据
分享下我开发的几个公众号文章下载工具。
公众号文章/音频/视频下载
这次增加了下载文件里的公众号文章,打开wechat_输入文章地址即可下载文章和文章里的文章,比如这篇文章链接视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数 ,下载效果如图:
输入文件名下载文件里的公众号文章,每行一个文章链接:
【资料图】
图片消息的文章也支持下载了。这些老古董你都认识吗?
我之前还录制了个视频视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数 :
下载的音频保存在audio目录,视频保存在video目录,封面保存在cover目录,图片保存在images目录,文章内容保存在html目录。
文章里引用的腾讯视频直接下载比较麻烦,所以保存视频链接到excel文件了,可以再复制视频链接用lux之类的工具下载。
下载过的文章链接在文件wechat_,第2次下载会跳过已经下载过的文章,如果有什么问题可以向我反馈。
公众号话题文章/音频/视频下载
比如这个公众号话题:
打开wechat_topic_输入话题链接批量下载话题里的文章,下载效果如图:
音频/视频和文章html都下载了:
下载过的文章链接在文件wechat_topic_,第2次下载会跳过已经下载过的文章,效果如图:
纯音频话题也支持:
1000个音频很快就下载完了。
下载过的音频保存在文件wechat_topic_audio_ ,如果第2次下载也会跳过已经下载过的音频,效果如图:
公众号模板文章/音频/视频下载
以支付宝这个模板页面为例:
打开wechat_输入地址,下载效果:
还生成了一个文章列表excel文件,包含文章日期,文章标题,文章链接和文章封面。
第2次下载会跳过已经下载过的文章:
html和pdf转换
上面的工具只下载了文章html,如果想转pdf用我开发的可以将html批量转换为pdf,先打开下载安装再添加到环境变量,运行就可以了,批量转换后的pdf文件保存在pdf目录。
不过现在公众号网页改为动态加载,用这个转换生成的pdf是空白的 视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数.pdf
转换生成的pdf是空白的,所以之前我用python写的也失效了。
现在是用pyppeteer 转换,不过它依赖chromium:
import _downloaderprint('默认版本:{}'.format(pyppeteer.__chromium_revision__))print('可执行文件默认路径:{}'.format(_('win64')))print('win64平台下载链接为:{}'.format(_('win64')))
在可执行文件默认路径新建目录588429,手动下载输出的解压后放进去。
可执行文件默认路径:C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromium\588429\chrome-win32\
写代码转换效果如图,速度比较慢,暂时没什么好办法:
转换后的pdf就可以用我开发的这个pdf_将所有合成一个pdf文件苏生不惑又写了个pdf合并带书签小工具 ,效果:
合成的pdf文件带书签,点击会跳转对应文章。
批量下载公众号历史文章内容和数据
上面的工具只能下载部分文章,为了下载一个号的所有文章,我写了个脚本批量下载某个公众号的所有历史文章批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数 ,下载效果如图:
下载的excel文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的1000多篇文章阅读数都是10万+,excel数据分析见这篇文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例 。
为了方便找文章,部分公众号的历史文章同步到了我的博客,会持续更新,不用在手机上下拉翻历史文章了 ,比如深圳卫健委从2014到2023发布了1万多篇文章,第一篇文章是这个:
另外每个月我还会更新一次公众号深圳卫健委的封面表情包图,无水印,欢迎收藏 2022 年公众号深圳卫健委所有历史文章无水印封面表情包合集,分享到网盘了,所有封面图的文件名为文章发布日期加标题,方便搜索
每篇文章下的留言内容也可以单独导出excel,包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间,比如深圳卫健委在2月份就有1万6千多条留言.
顺便分析下文章留言区的ip归属地,我的公众号留言区广东的小伙伴最多微博/公众号/抖音等各大平台都显示 ip 归属地了,能改吗?
下载所有文章以莫言老师的公众号为例,包括文章内容(含留言),音频和视频 :
最后将所有文章合并成一个pdf文件(含留言),点击左侧书签跳转到对应文章,在电脑和手机上看方便多了,也不用担心文章被删看不了:
关键词:
-
余佳文为空头承诺道歉 90后网络创业要防泡
在国家政策层面鼓励万众创新、大众创业的背景下,如今在中国创业的门槛已经非常低了。...
-
试点一年仅签约12户 以房养老“蛋糕”好看
徐 骏作(新华社发)2014年7月1日起,中国保监会在北京、上海、广州、武汉开展住房反向...
-
中国发力流通体制改革 疏通“大动脉” 给
流通业一头连接生产,一头连接消费。流通业的发展既是经济转型发展的新引擎,又是大众...
- 日新闻排行榜
- 周新闻排行榜
- 月新闻排行榜
- 2023 批量下载公众号文章内容/话题/图片/2023-08-05
- 镇江市去年累计查处药品类案件160件 涉案2023-08-05
- 养花论坛APP 养花论坛2023-08-05
- 华为发布HarmonyOS 4隐私安全新功能2023-08-05
- 蝴蝶的外形特点和生活特征 蝴蝶的特点2023-08-05
- 我国及部分省市快递服务行业相关政策 开展2023-08-05
- 孙怡:董子健,姐没空陪你这个“京圈太子爷2023-08-05
- 文颂娴复出有新“煮”意,同“情敌”20年情2023-08-05
- 千帆竞渡,鸿蒙已过万重山2023-08-05
- (成都大运纪事)中国香港选手张家朗拿下男2023-08-05
- 章鱼姐吃肝脏(章鱼姐)2023-08-05
- 利好不断!多地持续优化楼市政策2023-08-05
- 安全生产知识培训总结与反思 安全生产知识2023-08-05
- 人民至上 使命必达2023-08-05
- 典当行经营范围 典当行2023-08-05
- 中国环境保护标志图片(中国环境保护网)2023-08-05
- 2023年8月3日LME镍库存分布情况2023-08-04
- 【成都大运会】成都大运会“交友记”:互换2023-08-04
- 献礼成都大运会 泡泡玛特打造特色潮流熊猫2023-08-04
- 小型微动开关_关于小型微动开关介绍2023-08-04
- 8月4日河南宝鑫聚合氯化铝价格平稳2023-08-04
- 人形机器人的“动力源”!国产电机大有可为2023-08-04
- 300MW/600MWh!三峡水利重庆松溉、龙盛独立2023-08-04
- “奶业全产业链展”在呼和浩特国际农业博览2023-08-04
- 外汇局:上半年来华证券投资更加积极 其中2023-08-04
- 蜜雪冰城向北京、河北捐赠1000万元支持抗汛2023-08-04
- 固定资产的预计净残值可以随意确定吗 固定2023-08-04
- 移动支付公司Block第二季营收55.35亿美元 2023-08-04
- OpenAI 已为 GPT-5 申请商标,GPT-5 要来了?2023-08-04
- 冰种紫罗兰多吗2023-08-04