随便看看

【波组数字通识教育第四期】如何保住一个小组的内容

精华[Ar]3d^{6}4s^22021/08/18 13:31:04


这是你的小组,你很喜欢里面在触摸的各位。不幸的是,他们在触摸,而他们的帖子乃至你喜欢的小组迟早会被爆破。而根据这篇发表于2021年8月13日的报告,你组仅4天内就有39条帖子被删除。如何保住你喜欢的小组的内容?

初始化

你需要在这里下载被我打包好的文件。如果你是开发者,可以直接使用放在这里的源代码

解压出来应该是这些文件(不包括data文件夹,它会被自动创建)

https://img3.doubanio.com/view/group_topic/l/public/p483784160.webp

不要兴冲冲运行,而要先运行“安装playwright.bat”安装爬虫需要的依赖项。这个脚本应该会从微软的 CDN 服务器下载 playwright 和被修改后的 firefox 浏览器,用作爬虫。速度应该不会慢的。

之后就是运行那个“运行.bat”了:

https://img1.doubanio.com/view/group_topic/l/public/p483784387.webp

按提示进行配置。小组链接必须是像示例一样单纯的链接,不应当带上后缀。如果连接不合法,程序会给出提示。

完成以后按任意键退出。

https://img1.doubanio.com/view/group_topic/l/public/p483784439.webp

这一步产生的文件在 data 目录下,名叫config.json,删除它可重复这一个步骤(但没必要,因为之后可以选“修改配置信息”修改)

登录与优化配置(安装插件)

登录

再次运行“运行.bat”。这里应该选择第一项“更新帖子列表”,回车即可。

https://img1.doubanio.com/view/group_topic/l/public/p483784538.webp

然后会弹出浏览器窗口,在里面按正常步骤登录好豆瓣即可:

https://img9.doubanio.com/view/group_topic/l/public/p483784624.webp

优化配置(安装插件)

但登录好豆瓣之后别急着进行下一步,而是安装广告屏蔽插件对浏览器进行优化,否则会影响爬取速度甚至爬取成功率。登录以后除非重新登录,否则没机会安装插件了。点击如图所示按钮,然后点“Add-ons and Themes”。

https://img9.doubanio.com/view/group_topic/l/public/p483784686.webp

在弹出的标签页中搜索“adblock plus”,这里不建议使用别的广告屏蔽插件,可能会出现bug。已知ublock origin不适用。

https://img9.doubanio.com/view/group_topic/l/public/p483784756.webp

第一个就是了。

https://img1.doubanio.com/view/group_topic/l/public/p483784847.webp

点进去,然后点“Add to Firefox”

https://img3.doubanio.com/view/group_topic/l/public/p483784890.webp

点“Add”

https://img9.doubanio.com/view/group_topic/l/public/p483784934.webp

安装成功后在右上角点击ABP图标,再点如图所示的齿轮:

https://img9.doubanio.com/view/group_topic/l/public/p483785035.webp

然后点“add a language”

https://img3.doubanio.com/view/group_topic/l/public/p483785080.webp

选择“中文 + English”

https://img3.doubanio.com/view/group_topic/l/public/p483785110.webp

现在就可以了。如果想降低被检测到的概率,可以再取消“Allow acceptable ads”,然后把“Block additional tracking”打勾。最后关掉除了豆瓣以外的几个选项卡,如图所示:

https://img1.doubanio.com/view/group_topic/l/public/p483785208.webp

回到命令行界面,选中“好了”,回车,然后会开始第一次获取帖子列表(如果已有数据会提示正在增量更新),第一次获取帖子列表十分重要,因为只有这一次会自动完整地获取一遍帖子列表,此后都不会进行相同的操作,除非手动操作或删除数据重来。获取完之后会提示“随便按一个键退出”,退出即可。

https://img9.doubanio.com/view/group_topic/l/public/p483785234.webp

这一步安装的插件在data目录里的browserState文件夹中,不要删除,否则需要重新安装屏蔽插件。

如果此后发现需要再次登录,或者想重新安装插件,请删除data目录里的cookies.json文件,然后重复登录操作和/或安装插件操作。

日常使用

https://img2.doubanio.com/view/group_topic/l/public/p483785311.webp

“更新帖子列表”用来更新帖子列表(废话)。

更新帖子列表后,选“获取帖子内容”来爬取帖子的内容和回复。爬取顺序为精品-普通帖,在上述前提下新帖优先。每次更新的帖子数目限制在第一步有配置。

如果想检测哪些帖子被删了,可以选择“检测帖子状态”,然后输入想检查多少页的帖子。

想修改第一步的配置,比如想爬另一个组,选“修改配置信息”,然后重复第一个步骤即可。

爬取的数据按小组分类放在data下,文件名为“data-小组号.db”,删除它会初始化该小组的爬取状态。


这样一来,你喜欢的东西就被永远地保存了下来,除了你,没有人能够毁掉。

没有人能够毁掉。


[Ar]3d^{6}4s^2楼主2021/08/18 13:40:54

@么么哒的嗑药炮 申精

仿生银渐层猫猫2021/08/18 13:43:48

滋磁一下

trombe2021/08/18 13:47:47

最近忍住了十几次触摸欲望回复了

Death&Taxes&2021/08/18 14:07:16

“当他们提供互联网服务的时候,实际上就是在集权。”

夹心酱DropKick2021/08/18 14:13:58

d