【波组数字通识教育第四期】如何保住一个小组的内容
精华[Ar]3d^{6}4s^22021/08/18 13:31:04
这是你的小组,你很喜欢里面在触摸的各位。不幸的是,他们在触摸,而他们的帖子乃至你喜欢的小组迟早会被爆破。而根据这篇发表于2021年8月13日的报告,你组仅4天内就有39条帖子被删除。如何保住你喜欢的小组的内容?
初始化
你需要在这里下载被我打包好的文件。如果你是开发者,可以直接使用放在这里的源代码
解压出来应该是这些文件(不包括data文件夹,它会被自动创建)
不要兴冲冲运行,而要先运行“安装playwright.bat”安装爬虫需要的依赖项。这个脚本应该会从微软的 CDN 服务器下载 playwright 和被修改后的 firefox 浏览器,用作爬虫。速度应该不会慢的。
之后就是运行那个“运行.bat”了:
按提示进行配置。小组链接必须是像示例一样单纯的链接,不应当带上后缀。如果连接不合法,程序会给出提示。
完成以后按任意键退出。
这一步产生的文件在 data 目录下,名叫config.json
,删除它可重复这一个步骤(但没必要,因为之后可以选“修改配置信息”修改)
登录与优化配置(安装插件)
登录
再次运行“运行.bat”。这里应该选择第一项“更新帖子列表”,回车即可。
然后会弹出浏览器窗口,在里面按正常步骤登录好豆瓣即可:
优化配置(安装插件)
但登录好豆瓣之后别急着进行下一步,而是安装广告屏蔽插件对浏览器进行优化,否则会影响爬取速度甚至爬取成功率。登录以后除非重新登录,否则没机会安装插件了。点击如图所示按钮,然后点“Add-ons and Themes”。
在弹出的标签页中搜索“adblock plus”,这里不建议使用别的广告屏蔽插件,可能会出现bug。已知ublock origin不适用。
第一个就是了。
点进去,然后点“Add to Firefox”
点“Add”
安装成功后在右上角点击ABP图标,再点如图所示的齿轮:
然后点“add a language”
选择“中文 + English”
现在就可以了。如果想降低被检测到的概率,可以再取消“Allow acceptable ads”,然后把“Block additional tracking”打勾。最后关掉除了豆瓣以外的几个选项卡,如图所示:
回到命令行界面,选中“好了”,回车,然后会开始第一次获取帖子列表(如果已有数据会提示正在增量更新),第一次获取帖子列表十分重要,因为只有这一次会自动完整地获取一遍帖子列表,此后都不会进行相同的操作,除非手动操作或删除数据重来。获取完之后会提示“随便按一个键退出”,退出即可。
这一步安装的插件在data目录里的browserState
文件夹中,不要删除,否则需要重新安装屏蔽插件。
如果此后发现需要再次登录,或者想重新安装插件,请删除data目录里的cookies.json
文件,然后重复登录操作和/或安装插件操作。
日常使用
“更新帖子列表”用来更新帖子列表(废话)。
更新帖子列表后,选“获取帖子内容”来爬取帖子的内容和回复。爬取顺序为精品-普通帖,在上述前提下新帖优先。每次更新的帖子数目限制在第一步有配置。
如果想检测哪些帖子被删了,可以选择“检测帖子状态”,然后输入想检查多少页的帖子。
想修改第一步的配置,比如想爬另一个组,选“修改配置信息”,然后重复第一个步骤即可。
爬取的数据按小组分类放在data
下,文件名为“data-小组号.db”,删除它会初始化该小组的爬取状态。
这样一来,你喜欢的东西就被永远地保存了下来,除了你,没有人能够毁掉。