最近在写 RSSHub 的代码,有一些有意思的感受。
前两天因为要解决 B 站抓取的问题看了 DIYgod 发给我的一个研究 B 站风控机制的 Issue ,看到 B 站的复杂的风控加密算法和开发者的应对策略,有一种两边斗法的感觉,根据里面的一些逻辑改了代码,生效了一阵子,今天看到又失败了 😶🌫️;今天发现 Follow 里抓不到我的 Mstodon 实例的数据了,前几天还可以,本地调试了一下发现是抓取的时候有一个 401
感觉在做网页数据源 RSS 化的时候总是会做很多“无用功”,一下午甚至几天的成果很有可能因为平台策略的微小改变而付诸东流,和平台反爬风控的斗争貌似也永无止境。
往大了说是 Open Information,小一点说只是想我自己能够有一些自主选择想看到的信息的权利,似乎在中心化主流的现在都需要付出很多额外的努力。
前两天因为要解决 B 站抓取的问题看了 DIYgod 发给我的一个研究 B 站风控机制的 Issue ,看到 B 站的复杂的风控加密算法和开发者的应对策略,有一种两边斗法的感觉,根据里面的一些逻辑改了代码,生效了一阵子,今天看到又失败了 😶🌫️;今天发现 Follow 里抓不到我的 Mstodon 实例的数据了,前几天还可以,本地调试了一下发现是抓取的时候有一个 401
Request not signed
错误,分析 Header 里面内容调试了好半天,最后发现可能是我那个实例的 admin 新增了对非登录用户的一些权限限制;还有很多平台也是。感觉在做网页数据源 RSS 化的时候总是会做很多“无用功”,一下午甚至几天的成果很有可能因为平台策略的微小改变而付诸东流,和平台反爬风控的斗争貌似也永无止境。
往大了说是 Open Information,小一点说只是想我自己能够有一些自主选择想看到的信息的权利,似乎在中心化主流的现在都需要付出很多额外的努力。