繁体站O实操记录(1)
其实在16年最早看到大量的
繁体站
出来的时候就有操刀过,当时操作的手法现在还有影响,那个时候可能只是想要简单尝试一下,不过当时应该也踩了很多坑,最后折腾了很久还只弄成一个火车头采集半自动化,当时主要卡在图片上传那一块,现在想来当时的技术和思路都太落后了,不然也不至于当时做了一段时间就放弃了。
最近之所以想再次操刀这个项目主要还是因为最近一年来时间在SEO上有了一些新的思路,想要尝试一下,如果能够做到全自动的话,不管最终结果如何,至少我不用费太多时间,除了前期的一些部署工作。
Tools:
- Vultr
- 宝塔面板
- 火车头采集器(自动授权版)
Progress:
P.S:以下各阶段事项未严格按照时间先后顺序。
1.0阶段——筹备阶段
- 采集源选择
- 火车头采集器授权版购买
- 域名购买
- WordPress安装和基本设置(需要先购买服务器和配置宝塔BT面版)
2.0阶段——测试采集
- 因为之前有使用过火车头,所以采集的基本配置问题倒不大,不过在采集内容分页这块也出现了问题,按照网上的教程配置好分页规则之后每次采集都会在最后
重复采集首页内容
,如下图所示:
- google了大量结果也没有找到合适的解决方案,无奈之下只能求助火车头官方客服,这里要说一点,火车头的官方客服很给力,在官方客服的协助下,终于解决了问题,其实就是在采集列表页的时候把首页网站全部替换成分页格式第一页的格式,这样就不会在采集分页的时候出现首页的重复,因为其实这个重复也是因为
两个不同的URL指向了相同的页面
,现在应该所有的内容分页都有这个问题。 - 解决采集的问题之后发布这边又出现了问题,配置的发布模块没有加入Tag,Wordpress后台发布成功之后显示所有标签都是
db:tag
,在发布模块加了tag之后发现还是没有发布成功,才发现是采集tag模块和发布模块命名要一致,继续测试发布了一批文章发现有一些文章标签还是没有出来,测试发现好像是没有采集到,添加了一个提取内容为空?
的配置算是解决了问题。
3.0阶段——修复BUG
- 本以为大功告成,结果发现发布成功的所有文章莫名出现了
侧边栏错位
,所有侧边栏全部掉到底部左侧。检查了一下样式,发现好像是Comments的问题,这就让我有点尴尬了,我TM都没有配置评论这块。尝试关闭评论发现居然有效,尝试了WP大学免插件的关闭评论方法发现没什么卵用,既然免插件的方法不行那就只能用插件解决了,下载安装了Disable Comments
之后设置关闭评论解决问题。 - 关闭评论后分页内容仍然错位,
F12大法
检查发现是多了一个</div>
,WTF? 编辑器里的div还会影响到外层的布局,算是长见识了。 - 最后一个大坑就是重复发布的问题,设置了定时任务之后本来想着享受成功的喜悦,结果马上就发现不对劲,今天把昨天已经发布的内容又重新发了一遍,找了一个数据库删除去重复的方法,算是解决了当下的问题,然后重新设置了火车头,在
发布相关-标记所有记录为已发
设置为是,为了以防万一,还下载了一个Duplicate Title Validate
插件,毕竟重复内容是大忌。
Note:
采集和搬运算是底层生产力中的一种,在当下互联网下对版权越来越重视的大环境下也是越来越艰难,不过这个项目只是作为我的一个实验,我也并没有指望O站能够获得多少流量,因为我之前简单粗暴的暴力采集时代已经过去了。