插件页面http://wordpress.org/extend/plugins/harmony-tester/

全国人民喜迎网络实名制,无聊花了半天多时间做了一个 WordPress 插件,名字叫 Harmony Tester,中文是和谐测试器。简单来说就是一个用来高亮和替换敏感词的 WordPress 插件。注意,本插件并非用来发表违法内容,而是有很多时候网络上的检测系统实现手法简单粗暴,仅仅是简单的字符串检测,而不考虑词性和分词(所以说考虑词性和分词的,采用复杂算法的反和谐系统反而更不实用)。和谐测试器和其它类似插件不同之处在于,可以在撰写过程中检查文章内容是否有违社会主义精神文明建设的词汇,提前发现不经意串起来的“不能出现的词”,而不会发布后再被强制过滤掉。

内置不能出现的词的词库

三个使用 BASE64 加密的词库和一个自定义词库,注意严禁使用词库从事违法活动!

编辑界面高亮不能出现的词

用户可以在撰写日志时对其进行高亮,不同类型会被标记上不同的颜色

自动替换文章和评论内容中的不能出现的词

  • 将其替换为特定字符,或者直接删除
  • 将其混淆,如将“你好世界”混淆为“你囧好囧世囧界”

使用特定词替换不能出现的词

将其替换为指定字符,或者直接删除,或者混淆添加乱码。自定义词库支持正则表达式替换,还可以指定某个不能出现的词替换为指定字符。

Q&A

  • Q:为虾米要用 BASE64 加密?
  • A:WordPress SVN 和 Google Code 上有成千上万的不能出现的词明文堆积在一起,太可怕了。如果因此 wordpress.org 被墙了,我可承担不起这个历史责任。附带的转换工具可以轻松互转 BASE64 词库和明文。
  • Q:都有什么词库?
  • A:有三个词库,涉及到政治、色情和一些其它词汇。你可以用插件目录下的转换工具,将明文与 BASE64 数据互相转换(JavaScript)。举一些常见的例子:囧囧、囧囧囧囧、囧囧、囧囧、囧囧囧、囧囧、囧囧囧、囧囧囧囧、囧囧囧囧囧、囧囧囧、囧囧、囧囧、囧囧、囧囧囧囧、囧囧囧。
  • Q:制作这个插件有什么收获?
  • A:收集,当然这对翻墙史长达 8 年的我来说难度不大,不过一些色情词汇真是让我大开眼界,汉字果然博大精深,啧啧。
  1. 原来的名字为啥不用了?

  2. 好专业……还带点奇葩……

  3. 词库数据量多少?楼主你的 DE 域名注册多少钱?

    • @隔壁论坛
      不多,现在就收了几千条吧,比较敏感的都收进去了,但是自己加比较容易。DE 标价是 60,但是因为 DE 必须当地人注册,所以还得加个别的特殊服务才行,一共 90。