“祝福”居然是新浪博客的敏感词?

发布日期:2019-08-16 00:23   来源:未知   

  经常在自媒体写文章的都知道,最烦的一件事情是遇到敏感词。遇到敏感词,你辛辛苦苦写的文章就干着急发不出去。

  啥叫敏感词?我估计多数人可能理解为就是一些不利于社会和谐,不利于社会稳定的词。可能是一些与时局和政治想关的词。这样理解应该没错。但是你以为你不去涉及政治,不去触及你所认为的疑似敏感词就没问题了?那就大错特错了。

  晨雾从2006年建立博客研究高考志愿填报到现在,在自媒体写文章已经13年了。每年志愿填报截止前的最后一天,晨雾都会发出《晨雾对志愿填报的紧急提示》。今年是晨雾第十二次发出了。希望能在最后关头给家长们一些帮助和提醒。一般晨雾都是在新浪博客头一天晚上写好,设定为第二天6月29日早上7:00左右发出。前12年都没什么问题。

  但是在昨天晚上晨雾发文的时候麻烦来了,系统提示“博文存在敏感词,请修改后提交”(如下截图)。但是哪些词是敏感词?把它们找出来,这却是一个天大的难题。

  不过根据多年的发文经验,这已经难不倒晨雾了。晨雾已经有了一个很“笨”的办法来筛除敏感词。

  具体做法是把这篇文章复制粘贴,然后选择提交到“秘密博文”,因为在这个筛查过程中文章能发布,外界看不到。如果含有敏感词,也是会提示“博文存在敏感词,请修改后提交”。如果没有敏感词了,就能顺利发不到“秘密博文”,只有博主能阅读。

  第一步是预筛,首先大致看一下,有没有明显值得怀疑的敏感词?不过凭咱们常人的经验,预筛很难找出敏感词。因为你以为敏感的词未必是敏感词。

  比如我的这篇文章中有一句话:“在平行志愿情况下,当你填报了一所学校,就已经被服从专业调剂选项“绑架”到这所学校了”。“绑架”这个词涉嫌暴力,是不是敏感词呢?我就把“绑架”删除再次提交到“秘密博文”。仍然提示有敏感词。说明“绑架”没问题。如果再也找不到“疑似敏感词”了,就开始逐段筛查。

  文章从头开始,只保留第一段,剩余全部剪切掉再提交,如果能够顺利发布,说明第一段没有敏感词,敏感词在后面段落。然后修改编辑已经发布的文章,在第一段后面增添第二段文字,如果能够顺利发布,说明第一、二段都没有敏感词,敏感词在第二段后面段落。依次类推。一旦增添了某一段落后提示有敏感词,就说明敏感词就在这一段。然后用同样类似的方法对这一段逐词筛查,最终一定能筛出敏感词来。简单说就是逐步缩小怀疑范围,从整篇文章缩小到自然段,从自然段全部文字缩小到一个词。

  晨雾今天要发的这篇《晨雾对志愿填报的紧急提示(2019版)》约2700字,18个自然段。用上述方法筛查,前面17个自然段居然都能顺利通过,只要加上第18个自然段,就提示有敏感词。说明敏感词就在第18自然段。然而第18自然段文字十分简单,就一句话:

  谁能想到这句话中有敏感词?经过一个词一个词地筛查,发现“祝福”是敏感词,把“祝福”换成“预祝”,文章就能成功发布了(如下截图)。

  为了筛查这个敏感词,晨雾花费了大约1小时的时间。但是毕竟是准确找到了,很爽!

  此前晨雾还写过文章,记录了曾经经历并记录下过几次与敏感词相关的事件。有些感觉很好笑,就是像笑话。最可悲的是你根本就搞不清楚什么是敏感词。趁此机会,晨雾把这几篇文章的链接罗列在此。你读了会对敏感词有新的理解。

  文章读到这里,细心的读者可能会提出一个疑问:既然筛查出“祝福”是敏感词,你现在这篇文章中从标题到内容,多次出现了“祝福”两个字,为什么文章却能顺利发布?你还真的把我问住了。我曾经把“晨雾衷心祝福考生和家长志愿填报成功,心想事成!11303管家婆222123。”这句话作为一篇文章单独发布,也成功了。这就让敏感词问题更加复杂化了。是不是有些词在与某些其他文字一起的时候才触发文章审核系统的敏感神经?太复杂了!谁能搞清楚?返回搜狐,查看更多