2009年1月25日星期日

[G4G] Re: 为何我们的言论被无故屏蔽?

最龌龊的权力机构:相关部门


本来已经打算不顾个人形象,发文骂人了。后来为了服务器上行问题的事情忙了一个晚上,现在想想算了,何必自毁形象呢。

发生在昨天(1 月 23 日)的故事,主角很强大、很神秘,他就是传说中的"相关部门"。

昨天快到中午的时候收到一个短信,服务器监控系统自从使用几个月以来破天荒地第一次发短信提醒我线路可能出现问题。马上试图打开自己的博客,失败;ping 到服务器,超时。

之 后的第一反应就是打电话。先联系了服务提供商,对方说人在外地,给了机房值班人员的电话,让我自己联系。和机房的人联系上后被告知因为服务器上存在未备案 的网站而被强行断网。我暂时不想问太多,恢复服务要紧。问他哪个域名有问题,他说稍等让他查一下。稍等了半天给我答复,他这里查不到,又给了另外一个人的 QQ 号码,让我找他查询。到这里我有点纳闷了,为什么是一个 QQ 号码,人家没有电话吗?机房的人说:你就和他 QQ 联系吧。

行,我不和你计较。加上那人的 QQ 号码,有意思的是,那人的 QQ 签名很有意思:"有事直奔主题,忙!"。于是我留言说明来意,对方效率还不错,一会就发来一个表格,然后抛下一句话:"处理好了留言给我。"

我打开表格,我就傻眼了。列表中我的服务器上存在问题的网站只有一个,而且居然是一个博客系统开发团队的网站而已。看图:

因为 Typecho 项目是以 70 同学为首、且我自己参与其中的一个技术性项目,于是马上联系了 70。70 听完我说明的情况表示 typecho.net 的确没有备案,并且无意备案;发生这样的事情,只能被迫转移到国外去了。然后我答应尽快协助迁移备份数据,就挂了电话。

下午 14 点,我解除了 typecho.net 域名的绑定。然后我就以为没事了,继续和易先生折腾服务器上行的问题去了。

下午 17 点 56 分,易先生告诉我服务器上网通 IP 依然不通。于是我再一次接通机房电话,值班人员说这次清理未备案网站工作本身就是"相关部门"下达的"旨意",我服务器的网通 IP 要等"相关部门"统一解封了。好吧,我继续忍。

晚 上 20 点 47 分,易先生又给我带来一个坏消息:电信线路再次不通。我的忍耐终于上升到了一个不能再上升的新的高度,随即致电机房。机房说:"你的网站还是能打开的 呀?"我无语,域名的解析没有修改,访问网站当然能正确达到服务器上;问题是我已经取消了域名指向目录的绑定,现在访问到的只是服务器的默认页面而已。我 质问机房的人"你不会直接访问一下 IP 看看是不是也一样吗?"机房的小伙子好像很委屈,说他们只是接到"相关部门"的通知而已,并且建议我删除网站的内容就行了。我继续无语,能这么随便搞么。 随即我把 70 同学的域名绑定到了一个空目录上,然后终于通过了"相关部门"的"御审",嗯,问题解决。

整个过程中我不断收到服务器监控系统发来的报警邮件:

其实昨天一整天我似乎真的没有愤怒,相反我觉得很无奈,还很可笑。你的政绩工程名下,居然是以牺牲无辜人的利益为基础的。什么严打、反低俗,都是借口,还是冠冕堂皇的理由?

突然想到牛博网被和谐的事情。我终于说不出话,并且不想再说话了。

一个搞技术的、一个从事博客系统开发的技术团队的网站,居然可以在没有任何预先通知的情况下被冠以未备案的帽子而直接拔掉服务器网线。这,就是发生在和谐天朝的活生生的事情。

乏了,睡觉。



2009/1/26 参考消息 <go2group@gmail.com>
我们常常遇到这样的问题:写完自己的日志后,刚点了发布,弹出信息:您的言论违反了...... 而事实上,我们的言论并不含违禁内容。那么到底是哪儿出了问题?

 
 

Sent to you by 参考消息 via Google Reader:

 
 

via GFW Blog by GFW Blog on 1/25/09

作者:casa   来源:http://micarum.blogspot.com/2009/01/block.html

我们常常遇到这样的问题:写完自己的日志后,刚点了发布,弹出信息:您的言论违反了...... 而事实上,我们的言论并不含违禁内容。那么到底是哪儿出了问题?

这里就不得不提网站进行文本过滤时所采用的技术了,所有的过滤技术都离不开分词这一概念。这个分词并不是我们在讨论英语语法时所说的概念,而是切分词汇,是一个语料库语言学所涉及的概念。

我简单地介绍一下这个概念,前些年,百度曾经做过一个广告标榜自己的中文搜索非常先进。它的广告语是这么写的:
我知道你不知道我知道你不知道我知道你不知道
我们可以试试有多少种读法:
我知道,你不知道。我知道,你不知道我知道,你不知道

我知道你,不知道我。知道你不知道我,知道你不知道

我,知道你不知道我知道。你,不知道我知道你不知道

这几个是百度当年给出的答案,或许有更多的断句方式,这里所说的断句在语言学中就被称为分词。当时百度之所以标榜自己的中文搜索先进,就是因为它的中文分词技术当时领先于Google,所以李彦宏不无炫耀地称百度比Google更懂中文。时至今日,两家的中文分词技术不分上下,所以百度再也不敢标榜自己更懂中文了。

具体说来,语言学中的分词概念远比断句复杂。因为语言学中的分词技术是用于语料库标注的,所以不仅仅是断句属于分词的概念,包括词语的切分,意群的切分,语句的切分等等,这些都是分词技术的范畴。

至 于网站在屏蔽中所采用的关键词过滤技术,实际上与分词这一概念有很大的联系。为什么呢?因为关键词过滤就是考虑关键词匹配问题,一旦与字典中所含的词匹 配,那么计算机就判断为匹配。但是计算机所使用的字典是死的,只是一一对应,并不会进行分词。我们来看看这个例子:我们的士气高涨。假使网站要屏蔽"的士 "二字,那么这句话毫无疑问就被屏蔽了,因为按照关键词匹配,这句话就被拆成:
[我们][的士][气][高涨][。]在这里计算机会将士气标注为关键词。这就是为什么很多言论被无故屏蔽的原因。

当然语言学中的分词技术已经可以判断这句话了
:[我们][的][士气][高涨][。] 具体采用的技术是字典计算加标注加概率计算。目前主流的搜索引擎恰恰采用的就是语言学中的分词技术,而且已经比较完善了。另外中文等东方语系中的分词技术远比印欧语系要难,主要是由书写结构所决定的。

一般来说,网站采用的都是最原始的分词技术,仅仅是关键词匹配,并未进行语义识别。所以误判在所难免,当然从另一方面而言,使用非敏感词替代敏感词是躲避屏蔽非常有效的手段。譬如用"县长"替代"宪章"......


 
 

Things you can do from here:

 
 



--
鹅是一个兵,来自老百姓
鹅不是老大,天才是老大
您无所不谈,鹅也不例外
鹅是参考消息@无所不坛
janadabc.blogspot.com
墙内请用谷歌阅读器订阅

--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"参考消息(G4G)"论坛。
 要在此论坛发帖,请发电子邮件到 Go2group@googlegroups.com
 要退订此论坛,请发邮件至 Go2group+unsubscribe@googlegroups.com
 更多选项,请通过 http://groups.google.com/group/Go2group?hl=zh-CN 访问该论坛

-~----------~----~----~----~------~----~------~--~---

没有评论: