来源:南方都市报
Sent to you by 参考消息 via Google Reader:
汉语语词自动检测系统的能耐
作者:王晶(巴黎・索邦大学语言学专业研究生)
来源:南方都市报
时间:2010年1月22日
为了求证发黄段子就要停机是否属实,我在前两天拨打了韩寒的电话。不出所料,尽管转发了不少黄段子,韩寒的手机功能一切正常。到底什么是黄段子鉴定的实际技术标准?为什么“你妈妈做的红烧肉棒极了”、“24口交换机”这样的短信,竟然可能会给人带来麻烦?上海移动一名工作人员的回答让人惊讶:“理论上来说,只要发送黄段子就会被系统自动检测到。”但在我看来,这不过是对技术无知的呓语罢了。
人们经常说汉语博大精深,但民众未必了解这门语言的美妙与困难对于计算机自动处理来说到底意味着什么:其实对汉语自动化处理这门学科稍有了解的人都知道,目前的技术离达到使计算机“理解”语意的境界还差得非常远,至多是在做一些基础性工作。其中,自动断句(专业上称为分词)就是一切其他应用的根本,也是最大的难点,因为它涉及汉语语言学的基础理论研究、数据库的建立以及海量规则的设计,目前仍然只能在容错率相对很高的媒介上运用,如搜索引擎。
绿坝花了4000万,从专业角度来看,这个软件使用的仍然是老旧的关键字识别技术,实际可能远不值这么多钱。而要做出具有广泛实用意义的自然语言理解、处理的过滤软件,不仅其造价将是天文数字,也需要汉语语言学界、计算机科学界再出上三五个王力、图灵(现代计算机始祖)才能做得到。
目前的情况是,即便在国内一些设立“汉语自动化处理”专业的科研单位,很多学生也只能对语句先进行手工分词,再人工整理数据库。这一汉语自动化处理的瓶颈,从其发展之初就很少改善过;而技术实力强如美国者,也只是在算法上比较领先而已,其数据库的建设仍然达不到在社会中实际广泛运用甚至直接用来干预社会生活的技术标准。
而针对动用技术手段禁止黄段子传播,声称“只要发送黄段子就会被系统检测到”,就好像禁止地球围绕太阳运转一样可笑:仅就技术而言,我们仍然处在人工智能发展的石器时代;而“幽默”是人类智能高度发达的产物,是建立在社会群体意识上的,不仅无法复制,甚至很难作为科学对象来研究。语言作为“幽默”的载体和表现,往往正是靠语言歧义达到效果,因此在大量黄段子里,并不会真的出现任何可用目前技术检测、搜索的关键字。要在目前技术下做到禁绝黄段子,除非连“线头”、“大老粗”、“先进性教育”这样的词语都从社会语言中剔除掉,而这显然是绝无可能的。
最后,建议有关部门还是不要对技术抱有不切实际的幻想了:文中所谈及的关键技术问题,任何一条都需要中国的科技实力超越美国100年才有可能做到。如果中国的科研单位能在最近几年内做出具有广泛实用意义的自然语言理解、处理的软件,我不仅不会跳起来反对,反而会欢呼,因为这将说明我们的底层理论及其高端应用将彻底领先全世界。在这之前,如果有关单位再遇到上门推销过滤软件、声称可以达到对社会进行语言控制的公司或个人,作者建议直接将来人扭送公安局,并以诈骗罪追究其责任。这一建议长期有效。
想保证博客的稳定与信息安全吗?快来,一键备份博客大巴文章到新浪博客!请点击进入~
Things you can do from here:
- Subscribe to 牛博山寨头条 using Google Reader
- Get started using Google Reader to easily keep up with all your favorite sites
您收到此邮件是因为您订阅了 Google 网上论坛的“参考消息(G4G)”论坛。
要向此网上论坛发帖,请发送电子邮件至 go2group@googlegroups.com。
要取消订阅此网上论坛,请发送电子邮件至 go2group+unsubscribe@googlegroups.com。
若有更多问题,请通过 http://groups.google.com/group/go2group?hl=zh-CN 访问此网上论坛。
没有评论:
发表评论