要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术涉及的学
科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简
单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就
要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可
能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于
中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那
样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高
境界,实现人类的梦想。
从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经
先一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中
文, 究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,我们才有希望赶
上并超 过英文在信息领域的发展,所以中文分词对我们来说意义重大,可以说直接影响到
使用中文 的每一个人的方方面面。
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有
结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是
把 最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响
到对 搜索结果的相关度排序。在现有三个中文搜索引擎上做测试,测试方法是直接在
中文分词的意义和作用
2009年12月27日 由 admin 留言 »
广告位