Banner
首页 > 新闻动态 > 内容

新闻详情

News detail

SEO网络推广中文分词须知

编辑:杭州有限公司时间:2020-08-07

分词是中文搜索引擎中特有的技术。在英文中已单词为单位,单词之间会有空格,并且每个单词都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只有将一句话中所有的字串联起来才能表达一个完成的意思。计算机不能直接把中文分成单个字来理解,所以就要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“我是一个学生”切分成“我/是/一个/学生。

搜索引擎面对中文网页就是这样,靠中文分词来理解网页所描述的内容。其实分词技术的基础就是拥有海量有意义的词库,搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这会直接决定该网页出现在那些词的搜索结果中,所以中文分词在SEO工作中也是需要潜心研究的。现在很多SEO人员只是知道有这么个技术,但是对这项技术具体是怎么进行分词的。以及中文分词怎么运用到SEO工作中的还是一无所知。

搜索引擎对于中文内容得到理解和分词一直都没有太大的进步,所以搜索引擎程序在判断网页内容和关键词的相关性方面的技术,与几年前相比也并没有太大的进步,现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好的支持。

1:基于词典匹配

这种分词技术是使用搜索引擎增加的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和逆向匹配:按照不同长度优先匹配的不同可以分为最长匹配和最短匹配。常见的三种匹配方法是正向最大匹配,逆向最大匹配和最小切分。

不论使用什么样的匹配方式,都是使用搜索引擎已有的词典,对网页内容进行拆分理解。这种分词方式的准确度取决于词典的完整性和更新情况。如果当一个新词出现时,搜索引擎没有及时把该词加入到词典中,那么就会影响最终的分词精度。尤其是网络如此发的今天,几乎每天都有新词出现。

2:基于统计

这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,并且利用消除歧义。

在当前的搜索引擎中文分词多多少少会存在一些难题没有解决,这可能是因为汉语真的太博大精深,在当下计算机根本不可能完全理解。比如网络上流传的两句话:“以前喜欢一个,现在喜欢一个人”“以前谁都看不上,现在谁都看不上”,有些人第一眼看到这里