一、分词的概念
中文的分词指的是将一个较长的汉语词语切分成一个一个单独的词语,再按照一定的规格重新组合成词序的过程,也被称为中文的切词。
但是搜索引擎会这样来分:会分成7个词
二、分词的方式
分词的方式有3种
2.1基于字典匹配的分词方法
是指目标词或句与已有字典中的词条进行匹配处理,扫描之后匹配成句,词,字形式。
A:按照扫描方向不同,可分为正向匹配和逆向匹配
B:按照片扫描方向和长度优先混合匹配,可分为正向最大匹配和逆向最大匹配
C:混合匹配
2.2基于统计匹配的分词方法
是指分析大量数据样本,扫描计算出字或词出现的统计概率,几个字相邻出现越多,就越能形成一个词,同样的可以形成句。
2.3基于理解匹配的分词方法
搜索引擎逐渐做到去模拟中文语法,富春江理解句子:
例:深圳婚庆租车公司分词组合:
三、案例说明
在百度搜索搜索:欧莱雅活性炭先面奶 会找到
由于搜索引擎的博大精深,目前的搜索引擎还是很难做到基于理解的分词技术。
1. 如有链接无法下载、失效或广告,请联系QQ:181289218 处理!
2. 本站的所有资源为购买、网络收集,或者用户投稿的资源,版权归原作者及网站所有!
3. 如若侵犯了您的权利,请及时联系站长删除!
4. 本站提供的资源,都不包含技术服务请大家谅解!
5. 此软件“仅限学习交流,不能用于商业用途”!
6. 如用于商业用途,请到官方购买正版软件,追究法律责任与“云墨SEO”站点无关!
2. 本站的所有资源为购买、网络收集,或者用户投稿的资源,版权归原作者及网站所有!
3. 如若侵犯了您的权利,请及时联系站长删除!
4. 本站提供的资源,都不包含技术服务请大家谅解!
5. 此软件“仅限学习交流,不能用于商业用途”!
6. 如用于商业用途,请到官方购买正版软件,追究法律责任与“云墨SEO”站点无关!
- 我的微信
- 这是我的微信扫一扫
- 站长技术资源群
- QQ群:431710796
评论