Java:BreakIterator是如何取词的
Posted bdmh
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java:BreakIterator是如何取词的相关的知识,希望对你有一定的参考价值。
BreakIterator是Java提供的一个用来判断语言边界的类。给定一个字符串和一个索引位置,BreakIterator可以根据本地语言边界限定规则,找到这个索引前后,可以和它组成词语或句子的字符的索引,我们可以根据begin和end索引来获取这个单词。
比如下面的字符串:
Hello World
当指定索引8时,也就是字符o和r之间时,用BreakIterator去分词,就可以得到World这个单词。看下面的图就能看到了。
BreakIterator提供了四种边界判断
getWordInstance
getLineInstance
getCharacterInstance
getSentenceInstance
这里我们就以getWordInstance为例,来看看BreakIterator是如何工作的。
首先要初始化BreakIterator。
import java.text.BreakIterator;
BreakIterator bi = BreakIterator.getW
以上是关于Java:BreakIterator是如何取词的的主要内容,如果未能解决你的问题,请参考以下文章