Java:BreakIterator是如何取词的

Posted bdmh

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java:BreakIterator是如何取词的相关的知识,希望对你有一定的参考价值。

BreakIterator是Java提供的一个用来判断语言边界的类。给定一个字符串和一个索引位置,BreakIterator可以根据本地语言边界限定规则,找到这个索引前后,可以和它组成词语或句子的字符的索引,我们可以根据begin和end索引来获取这个单词。

比如下面的字符串:

Hello World

当指定索引8时,也就是字符o和r之间时,用BreakIterator去分词,就可以得到World这个单词。看下面的图就能看到了。

 BreakIterator提供了四种边界判断

getWordInstance
getLineInstance
getCharacterInstance
getSentenceInstance

这里我们就以getWordInstance为例,来看看BreakIterator是如何工作的。

首先要初始化BreakIterator

import java.text.BreakIterator;

BreakIterator bi = BreakIterator.getW

以上是关于Java:BreakIterator是如何取词的的主要内容,如果未能解决你的问题,请参考以下文章

Android:EditText长按选词的过程

哪一个软件可以实现鼠标取词翻译

Java:BreakIterator

急求用vc6做的鼠标取词程序,谢谢好心人

bert不同句子中的词向量会变化吗

有道词典怎么在谷歌浏览器屏幕取词