跪求Lucene 3.0.1 自带 Demo 包里使用中科院ICTCLAS 分词的具体方法。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了跪求Lucene 3.0.1 自带 Demo 包里使用中科院ICTCLAS 分词的具体方法。相关的知识,希望对你有一定的参考价值。
我在网上搜了很长时间, 没有找到中科院的ICTCLAS与Lucene 结合的具体方法。请高手解决此难题, 我的开发环境是 windows, eclipse ,谢谢!我是初学者,最好能提供源代码及使用方法。
public class Indexerprivate IndexWriter writer;
private Analyzer analyzer;
public Indexer(String indexDir) throws IOException
Directory dir = FSDirectory.open(new File(indexDir));
analyzer = new SmartChineseAnalyzer(Version.LUCENE_35, true); // 中文分词
writer = new IndexWriter(dir, analyzer, IndexWriter.MaxFieldLength.UNLIMITED);
// 建立索引
public void indexFile(File f) throws Exception
System.out.println("Indexing " + f.getCanonicalPath());
Document doc = getDocument(f);
writer.addDocument(doc);
// 输出关键词文本内容
public void getTermText(String fieldName, String text)
TokenStream stream = analyzer.reusableTokenStream(fieldName, new StringReader(text)); // 重用流,以便提速性能
CharTermAttribute charTerm = stream.addAttribute(CharTermAttribute.class); // 获取关键词
String word;
while(stream.incrementToken())
word = charTerm.toString();
System.out.print(word + " ");
protected Document getDocument(File f) throws Exception
Document doc = new Document();
doc.add(new Field("contents", new FileReader(f)));
doc.add(new Field("filename", f.getName(),
Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("fullpath", f.getCanonicalPath(),
Field.Store.YES, Field.Index.NOT_ANALYZED));
return doc;
imdict-chinese-analyzer - imdict智能词典所采用的智能中文分词程序
http://code.google.com/p/imdict-chinese-analyzer/
这些应该对你有用。追问
SmartAnalyzer 虽是采用 HMM算法, 但不支持人名,地名识别。 它是ICTCLAS的简化版
参考技术A 同求!!!! 838246270@qq.comArcFace Demo [Windows]
Arcsoft ArcfaceDemo for Windows, VS2013 C++
使用步骤:
1.下载SDK包,32位Windows平台将五个SDK包里lib中的文件到 DemolibWin32下;64位Windows平台将五个SDK包里lib中的文件到 Demolibx64下。
2.在VS2013中打开Demo.sln文件,运行工程,修改工程配置选择32位或64位。
3.前往官网申请APPID和SDKKEY, 修改 Demostdafx.h 下面的对应的
#define APPID ""
#define FT_SDKKEY ""
#define FD_SDKKEY ""
#define FR_SDKKEY ""
#define AGE_SDKKEY ""
#define GENDER_SDKKEY ""
4.如果出现下图的错误,32位平台将DemolibWin32文件夹下的全部dll文件拷贝到, Release或Debug文件夹中;64位平台将Demolibx64文件夹下的全部dll文件拷贝到x64Release或x64Debug文件夹中。
运行程序,界面如下图。使用方法:
- 点击“选择图片添加到人脸库”选择图片,将图片中的人脸特征信息添加到人脸库,人脸信息会显示到右侧人脸库,编辑图片下方的文字修改图片对应的名字。
- 点击“识别图片”按钮选择图片进行人脸识别。
- 点击“识别视频”按钮选择视频文件进行人脸识别。
- 点击“识别摄像头”按钮选择摄像头进行人脸识别,程序默认打开第一顺位的摄像头,如想打开其他摄像头请在源码中更改。
以上是关于跪求Lucene 3.0.1 自带 Demo 包里使用中科院ICTCLAS 分词的具体方法。的主要内容,如果未能解决你的问题,请参考以下文章