java调用python,有第三方包gensim,怎么调用呢,是报错。求教....

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java调用python,有第三方包gensim,怎么调用呢,是报错。求教....相关的知识,希望对你有一定的参考价值。

Jython(原JPython),是一个用Java语言写的Python解释器。

在没有第三方模块的情况下,通常选择利用Jython来调用Python代码,

它是一个开源的JAR包,你可以到官网下载

一个HelloPython程序

import org.python.util.PythonInterpreter;

public class HelloPython 

public static void main(String[] args) 

PythonInterpreter interpreter = new PythonInterpreter();

interpreter.exec("print('hello')");

什么是PythonInterpreter?它的中文意思即是“Python解释器”。我们知道Python程序都是通过解释器来执行的,我们在Java中创建一个“解释器”对象,模拟Python解释器的行为,通过exec("Python语句")直接在JVM中执行Python代码,上面代码的输出结果为:hello

 

在Jvm中执行Python脚本

interpreter.execfile("D:/labs/mytest/hello.py");  

 

如上,将exec改为execfile就可以了。需要注意的是,这个.py文件不能含有第三方模块,因为这个“Python脚本”最终还是在JVM环境下执行的,如果有第三方模块将会报错:java ImportError: No module named xxx

仅在Java中调用Python编写的函数

先完成一个hello.py代码:

def hello():

return 'Hello'

 

在Java代码中调用这个函数:

import org.python.core.PyFunction;

import org.python.core.PyObject;

import org.python.util.PythonInterpreter;

public class HelloPython 

public static void main(String[] args) 

PythonInterpreter interpreter = new PythonInterpreter();

interpreter.execfile("D:/labs/hello.py");

PyFunction pyFunction = interpreter.get("hello", PyFunction.class); // 第一个参数为期望获得的函数(变量)的名字,第二个参数为期望返回的对象类型

PyObject pyObject = pyFunction.__call__(); // 调用函数

System.out.println(pyObject);

上面的代码执行结果为:Hello

即便只是调用一个函数,也必须先加载这个.py文件,之后再通过Jython包中所定义的类获取、调用这个函数。

如果函数需要参数,在Java中必须先将参数转化为对应的“Python类型”,例如:

__call__(new PyInteger(a), new PyInteger(b))

 

a,b的类型为Java中的int型,还有诸如:PyString(String string)、PyList(Iterator<PyObject> iter) 等。

详细可以参考官方的api文档。

包含第三方模块的情况:一个手写识别程序

这是我和舍友合作写的一个小程序,完整代码在这里:

 ,界面上引用了core java上的一段代码。Python代码是舍友写的,因为在Python程序中使用了第三方的NumPy模块,导致无法通过Jython执行。下面这个方法纯粹是个人思路,没有深入查资料。 核心代码如下:

import java.io.*;

class PyCaller 

private static final String DATA_SWAP = "temp.txt";

private static final String PY_URL = System.getProperty("user.dir") + "\\\\test.py";

public static void writeImagePath(String path) 

PrintWriter pw = null;

try 

pw = new PrintWriter(new FileWriter(new File(DATA_SWAP)));

 catch (IOException e) 

e.printStackTrace();

pw.print(path);

pw.close();

public static String readAnswer() 

BufferedReader br;

String answer = null;

try 

br = new BufferedReader(new FileReader(new File(DATA_SWAP)));

answer = br.readLine();

 catch (FileNotFoundException e) 

e.printStackTrace();

 catch (IOException e) 

e.printStackTrace();

return answer;

public static void execPy() 

Process proc = null;

try 

proc = Runtime.getRuntime().exec("python " + PY_URL);

proc.waitFor();

 catch (IOException e) 

e.printStackTrace();

 catch (InterruptedException e) 

e.printStackTrace();

// 测试码

public static void main(String[] args) throws IOException, InterruptedException 

writeImagePath("D:\\\\labs\\\\mytest\\\\test.jpg");

execPy();

System.out.println(readAnswer());

实际上就是通过Java执行一个命令行指令。

参考技术A String exe1 = "D:\\Anaconda\\python";

String command = "C:\\Users\\19702\\Desktop\\NBayes\\NBayes_test.py";
String str = "调用python";
String[] cmdArr = new String[]exe1, command, str;
Process process = Runtime.getRuntime().exec(cmdArr);

InputStream is = process.getInputStream();
DataInputStream dis = new DataInputStream(is);

long startTime = System.currentTimeMillis();
strr = dis.readLine();
long endTime = System.currentTimeMillis();
System.out.println("用时:"+(endTime-startTime)/1000.0+"S");
String newStr = new String(strr.toString().getBytes("iso8859-1"), "gbk");

What is Gensim?

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

基本概念

  • 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
  • 向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
  • 稀疏向量(Sparse Vector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的tuple。
  • 模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

Step 1. 训练语料的预处理

训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。

通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前,我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。

由于语言和应用的多样性,Gensim没有对预处理的接口做出任何强制性的限定。通常,我们需要先对原始的文本进行分词、去除停用词等操作,得到每一篇文档的特征列表。例如,在词袋模型中,文档的特征就是其包含的word:

texts = [[‘human‘, ‘interface‘, ‘computer‘],
 [‘survey‘, ‘user‘, ‘computer‘, ‘system‘, ‘response‘, ‘time‘],
 [‘eps‘, ‘user‘, ‘interface‘, ‘system‘],
 [‘system‘, ‘human‘, ‘system‘, ‘eps‘],
 [‘user‘, ‘response‘, ‘time‘],
 [‘trees‘],
 [‘graph‘, ‘trees‘],
 [‘graph‘, ‘minors‘, ‘trees‘],
 [‘graph‘, ‘minors‘, ‘survey‘]]

其中,corpus的每一个元素对应一篇文档。

接下来,我们可以调用Gensim提供的API建立语料特征(此处即是word)的索引字典,并将文本特征的原始表达转化成词袋模型对应的稀疏向量的表达。依然以词袋模型为例:

from gensim import corpora
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
print corpus[0] # [(0, 1), (1, 1), (2, 1)]

到这里,训练语料的预处理工作就完成了。我们得到了语料中每一篇文档对应的稀疏向量(这里是bow向量);向量的每一个元素代表了一个word在这篇文档中出现的次数。值得注意的是,虽然词袋模型是很多主题模型的基本假设,这里介绍的doc2bow函数并不是将文本转化成稀疏向量的唯一途径。在下一小节里我们将介绍更多的向量变换函数。

最后,出于内存优化的考虑,Gensim支持文档的流式处理。我们需要做的,只是将上面的列表封装成一个Python迭代器;每一次迭代都返回一个稀疏向量即可。

class MyCorpus(object):
    def __iter__(self):
        for line in open(‘mycorpus.txt‘):
            # assume there‘s one document per line, tokens separated by whitespace
            yield dictionary.doc2bow(line.lower().split())

Step 2. 主题向量的变换

对文本向量的变换是Gensim的核心。通过挖掘语料中隐藏的语义结构特征,我们最终可以变换出一个简洁高效的文本向量。

在Gensim中,每一个向量变换的操作都对应着一个主题模型,例如上一小节提到的对应着词袋模型的doc2bow变换。每一个模型又都是一个标准的Python对象。下面以TF-IDF模型为例,介绍Gensim模型的一般使用方法。

首先是模型对象的初始化。通常,Gensim模型都接受一段训练语料(注意在Gensim中,语料对应着一个稀疏向量的迭代器)作为初始化的参数。显然,越复杂的模型需要配置的参数越多。

from gensim import models
tfidf = models.TfidfModel(corpus)

其中,corpus是一个返回bow向量的迭代器。这两行代码将完成对corpus中出现的每一个特征的IDF值的统计工作。

接下来,我们可以调用这个模型将任意一段语料(依然是bow向量的迭代器)转化成TFIDF向量(的迭代器)。需要注意的是,这里的bow向量必须与训练语料的bow向量共享同一个特征字典(即共享同一个向量空间)。

doc_bow = [(0, 1), (1, 1)]
print tfidf[doc_bow] # [(0, 0.70710678), (1, 0.70710678)]

注意,同样是出于内存的考虑,model[corpus]方法返回的是一个迭代器。如果要多次访问model[corpus]的返回结果,可以先讲结果向量序列化到磁盘上。

我们也可以将训练好的模型持久化到磁盘上,以便下一次使用:

tfidf.save("./model.tfidf")
tfidf = models.TfidfModel.load("./model.tfidf")

Gensim内置了多种主题模型的向量变换,包括LDA,LSI,RP,HDP等。这些模型通常以bow向量或tfidf向量的语料为输入,生成相应的主题向量。所有的模型都支持流式计算。关于Gensim模型更多的介绍,可以参考这里:API Reference

Step 3. 文档相似度的计算

在得到每一篇文档对应的主题向量后,我们就可以计算文档之间的相似度,进而完成如文本聚类、信息检索之类的任务。在Gensim中,也提供了这一类任务的API接口。

以信息检索为例。对于一篇待检索的query,我们的目标是从文本集合中检索出主题相似度最高的文档。

首先,我们需要将待检索的query和文本放在同一个向量空间里进行表达(以LSI向量空间为例):

# 构造LSI模型并将待检索的query和文本转化为LSI主题向量
# 转换之前的corpus和query均是BOW向量
lsi_model = models.LsiModel(corpus, id2word=dictionary, num_topics=2)
documents = lsi_model[corpus]
query_vec = lsi_model[query]

接下来,我们用待检索的文档向量初始化一个相似度计算的对象:

index = similarities.MatrixSimilarity(documents)

我们也可以通过save()load()方法持久化这个相似度矩阵:

index.save(‘/tmp/deerwester.index‘)
index = similarities.MatrixSimilarity.load(‘/tmp/deerwester.index‘)

注意,如果待检索的目标文档过多,使用similarities.MatrixSimilarity类往往会带来内存不够用的问题。此时,可以改用similarities.Similarity类。二者的接口基本保持一致。

最后,我们借助index对象计算任意一段query和所有文档的(余弦)相似度:

sims = index[query_vec] # return: an iterator of tuple (idx, sim)

以上是关于java调用python,有第三方包gensim,怎么调用呢,是报错。求教....的主要内容,如果未能解决你的问题,请参考以下文章

初试主题模型LDA-基于python的gensim包

NER----pythonNLP工具包

What is Gensim?

NLP:Gensim库之word2vec

使用 gensim 了解 LDA 实现

如何在Java中调用Python代码