如何使用 POI 读取 word 文档中每个单词的字体大小?

Posted

技术标签:

【中文标题】如何使用 POI 读取 word 文档中每个单词的字体大小?【英文标题】:How to read font size of each word in a word document using POI? 【发布时间】:2013-07-09 04:41:54 【问题描述】:

我试图找出 word 文档中是否存在字体为 2 的任何内容。但是,我无法做到这一点。首先,我尝试在只有一行和 7 个单词的示例 Word 文档中读取每个单词的字体。我没有得到正确的结果。

这是我的代码:

HWPFDocument doc = new HWPFDocument (fileStream);
WordExtractor we = new WordExtractor(doc);
Range range = doc.getRange()
String[] paragraphs = we.getParagraphText();
for (int i = 0; i < paragraphs.length; i++) 
  Paragraph pr = range.getParagraph(i);
  int k = 0
  while (true) 
     CharacterRun run = pr.getCharacterRun(k++);
     System.out.println("Color: " + run.getColor());
     System.out.println("Font: " + run.getFontName());
     System.out.println("Font Size: " + run.getFontSize());
     if (run.getEndOffSet() == pr.getEndOffSet())
       break;
  

但是,上面的代码总是将字体大小加倍。即如果文档中的实际字体大小为 12,则输出 24,如果实际字体为 8,则输出 16。

这是从word文档中读取字体大小的正确方法吗??

【问题讨论】:

你可以尝试使用this Word-VBA logic(如果可能在java中)... 【参考方案1】:

是的,这是正确的方法;测量值是半点。

在 docx 中,你会有类似的东西:

<w:rPr>

  <w:sz w:val="28" /> 

</w:rPr>

ECMA 376 spec on @sz 定义单位为ST_HpsMeasure (Measurement in Half-Points)

它与 HWPF 支持的二进制文档格式相同。如果您查看[MS-DOC],您会发现它还以半磅为单位指定了文本的大小。

【讨论】:

以上是关于如何使用 POI 读取 word 文档中每个单词的字体大小?的主要内容,如果未能解决你的问题,请参考以下文章

关于poi读和写word文档

如何使用JAVA,POI读写word文档

求poi API 中文文档 最好是针对于word解析的

使用 POI 读取 Word docx 中的书签替换书签内容(汉字或合并外部文档内容)

读取word文档,暂时不能读取图片,案例代码

poi读取word 。内容中包含图片,怎么整体读取数据呢!(也就是需要整体当做一条数据插入数据库)?