Ruby PDF::Reader 使用正则表达式匹配项目符号
Posted
技术标签:
【中文标题】Ruby PDF::Reader 使用正则表达式匹配项目符号【英文标题】:Ruby PDF::Reader matching bullet point with Regex 【发布时间】:2016-03-29 20:23:26 【问题描述】:我已经用 PDF::Reader 在 Ruby 中解析了一个 pdf 文档。 pdf文件的要点在我的解析文本中显示为一个奇怪的立方体,里面有F0B7(我还附上了打印屏幕):
__
|F0|
|B7|
我想知道我是否可以将这个“要点”与正则表达式匹配,如果可以,那么合适的方法是什么?我完全不知道要解决这个问题,因为我什至不确定这首先是字符串的一部分。谢谢
【问题讨论】:
【参考方案1】:这是一个带有 codepoint F0B7
的 unicode 符号。
不幸的是,您的 Ubuntu 安装的默认字体缺少该字形,当字体定义中缺少字形时,常用方法是将其代码点绘制成正方形。
匹配它的正则表达式是:
/\uF0B7/
【讨论】:
以上是关于Ruby PDF::Reader 使用正则表达式匹配项目符号的主要内容,如果未能解决你的问题,请参考以下文章
python正则表达式如何用已知字符串(如"aaa")替换文件中匹中的分组内容,不是匹中的全部,而是其中一个组