谷歌视觉 API 两列图像文本提取变得一团糟
Posted
技术标签:
【中文标题】谷歌视觉 API 两列图像文本提取变得一团糟【英文标题】:Google vision API two columns image text extraction getting messed up 【发布时间】:2021-11-21 23:51:09 【问题描述】:我正在使用 DOCUMENT_TEXT_DETECTION
feature 类型的 Google vision API (node.js)。它可以正确提取文本,但会弄乱列序列。我希望它应该首先返回第一列的文本,然后相应地返回另一列的文本。请查看输入图像和提取的文本。
从响应 json 的 fullTextAnnotation.text
属性中提取文本。
Samanburður á upplifun starfsmanna
131
saman starfsánægju hjá starfsmönnum í
einkareknum og opinberum fyrirtækjum eru
misvísandi (Demoussis og Giannakopoulos,
2007; Macklin, Smith og Dollard, 2006) og því
er erfitt að spá fyrir um það hvort starfsánægja
sé meiri innan hóps opinberra starfsmanna eða
starfsmanna einkageirans hér á landi.
Broeck (2007) kemur fram að starfsmenn hins
opinbera upplifa minni togstreitu milli vinnu og
fjölskyldu en starfsmenn einkageirans.
Síðustu ár hafa fræðimenn bent á mikilvægi
þess að rannsaka í meira mæli jákvæðar hliðar
á samspili milli vinnu og einkalífs. Auðgun
(e. enrichment) milli starfs og fjölskyldu á sér
stað þegar þátttaka á einu sviði (t.d. fjölskyldu)
verður auðveldari með reynslu eða færni sem
þróast á hinu sviðinu (vinnu). Með öðrum orðum
á auðgun sér stað þegar reynsla eða úrræði sem
notað er á einu sviði bætir frammistöðu á hinu
(Carlson, Kacmar, Wayne og Grzywacz, 2006;
Frone, 2003; Greenhaus og Poweel, 2006).
Rannsóknir benda til þess að auðgun hafi jákvæð
tengsl við lífs- og starfsánægju (Hill, 2005;
Wayne, Musisca og Fleeson, 2004), ánægju
í hjónabandi (Hill, 2005), tilfinningatryggð
(e. affective commitment; Wayne, Randel og
Stevens, 2006) og neikvæð tengsl við streitu
(Hill, 2005). Líkt og í erlendum rannsóknum
sýndu niðurstöður úr rannsókn Auðar Örnu
Arnardóttur og félaga (2007) að þeir sem
upplifðu auðgun í starfi voru ánægðari í starfi,
ánægðari með fjölskylduna og lífið og sýndu
fyrirtæki sínu jafnframt meiri hollustu.
Tengsl starfsmanns við vinnustað og
vinnuveitanda
Eitt af meginverkefnum vinnuveitenda í sífellt
harðari samkeppni um hæft starfsfólk snýst
um að halda í bestu starfskraftana. Ein leið til
þess að festa starfsmenn í sessi er að rækta með
þeim hollustu gagnvart fyrirtækinu og hvetja til
þegnhegðunar af þeirra hálfu.
Hollusta starfsmanns við fyrirtækið
Hollusta (e. commitment) hefur verið einn af
miðpunktum rannsókna um sambandið milli
einstaklings og fyrirtækis. Hollustu er ekki
hægt að þvinga fram hjá starfsmanni heldur
verður hún að koma fram af sjálfsdáðum og er
hún jafnframt persónubundin (Swailes, 2002).
Porter og félagar (1974) skilgreina hollustu
starfsmanns sem það að starfsmaður upplifi
sig sem hluta af fyrirtækinu og taki virkan
þátt í starfsemi þess. Rannsóknir hafa fundið
jákvæð tengsl á milli mats starfsfólks á eigin
hollustu við löngun til að halda áfram störfum
hjá fyrirtækinu (Loi, Ngo, 2006), við vellíðan í
starfi (sjá Cook og Wall, 1980 í Swailes, 2002)
og neikvæð tengsl við fjarvistir (Lyness og
Thompson, 1997). Rannsókn Lyons, Duxbury
og Higgins (2006) sýndi einnig að starfsmenn
í einkareknum fyrirtækjum sýna meiri hollustu
en starfsmenn í opinberum fyrirtækjum.
Starfsánægja
Ánægja í starfi snýst um hvernig starfsmaður
metur starf sitt út frá starfsreynslu sinni,
væntingum sínum til starfsins og samanburði
(Cranny, Smith og Stone, 1992; Locke, 1976).
Starfsánægja er mikilvægur forspárþáttur um
almenna vellíðan og hamingju fólks (Argyle,
2001). Hún snýr að einstökum þáttum í starfinu
eða á vinnustaðnum eins og launum, tegund
starfs, vinnuaðstæðum, yfirmönnum, stefnu
fyrirtækis og vinnuferlum, samskiptum við
samstarfsmenn, tækifærum til starfsþróunar
og stöðuhækkunum svo dæmi séu tekin
(Cranny, Smith og Stone, 1992; Riggio, 2003).
Rannsóknir sýna að starfsánægja hefur jákvæð
tengsl við stuðning frá fyrirtækinu (Rhoades
og Eisenberger, 2002), hollustu starfsmanns
(Riggio, 2003; Swailes, 2006; Yoon og Thye,
2002) og þegnhegðun (Podsakoff, o.fl., 2000).
Niðurstöður erlendra rannsókna sem bera
Þegnhegðun
Þegnhegðun (e. organizational citizenship
behavior) hefur verið skilgreind sem hegðun
sem er fyrirtækinu í hag og starfsmaður
sýnir að eigin frumkvæði (Podsakoff, o.fl.,
2000). Fimm þátta líkan Organs (1988)
skiptir þegnhegðun í fimm þætti: Fórnfýsi (e.
altruism), samviskusemi (e.conscientiousness),
drengskap (e. sportsmanship), tillitssemi
Sálfræðiritið, 13. árg. 2008
【问题讨论】:
可以提供您的代码吗?是PDF还是png格式?你试过用TEXT_DETECTION
吗?
@PjoterS 当然!它适用于PDF和图像。是的,我用过,但结果是一样的。主要问题是两列文本。这是代码:pastebin.com/9bLz9n06
Cloud Vision 由机器学习模型提供支持,有时结果与我们预期的不同。作为一种解决方法,您可以拆分这些图像,但这需要大量的手动工作。但您可以尝试使用this thread 中提到的BoundingPoly 和Vertex 响应属性
@PjoterS 嗯。手动工作非常困难,因为我必须在 AWS lambda 中完成所有工作。还有两列文本PDF。是的,我正在尝试使用BoundingPoly
和nomalizedVertex
对块进行排序。谢谢!
有什么更新吗?您是否能够通过BoundingPoly
和nomalizedVertex
解决您的问题?
【参考方案1】:
我想我找到了解决这个专栏问题的方法。
正如我在 cmets 中提到的,Cloud Vision
由机器学习模型提供支持,结果可能会因许多因素而有所不同。我认为在这种情况下,问题是右侧的边距太大。
Cloud Vision - OCR有两种常用的使用方式:
TEXT_DETECTION
- 从任何图像中检测和提取文本。
DOCUMENT_TEXT_DETECTION
- 从图像中提取文本,但响应针对密集文本和文档进行了优化。
在Cloud Vision Demo我测试了原图和margin更小的图,得到了预期的结果。
我使用了第 3 方软件 Deftpdf 来减少 OP 的 example PDF 的边距。后来我测试了以下Detect text in files (PDF/TIFF) 文档(使用带有document_text_detection
和Google Cloud Storage
的python 代码)并且我得到了预期的结果。首先,我有整个第一列和第二列文本。
另一种解决方法是配置BoundingPoly 和Vertex 响应属性,如this thread 中所述。
【讨论】:
以上是关于谷歌视觉 API 两列图像文本提取变得一团糟的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 React 将本地图像而不是 URL 发送到计算机视觉 API
无法使用 Mobile Vision API 从图像中读取文本