ProjectNaptha:图片提取文字浏览器插件工具【芬兰】
栏目分类:趣味工具 发布日期:2020-12-20 浏览次数:次
网站名称:ProjectNaptha
所属国家:芬兰
网站缩略图:
ProjectNaptha首页缩略图
【网站首页介绍】Project Naptha突出显示,复制和翻译任何图像中的文本。
Project Naptha会在浏览网络时对每幅图像自动应用最新的计算机视觉算法。结果是无缝,直观的体验,您可以突出显示,复制和粘贴甚至编辑和翻译以前捕获在图像中的文本。
Project Naptha使用的算法(笔划宽度变换)实际上是为检测自然场景和照片中的文本而设计的(与大多数常规图像相比,这是技术上更具挑战性且更普遍的问题)。
Naptha实际上还支持旋转文本(尽管将文本旋转30度以上仍是绝对没有希望的-抱歉,垂直文本,我以后会再解决!),这实际上花费了很长时间来实现。
Project Naptha将静态屏幕快照转换为类似于捕获屏幕时的计算机交互式快照的某种形式。尽管单击按钮不会提交表单或上传文档,但是当鼠标悬停在不同部分上时,光标会发生变化,并且文本块可以选择,就像之前冻结在碳酸盐中一样。
ProjectNaptha首页缩略图2
Project Naptha如何工作?
Naptha项目的主要功能实际上是文本检测,而不是光学字符识别。它运行一种名为“笔画宽度变换”的算法,该算法由Microsoft Research在2008年发明,能够以与语言无关的方式识别文本区域。从某种意义上说,这类似于人类可以做的事情:我们可以认识到标牌带有书面语言,却不知道其用的是哪种语言,不必理会它的含义。
但是,由于研究表明用户不仅能够识别,而且很容易因为短短一百毫秒的延迟而感到烦恼,半秒仍然是非常明显的。为了解决这个问题,Project Naptha实际上一直在观察光标的移动并推断未来的半秒,以便它可以提前开始处理,因此感觉很瞬间。
与其他算法结合使用,例如连接组件分析(识别不同的字母),otsu阈值化(确定单词间距),不相交的集合森林(识别文本行),Project Naptha可以非常快速地建立文本区域,单词和字母的模型-尽管完全不知道具体内容,但存在哪些具体字母。
但是,一旦用户开始选择某些文本,它就会争先恐后地运行字符识别算法,以确定确切地被选择的内容。这种识别过程是按区域进行的,因此在用户完成最终选择之前,不会浪费任何精力。
识别过程涉及放大感兴趣的区域,以使每条线的高度约为100个像素,可以放大5倍。然后,在将其发送到开源Ocrad OCR引擎的内置纯JavaScript端口之前,它会执行智能的颜色遮罩过滤器。
由于此过程的计算量相对较高,因此有意义的是执行这种“惰性”识别,直到最后运行该过程为止。完成操作最多可能需要五到十秒钟,具体取决于图像的大小和所选内容。因此,很有可能在您按Ctrl + C并将文本复制到剪贴板时,OCR引擎仍无法完成对文本的处理。
没关系,因为它代替了仍在处理的文本,插入了一个小标记来描述选择的位置以及从中读取图像的哪一部分。在接下来的60秒内,Naptha会跟踪该标志并将其尽快替换为最终的公认文本。
有时,内置的OCR引擎还不够好。它仅支持拉丁字母和少量变音符号的语言,并且不包含语言模型,因此只能根据上下文给出的概率输出一系列字母(例如,算法可能会确定“ he1 | o”比“ hello”更好,因为它只看字母形状。因此,可以选择将所选区域发送到由Tesseract支持的基于云的文本识别服务,该服务是Google(以前是HP)屡获殊荣的开源OCR引擎,它支持多种语言,并使用高级语言模型。
如果有人在公共图像上触发Tesseract引擎,则会保存识别结果,以便将来偶然发现相同图像的用户将立即加载文本的缓存版本。
对于称为“修复”的东西,有一类算法是关于丢失图片而重建图片或视频的算法。此功能广泛用于胶片修复,通常在Adobe Photoshop中以“内容感知填充”功能找到。
Naptha项目使用检测到的文本区域作为遮罩,作为2004年基于Alexandru Telea的快速行进方法开发的特定修复算法。此蒙版可用于填充文本来源的位置,从而创建可打印新内容的空白面板。
通过一些基本的布局分析和文本度量,Naptha项目可以确定文本的对齐参数(居中,对齐,左右对齐),字体大小和字体粗细(粗体,浅色或普通)。有了这些信息,它就可以在同一位置以相似的字体重新打印文本。或者,您甚至可以更改文本以说出您想要说的任何内容。
它甚至可以链接到在线翻译服务,Google Translate,Microsoft Translate或Yandex Translate,以进行自动文档翻译。使用Tesseract的高级OCR引擎,这意味着可以使用您可能无法在翻译引擎中键入的具有不同脚本(中文,日文或阿拉伯文)的语言来阅读文本。
ProjectNaptha首页缩略图3
网站介绍:
ProjectNaptha是一个可以支持从图片文件里其他带有文字的浏览器插件,可以把图片里的文字进行复制和选取操作。让你从图片中获取文字不再是难题,对于识别成功率的话,需要自己去测试一下看看效果了。
我们知道对于文章里的纯文字可以复制粘贴,但是对于图片里的文字尤其是海报、漫画、扫描文件、图片或者截图里的文字是无法提取的,至少在我之前的认知里没有可以从图片中提取文字的工具,之前都是都打输入的。
这款名为 Project Naptha的Chrome浏览器扩充插件,安装后能把网页图片里的文字转为可复制、选取或翻译的纯文字内容,非常强大,完全颠覆以往我们对于图片文字无法复制的印象,内建即时翻译、选取不同语言来进行辨识的功能。
Project Naptha 文字辨识支援英文、网路用语、俄文、德文、西班牙文、简体中文、繁体中文、法文及日文,也能翻译成其他语言,不过在英文方面的辨识效果较好,也很准确,中文的话可能会有辨识错误等情形(中文字还是比较复杂)。目前只能在Google Chrome 浏览器上使用,未来也会释出Firefox 可用的附加功能。
Project Naptha使用说明:
使用者可以直接从Project Naptha 网站来下载、安装扩充功能,或是连结到Chrome 线上应用程式商店,其实都是一样的。安装后重新整理网页,试着把滑鼠游标移动到图片上方的文字,很神奇的是你会发现文字变成可以选取了!
跟一般在选取纯文字的方式一样,利用滑鼠左键把文字高亮,按下滑鼠右键,选择Copy Text即可复制,或者进行全选、在新分页开启图片。
如果你要选取的文字不是英文,那在选取后按下右键,找到Language内的其他语言进行切换,就能使用其他的辨识引擎来进行识别,例如繁体中文就选择Chinese Traditional ,不过准确率没有很好,还是要自己挑一下错字。
其实它是在宣告Project Naptha使用Ocrad引擎辨识技术,并不影响操作,如果觉得这段文字很碍眼,可以在右键选单里找到Options -> Show OCR Disclaimer将它关闭,就不会显示这段文字了