【CSDN 编者按】相信不少漫画迷都曾为了追漫画特地去学习外语,学外语的时候很累,看漫画的时候很爽。现在,东京大学两位博士研发了漫画文字自动翻译的一个工具,追漫再也不累了!

作者 | 神经星星  责编 | 张文

出品 | CSDN(ID:CSDNnews)

内容概要:一项关于漫画文字自动翻译的研究,引发了热议,由两位东京大学博士组成的 Mantra 团队发布了一篇论文,目前已被 AAAI 2021 收录,该 Mantra 项目旨在为日本漫画提供自动化的机器翻译工具。

最近,由东京大学 Mantra 团队、雅虎(日本)等机构联合发布的《Towards Fully Automated Manga Translation 实现漫画全自动翻译》论文,引发了学界和二次元界的关注。

如图所示:左一为日文原版,自动化输出英文版(右二)和中文版(右一)

Mantra 团队成功地实现了将漫画的中的对话、气氛词、标签等文字自动识别,并做到了区分角色、联系上下文,最后将翻译文字准确替换、嵌入气泡区域

有了这个翻译神器,估计翻译组、追漫的小伙伴们都该偷着乐了。

发论文、公开数据集、商业化一条龙

在科研方面,目前该篇论文已经被 AAAI 2021 接收,研究团队还开源了一个包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,所组成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

在产品化方面,Mantra 计划上线封装好的自动翻译引擎,不仅面向出版社提供漫画的自动化翻译与发行服务,也会发布面向个人用户的服务。

具体的实现步骤,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。

定位文字

在实现漫画自动化翻译的第一步,就是提取文字区域。

但由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

漫画中的手绘、异形文字的识别成为了难点

研究团队发现,由于漫画中的这些各种字体和手绘样式,即使使用最先进的OCR 系统(例如 Google Cloud Vision API),在漫画文本上的表现很不理想。

因此,团队开发了针对漫画优化的文本识别模块,通过检测文本行和识别每个文本行的字符来实现对异形文字的识别。

内容识别

在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。

点击放大查看场景分类、文本顺序和情感识别流程

在这一步中,要通过上下文感知、情感识别等方式来实现,在上下文感知中,Mantra 团队用了文本分组、文本阅读顺序、提取视觉语义三种方式,实现了多模态的上下文感知。

自动嵌字

Mantra 这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

在嵌字这一环节中,首先要擦除嵌字区域,再进行嵌字,由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样,所以这一环节的难度也尤其大。

在这一步中,需要进行:页面匹配→检测文本框→文字气泡的像素统计→拆分连接的气泡→语言间的对齐→文字识别→上下文提取。

实验: 数据集与模型测试

在论文中的实验部分,Mantra 团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了 OpenMantra(已开源) 和 PubManga 数据集,其中OpenMantra 用于评估机器翻译,包含 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库,该数据集包含注释:

  1. 文本和框架的边框

  2. 日语和英语的文本(字符序列)

  3. 框架和文本的阅读顺序

为了训练模型,团队准备了 842097 对日文、英文版的漫画页面,共 3979205 对日语-英语的句子。具体的方法可以阅读论文,最终的模型效果评估由人工完成,Mantra 团队邀请了五位专业的日文-英文翻译人员,以专业的翻译评估程序给句子打分。

项目背后:有趣的灵魂一起学习

目前该篇论文已经被 AAAI 2021 收录,产品化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画成功使用了 Mantra 进行自动化机器翻译。

这样的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士毕业,在 2020 年创立了 Mantra 团队。

Mantra CEO 石和祥之介(上)和 CTO 日南凉太(下)

CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士毕业于 2019 年。他主要专注于自然语言处理领域的研究和开发,包括机器翻译和字典生成,也是本篇论文的第二作者。

值得一提的是,石和祥之介的研究经验丰富,不仅曾经在 CMU 交流访学,还曾于 2016-17 年在位于北京的微软亚洲研究院实习半年,当时他在 MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing)  自然语言计算的研究。

CTO 日南凉太石和祥之介同年入学,专注于图像识别领域。在 2016-17 年同期和石和祥之介,一同在微软亚洲研究院实习。

这样的一对技能互补的小伙伴,完成了 Mantra 的大部分工作,是不是从发量到成果都很让人羡慕呢?

如果想了解更多关于 Mantra 的信息,大家可以访问论文(https://arxiv.org/abs/2012.14271)、项目官网(https://mantra.co.jp/)或下载数据集(https://hyper.ai/datasets/14137),进一步研究。

黑科技!漫画文字自动翻译相关推荐

  1. 如何用计算机扫描图片变成文字,怎么扫描图片上的文字-华为手机黑科技"文字扫描仪",3秒就能将纸质文档转成电子档,牛...

    现如今,手机已经成为我们使用率最高的电子设备之一了.手机虽小,但是功能可是五花八门,很多手机的功能,可能我们使用几年,都没有发现过.今天就给大家介绍华为手机中,非常强大的一项黑科技"文字扫描 ...

  2. 华为语音解锁设置_今天才知道,华为自带文字转语音黑科技,1键按下这里即可开启...

    原标题:今天才知道,华为自带文字转语音黑科技,1键按下这里即可开启 大家都知道我们的华为手机有很多黑科技功能,但是自带的文字转语音黑科技功能,你知道吗?今天一个在华为工作的朋友,就给我推荐了这个功能, ...

  3. 华为手机在线将语音转换文字的办公黑科技便签,轻松提高你的工作效率

    华为是常见的手机品牌,华为手机质量好.耐用,深受职场人士的喜欢.很多人为了办公方便,在华为手机上安装了一些工具软件,从不同维度来满足职场上的效率需求.那么在华为手机上如何将语音转文字呢?有没有音转文的 ...

  4. 其实华为手机自带会议黑科技!按下这个按钮,录音转文字一键记录

    会议是工作中很重要的事情,很多优秀的决策都是在会议上产生的,所以会议的记录也是重中之重.但平时会议都是人工记录,经常跟不上会议的节奏,甚至还会拖慢会议的进程. 所以会议记录是很多办公族都头疼的事情,不 ...

  5. 三秒一页,快速录入书籍中的文字,掌握这个黑科技不加薪才怪

    手机作为科技发展的重要成果,它从最开始给人们带来通讯,到后来的娱乐,再到现在的可以帮助人们生活,可以说是与我们的生活息息相关.而工作作为生活的一个重要组成,虽然我对某些大佬提出的996制并不赞成,但还 ...

  6. 摆脱枯燥的文字描述——markdown表情包黑科技

    前言 很久没水博客了,水一篇又何妨?那就把之前很想发表的表情包黑科技亮出来吧! 前不久偶然看到了别人在博客上有黄脸表情,甚是喜欢,于是便去查阅了一番,竟然还有官网,看来以后要多用表情包了

  7. 给大家盘点一下最新版本的Photoshop十大技巧和黑科技

    自Photoshop诞生至今已经接近30年了,这几年特别是2017年以来Photoshop更新非常频繁,加入了人工智能技术之后Photoshop如虎添翼,今天就给大家盘点一下最新版本的Photosho ...

  8. 最神秘公司Magic Leap全新Demo曝光 深度长文揭秘增强现实黑科技

    编者按:"增强现实(AR)与虚拟现实(VR)的到来已经是必然趋势,VR领域,Oculus.HTC Vive 等设备都已发布,AR领域,值得关注的除了微软HoloLens,还有从未发布过任何产 ...

  9. 成年人都在用的黑科技app,高效率高质量,用过的都是老司机

    手机里总有几款黑科技app,虽然不是经常用到,但是每次使用都非常高质量,或者高效率,老司机用过都说好.下面就给大家分享几款黑科技app. 1.资源类:小羊搜搜 小羊搜搜是一款功能比较丰富的资源工具,高 ...

最新文章

  1. c#重命名文件 - 抛弃MoveTo,而引用vc 中rename生成rename.dll
  2. python实现快排算法_Python实现快速排序算法
  3. React开发(139):ant design学习指南之下载文件
  4. 当面试官问我————Java是值传递还是引用传递?
  5. 微信开发者工具中导入错误 提示请选择含app.json/project.config.json的目录(纪录篇)
  6. Laravel 中使用事务
  7. Photo Sphere Viewer 全景图
  8. linux的odbc数据库连接失败,在Linux上通过ODBC进行Delphi SQLConnection无法连接到SQL
  9. WatiN-Html元素及元素属性识别-扩展
  10. CacheCloud运维管理平台学习笔记
  11. JAVA程序设计教程-第2版-雍俊海 介绍以及 PDF+源代码+ppt 下载链接
  12. 如何把 Excel 写入数据库
  13. 注册DLL文件命令的使用方法及详细说明
  14. IDEA破解图文教程
  15. 关于小米路由器设置无线中继失败的问题
  16. BCB 第三方组件/控件 ZZ
  17. 搭建代理服务器的完整步骤
  18. nginx中的sub_filter
  19. MobaXterm SSH 保持连接
  20. 欲望无限--《贝奥武夫》给我们的启示

热门文章

  1. 航电oj-2025 查找最大元素
  2. 聊一聊大公司的导师制度
  3. 微信分支付免押租借_小程序版本
  4. Gox语言中的函数类型-GX9.1
  5. 德国马牌联手途虎打造电动车知识课堂,“小马哥快充站”南京开讲
  6. 不带刀尖跟随的后处理
  7. 电子计算机在电法勘探中的应用,电法勘探数字解释基础.doc
  8. zemax迈克尔逊干涉仪_Zemax光学设计实例---迈克耳逊干涉仪的仿真
  9. IBM于天津成立咨询业务团队;爱彼迎将合作全球20个目的地支持远程办公 | 美通企业日报...
  10. WiFiduino+blinker+小爱同学打造智慧卧室