近日,由计算机系教师康雷和德国Helsing AI、西班牙AllRead MLT、西班牙Computer Vision Center、德国omni:us的研究者共同完成的成果《Content and Style Aware Generation of Text-Line Images for Handwriting Recognition》被人工智能、模式识别、图像处理和计算机视觉领域公认最顶级国际期刊《IEEE模式分析与机器智能汇刊》(简称IEEE TPAMI)录用。IEEE TPAMI的科学引文索引影响因子为16.389,在2020年谷歌发布的学术影响力排名中,位列所有计算机工程、电子工程及人工智能相关期刊之首。
由于文档结构的复杂性和手写风格的多样性,文档分析和手写识别仍然是目前具有挑战性的任务。随着人工智能应用需求的升级,人工标注新数据的成本越来越大。为了尝试突破“非人工不智能”的诅咒,本课题提出一种基于随机文本内容和风格样式的手写长文本图片生成模型,该模型训练好后可以利用新的文本内容和未标注的目标手写图片来生成大量真实的模拟目标用户手写风格的手写句子。该方法通过不同年龄段和不同背景的志愿者的图灵测试实验取得了“以假乱真”的效果。该模型可大规模应用于对文档分析有需求的生产生活活动中,用很少的人工成本可以获得大量的风格样式各异的手写数据。而且,针对应用场景的不同,通过取用相关领域的文本数据来生成手写数据,会对实际场景的应用进一步提升其文档分析性能。
本工作受到汕头大学科研启动项目(140/09421059)、西班牙国家项目(RTI2018-095645-B-C21)、加泰罗尼亚政府项目(2016-DI-087)、拉蒙-卡哈尔项目(RYC-2014-16831)和加泰罗尼亚政府CERCA项目的资助。
论文信息:L. Kang, P. Riba, M. Rusinol, A. Fornes and M. Villegas, "Content and Style Aware Generation of Text-line Images for Handwriting Recognition," in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2021.3122572.
论文在线出版链接:https://ieeexplore.ieee.org/document/9585646
结构图
生成的文字
文/图 计算机系