本成果以现代印刷蒙古文文献(图书、期刊、杂志等)和木刻印刷蒙古文文献(古籍)为对象,研究并重点解决了蒙古文文献资源数字化及其检索中涉及的多个关键问题,能够为蒙古文数字图书馆提供技术支持和保障,对推动蒙古族文化的传播与发展具有重要意义。 针对现代印刷蒙古文文献,主要完成了文种与文字识别、错误校正、识别后检索以及汉蒙跨语言检索等方面的研究:在文种识别方面,提出了一种粗分类与细分类相结合的两阶段分类方法,文种识别正确率高达99%以上;在文字识别方面,将待识别单词切分成字元(Glyph),并采用卷积神经网络(CNN)识别字元,字元识别正确率达到92.03%;在错误校正方面,字符语言模型被用于易错字符的校正,校正后字符和单词正确率分别达到99.34%和95.78%;在识别后检索方面,以字符级4-gram作为索引单元,获得最佳检索结果;在汉蒙跨语言检索方面,通过构建7.7万词的汉蒙对照词典,在检索时可将汉文查询词翻译成对应的蒙古文查询词,实现了跨语言检索。 针对木刻印刷蒙古文文献,主要完成了蒙古文古籍识别、蒙古文古籍检索等方面的研究:在古籍识别方面,利用蒙古文构词和构形规则,提出了一种基于深度学习和多知识策略的识别方法,使得字元识别正确率达到96.8%,单词识别正确率近80%;在古籍检索方面,提出了“以图搜图”的检索策略,重点研究了古籍图像的固定长度表示、相似度排序算法和多检索结果融合等三方面内容,使蒙古文古籍检索达到实用化程度。 本项目的上述成果已被应用于内蒙古出版集团有限责任公司,以自动化方式实现蒙古文纸质文献资源的数字化、电子化。 |