托国立科学家使用人工智能将纸质书籍翻译成有声读物
12.08.2021

托木斯克国立大学计算机科学学院信息学理论基础系的科学家和学生团队与 «媒体广告»一起,应用机器学习原理将文学作品文本翻译成有声读物。这一发展使得在阅读同音异义词和解码缩写时降低了错误率。现在平台“LUWRAIN Books” 大家都可以免费使用它。

“LUWRAIN Books”使用深度学习算法将媒体和小说中的俄语文本转换为口语音频。在发布由语音合成器创建的有声读物以及配音站点时,此功能非常必要。该任务的复杂性在于,只有在理解文本的情况下才能正确处理缩写词。例如,当文本包含片段“我收到神父的来信。彼得“,这个人理解缩写“o。”在这种情况下,它的意思是“父亲”,但对于计算机而言,如果不使用神经网络,就不可能进行这样的替换。

Михаил Пожидаев

托国立的计算机科学学院信息学理论基础系副教授米哈伊尔·波日达耶夫解释说:“在处理文本时,我们使用了两个神经网络:第一个是细腻,用于消除缩写歧义所需的语义分析,第二个是深度,双向,用于文本的句法分析。第二个决定了“我们把十九世纪的文学。在数字盒子里,“文学”一词用于第二格,因此,在解码时,“十九”一词被发音成«девятнадцатого»

解码文本时的另一个问题是一个句子中存在两个或多个缩写。 “我们爬到了珠穆朗玛峰的顶峰,然后返回了托木斯克”——此处有两个开头字母 «Г»。用于两个版本:城市和山。 在这种情况下,神经网络基于对周围单词的语义分析,正确确定如何发音。

Работа сервиса

米哈伊尔·波日达耶夫说:“我们已经为此工作了很长时间,但任务极其艰巨,如果没有现代智能算法,这样的处理是不可能的。https://books.luwrain.org/ 网站上的表格目前可能不稳定,因为这是一个实验模式。但有了这样的工具,等自动化有声读物的发布时,您几乎可以完全消除手工劳动的使用,在大多数情况下也是仍然是必要的。”

托木斯克国立大学的科学家正在与«媒体广告»合作开发这项服务,该服务去年首次订购了 100本书的配音。 但是一年出一百本书是远远不够的,还需要完全不同的书卷。因此,该过程需要尽可能自动化。

据该项目的作者称,这项工作需要继续进行。仍然需要消除剩余的错误百分比并将项目推向市场。同时,社会因素也是基础—对于盲人,这项服务将继续免费提供,其有效性已经在一所针对视力障碍儿童的寄宿学校进行了测试,效果很好。