
- Ввод текста с помощью микрофона:
- запись голосового запроса;
- обработка нейросетью путём деление речи на фонемы;
- сопоставление фонем с базой нейросетью (буквами, слогами, словом);
- образования порядка слов.
- Ввод текста с помощью сканера:
- деление страницы на блоки (текст, таблицы, рисунки);
- выпрямление текста (для рукописного текста);
- сегментация (деление текста на строки, строк на слова, слов на буквы);
- работа с буквами:
- для рукописного текста – свёртка (выбор важных признаков текста, например, линии/края или ровные области) и пулинг (из признаков, которые выделил свёрточный слой, выбираются самые важные, а несущественные удаляются);
- для печатного текста – сравнивание символов с шаблонами;
- пост-обработка (проверка на орфографию) и выдача распознанного текста.