Detail projektu
Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Období řešení: 1.3.2018 — 31.12.2022
Zdroje financování
Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
O projektu
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.
Popis anglicky
The project aims to create technology and tools which would improve accessibility
of digitized historic documents. These tools, based on state of the art methods
from computer vision, machine learning and language modeling, will enable
existing digital archives and libraries to provide full-text search and content
extraction for low quality historic printed and all hand written documents -
which can not be automatically processed by the currently available tools. The
project extends automation and capabilities of digitization pipeline by providing
tools for automated quality assessment and control, quality improvement,
automated text transcription of historic printed documents, semi-automated hand
written text transcription, and automatic extraction of semantic information from
semi-structured documents (e.g. library catalogs and birth records). The created
tools and techniques will be validated by processing selected collections of
digitized materials and by a pilot operation by cooperation with Moravian
Library.
Klíčová slova
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení
využitelnosti
Klíčová slova anglicky
Optical character recognition, handwriting recognition, natural language
processing, quality enhancement, language model, convolutional neural networks
recurrent neural networks
Označení
DG18P02OVV055
Originální jazyk
čeština
Řešitelé
Smrž Pavel, doc. RNDr., Ph.D. - hlavní řešitel
Beneš Karel, Ing. - spoluřešitel
Hájková Gabriela, Mgr. - spoluřešitel
Hříbek David, Ing. - spoluřešitel
Kodym Oldřich, Ing., Ph.D. - spoluřešitel
Kopeczinski Daniela, Mgr. - spoluřešitel
Útvary
Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (24.4.2017 - nezadáno)
Výzkumná skupina znalostních technologií
- interní (24.4.2017 - 31.12.2022)
Moravská zemská knihovna v Brně
- spolupříjemce (24.4.2017 - 31.12.2022)
Ústav počítačové grafiky a multimédií
- příjemce (24.4.2017 - 31.12.2022)
Výsledky
DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1, s. 14-27. ISSN: 0004-0398.
Detail
HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.: PERO-INDEXER; Software pro extrakci informace z polostrukturovaných dokumentů. https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/. URL: https://www.fit.vut.cz/research/product/755/. (software)
Detail
KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022. p. 158-170. ISBN: 978-3-031-06554-5.
Detail
HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KODYM, O.; BUCHAL, P.; HŘÍBEK, D.: PERO-OCR-HWR; Interaktivní polo-automatické rozpoznávání ručně psaného písma. https://github.com/DCGM/pero_ocr_web. URL: https://github.com/DCGM/pero_ocr_web. (software)
Detail
KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 492-506. ISBN: 978-3-030-86330-2.
Detail
KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 463-477. ISBN: 978-3-030-86336-4.
Detail
KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1, p. 1-14. ISSN: 1433-2825.
Detail
KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743.
Detail
HRADIŠ, M.: PERO-SCAN; Zařízení pro digitalizaci specificky poškozených dokumentů. Moravská Zemská Knihovna. URL: https://www.fit.vut.cz/research/product/667/. (funkční vzorek)
Detail
HRADIŠ, M.; KIŠŠ, M.; KODYM, O.; KOHÚT, J.; BENEŠ, K.; BUCHAL, P.: PERO-OCR-PRINT; Software pro adaptabilní rozpoznávání textu starých tisků. https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/. URL: https://www.fit.vut.cz/research/product/666/. (software)
Detail
BAKO, M.; BUCHAL, P.; HRADIŠ, M.: PERO-QUALITY; Automatic document quality assessment software module. https://github.com/DCGM/pero-quality. URL: https://github.com/DCGM/pero-quality. (software)
Detail
HRADIŠ, M.; KODYM, O.: PERO-ENHANCE; Software module for automatic enhancement of digitized documents. github.com/DCGM/pero-enhance. URL: https://www.fit.vut.cz/research/product/630/. (software)
Detail
KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020. p. 1352-1357. ISBN: 978-1-7281-3015-6.
Detail
Odkaz
Odpovědnost: Smrž Pavel, doc. RNDr., Ph.D.