Text Localization & Segmentation in Images, Web Pages and Videos

Related Work1. Y. Zhong, K. Karu and A. K. Jain. Locating Text inComplex Color Images. Pattern Recognition, Vol. 28, No.10, pp. 1523-1535, October 1995.2. Rainer Lienhart and Frank Stuber. Automatic TextRecognition in Digital Videos. In Image and VideoProcessing IV 1996, Proc. SPIE 2666-20, pp. 180-188,Jan. 1996; also TR-95-036, Dec. 1995.3. B.-L. Yeo, B. Liu. Visual Content Highlightning viaAuromatic Extraction of Embedded Captions on MPEGCompressed Video. IS&T / SPIE Digital VideoCompression: Algorithms and Technologies, Feb. 1996.4. Rainer Lienhart. Automatic Text Recognition for VideoIndexing. Proc. ACM Multimedia 96, Boston, MA, Nov.1996, pp. 11-20.5. S. Sato and T. Kanade. NAME-IT: Association of Faceand Name in Video. In Proceedings of IEEE ComputerSociety Conference on Computer Vision and PatternRecognition, San Juan, Puerto Rico, 17-19 June, 1997.6. Sato, T., Kanade, T., Hughes, E., Smith, M. Video OCRfor Digital News Archives. IEEE Workshop on Content-Based Access of Image and Video Databases(CAIVD'98), Bombay, India, January, 1998.7. Anil K. Jain and Bin Yu. Automatic Text Location inImages and Video Frames. Pattern Recognition, Vol. 31,No. 12, pp. 2055-2076, 1998.8. H. Li, O. Kia and D. Doermann. Text Enhancement InDigital Videos. In Proceedings of SPIE99, DocumentRecognition and Retrieval, 1999.9. Rainer Lienhart and Wolfgang Effelsberg. Automatic TextSegmentation and Text Recognition for Video Indexing.ACM/Springer Multimedia Systems Magazine, Vol. 8, pp.69-81, Jan. 2000.10. Huiping Li, David Doemann, Omid Kia. Automatic textdetection and tracking in digital video. IEEE Transactionson Image Processing, Vol. 9, No. 1, Jan. 2000.11. Daniel Loprestie and JiangYing Zhou. Locating andRecognizing Text in WWW Images. Information Retrieval2 (Kluwer Academic Publishers.), 177-206, (2000).12. Axel Wernicke and Rainer Lienhart. On the Segmentationof Text in Videos. IEEE Int. Conference on Multimediaand Expo (ICME2000), Vol.3, pp. 1511-1514, July 2000. More information at www.videoanalysis.orgRainer Lienhart, Axel Wernicke. Localizing and Segmenting Text in Images and Videos.IEEE Transactions on Circuits and Systems for Video Technology, pp. 256-268, April 2002.19961998 20001 2 3 4 5 6 7 8 9,10 12 11© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de3

Design Decisions• What kind of textoccurrences?– Scene text– Overlay text• With what style attributes?– Font size– Font type– Text color• In what kind of media data?– Image-based– Video-basedanyboth• What should be achieved?– Localization– Segmentation– Recognition– Integrated recognition• How will the results beused?– Indexingboth– Object-based video encoding© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de4

OverviewOCR result:Dec 25 1998© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de5

Text Localization (1/2)© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de6

Text Box Consolidation (2/2)• Derive initial text bounding boxes• Refine bounding boxes• Remove text boxes which are– Too small/large, or– Have a bad width-to-height aspect ratio© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de7

Monitoring + Tracking Result: Text Objects 8© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de

Experimental Results• Text localization– Image-based: 69.5% (boxes) / 85% (pixels)– Video-based: 94.9% (boxes)• Text segmentation– 79.6% correctly segmented– 7.6% damaged, but still recognizable• Text recognition– 70% (over all steps)© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de10

Demo© 2005-2009 Prof. Dr. Rainer Lienhart, Head of Multimedia Computing, Institut für Informatik, Universität AugsburgEichleitnerstr. 30, D-86135 Augsburg, Germany; email: Rainer.Lienhart@informatik.uni-augsburg.de11

Text Localization & Segmentation in Images, Web Pages and Videos

Create successful ePaper yourself

Delete template?

Save as template?