11.07.2015 Views

Common Cartridge - Instytut Maszyn Matematycznych

Common Cartridge - Instytut Maszyn Matematycznych

Common Cartridge - Instytut Maszyn Matematycznych

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Wybór i zastosowanie konkretnych konwerterów podyktowane były wymaganiami, z którychnajistotniejsze to: poprawność konwersji tekstu, obsługa polskich znaków, możliwość pracywsadowej (na potrzeby automatyzacji procesu konwersji), możliwość przetwarzania grup plikówźródłowych oraz integracji z tworzonym oprogramowaniem (interfejs API ang. ApplicationProgramming Interface). Poprawność konwersji tekstu rozumiana była jako logiczny ciąg tekstu,złożony z kawałków tekstu wyjętych z odpowiednich ramek, zapisanych w strukturze warstwowejPDF. Niektóre konwertery oferują konwersję z zachowaniem układu tekstu na stronie. Układ takioznacza, iż zawartość danej ramki tekstowej umieszczana jest w kolumnach oddzielonych „białymiznakami”. Wówczas, jedna linia wynikowego pliku tekstowego zawiera wiersze z różnych ramektekstowych, oddzielone dużą liczbą spacji bądź znaków tabulacji, co znacząco utrudniaidentyfikację poszczególnych artykułów podczas dalszego przetwarzania. Ocenę jakości konwersji ijej przydatności z punktu widzenia potrzeb serwisu e-Kiosk prowadzono w odniesieniu do aplikacjitypu OCR (ang. Optical Character Recognition), konwerterów PDF oraz konwerterów PDF zfunkcją OCR. Aplikacje OCR służą do rozpoznawania znaków i całych tekstów w plikachgraficznych o postaci rastrowej. Zwykle stosowane są do rozpoznawania tekstu występującego naobrazie powstałym w wyniku zeskanowania dokumentu. Konwertery PDF służą do wydobyciaczęści składowych pliku PDF i konwersji do wymaganego formatu. W poprawnie utworzonympliku PDF tekst oraz grafika znajdują się w osobnych warstwach. W takim przypadku aplikacjakonwertująca do postaci TXT eksportuje z pliku PDF jedynie warstwę tekstową. Niektórekonwertery oferują także możliwość eksportu warstwy graficznej do osobnych plików. KonwerteryPDF z wbudowaną funkcją OCR, pozwalają dodatkowo na rozpoznanie i wydobycie tekstuzawartego w grafice.Doświadczenia z konwersji zawartości wielu różnych czasopism w trakcie próbnej eksploatacjiserwisu e-Kiosk wskazują na różną skuteczność automatycznego wydobycia tekstu przezkonwerter. Uzyskiwane rezultaty były mniej lub bardziej poprawne w zależności od wewnętrznejstruktury źródłowego pliku PDF, zależnej od sposobu jego wygenerowania oraz rodzaju użytego dotego celu narzędzia DTP. Różnice występowały nawet przy zastosowaniu dwóch różnych wersjitego samego programu DTP. Pliki generowane do formatu PDF w redakcjach cechuje dbałość oodwzorowanie wizualne wydania drukowanego, a nie o merytoryczną ciągłość treści. PDF jestformatem PostScript zapisującym obraz, a nie logikę tekstu. Wynikiem tego jest brak informacjitechnicznych pozwalających wykryć, że dany fragment tekstu umieszczony w ramce tekstowejstanowi kontynuację tekstu z innej ramki. To samo dotyczy układu kolumnowego tekstu.Odtworzenie logiki publikacji na podstawie rozproszonych fragmentów tekstu nie zawsze jestmożliwe. Poważny problem stanowią również warstwy formatu PDF, zawierające różne elementytekstu, nie w pełni rozpoznawane i widoczne w całości po konwersji. Wynik przetworzenia tekstu,dopasowanego pierwotnie do szerokości dostępnego obszaru na stronie czasopisma, wszczególności „rozciągniętego”, może zawierać wyrazy, w których litery są przedzielone jedną lubwieloma znakami spacji. Wyeliminowanie niepotrzebnych znaków spacji z tekstu w sytuacji, kiedypodział wyrazu jest niejednoznaczny wymaga zastosowania analizy semantycznej. Usuwana przezkonwerter grafika niejednokrotnie zawiera tekst istotny z punktu widzenia kompletności przekazutreści np. tytuł artykułu lub jego początek, wkomponowany w graficzne tło.Trudność znalezienia wspólnego „mianownika” przetwarzania, przy dużym stopniuskomplikowania materiałów źródłowych i samego formatu PDF, stanowi barierę dla uzyskaniapełnej automatyzacji tego procesu. Niezbędne i konieczne jest wprowadzenie dodatkowego etapuprzetwarzania, wspierającego proces automatycznej konwersji, polegającego na weryfikacjipoprawności tekstu uzyskanego w pierwszym kroku i ewentualnie na ręcznej korekcie bądźuzupełnieniu brakujących jego elementów. Ponadto, na potrzeby uzyskania przyjazności dostępu doprasy w serwisie e-Kiosk dla osób niewidomych, wymagane jest przeprowadzenie strukturalizacjitreści, polegającej na oznakowaniu wybranych obszarów treści czasopisma za pomocą tagów(metadanych) oraz na wprowadzeniu dla poszczególnych artykułów: słów kluczowych, streszczeń,opisów grafik. Zadania te wykonuje zaplecze redakcyjne serwisu e-Kiosk, złożone zredaktorów-edytorów - osób widzących i słabowidzących. W swojej pracy wykorzystują32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!