Spis treści

4 Zasoby cyfrowe

Motto:

W ciągu dziesiątków tysięcy lat na wszystkich kontynentach języki rozwijały się, zmieniały i ginęły bez śladu, ponieważ ginęły mówiące nimi ludy, brak zaś było metody utrwalania tych języków dla potomności

David Diringer, „Alfabet czyli klucz do dziejów ludzkości”, 1972, strona 24


Znak i kod

Pojęcie znaku użytkowane jest w wielu naukach, często przybierając szeroką gamę odcieni znaczeniowych. Badaniem systemów znaków zajmuje się semiologia (por. Guiraud [1974]). Na potrzeby niniejszego opracowania znakami nazywane będą elementy pewnego zbioru, służące do tworzenia komunikatów. W bardzo wielu językach cyfry są podzbiorem podstawowego alfabetu. Semantyka określonego znaku na ogół nie jest jednoznaczna, lecz ma charakter konwencji. Na marmurowej płycie grobowca Machiavellego w kościele Świętego Krzyża we Florencji czytamy co następuje:

TANTO.NOMINI.NVLLVM.PAR.ELOGIVM
NICHOLAVS.MACHIAVELLI
OBIT.AN.A.P.V. CIƆIƆXXVII.

Z kontekstu wynika, że ciąg symboli CIƆ̑IƆXXVII, pojawiający się w ostatnim wierszu napisu na grobowcu, jest zapisem daty śmierci, a użytym w nim znakom alfabetycznym przypisano nowe znaczenie. Zakończony kropką ciąg siedmiu symboli ostatniego wiersza CIƆ̑IƆXXVII jest całkowicie równoważny ciągowi znaków MDXXVII. Odpowiednik ten podajemy ze względu na potencjalne użycie syntezatora mowy przy interpretacji wersji online. W zapisie oryginalnym zamiast litery M oznaczającej tysiąc (por. Ifrah [1990, strona 142]), występuje ciąg trzech dużych liter, z których pierwsza jest dużą literą C, a druga dużą literą I. Trzecia litera ma graficzną formę odwróconej o sto osiemdziesiąt stopni litery C. Znak ten zwany antisigmą został wprowadzony około 2 tysiące lat temu przez cesarza Klaudiusza na oznaczenie głoski będącej zbitką ps [Diringer op.cit. strona 516]. Kod tej litery do chwili obecnej nie jest implementowany na syntezatorach i z tego względu cytowany napis został poddany transkrypcji. W podobny sposób występująca w zapisie oryginalnym sekwencja dwóch znaków: litery I oraz litery antisigma, została zastąpiona równoważną jej pojedynczą literą D.

A więc te same znaki w jednym miejscu oznaczały litery – w innym liczby. Rzym nie był tu żadnym wyjątkiem: taką numeracją alfabetyczną posługują się jeszcze dzisiaj Żydzi przy pisaniu dat według swego kalendarza oraz przy numerowaniu ustępów i wersetów Starego Testamentu lub stronic dzieł wydanych po hebrajsku (Ifrah [op.cit., strona 160]).

Zdawać by się mogło, że znaki mające tak dobrze ustaloną semantykę jak cyfry, występując poza obszarem tradycji nie powinny zmieniać swego znaczenia. Wszakże zostały przez człowieka wymyślone do spełniania ściśle określonej roli. Nie jest to jednak prawdziwe. Agresywność subkultury rynkowej, a zwłaszcza reklamy, w pogoni za wszelkimi formami mogącymi zaskoczyć odbiorcę i swą odmiennością zwrócić uwagę potencjalnego klienta zmieniła i tę sferę znaczeniową. Oto trzy przykłady z kręgu języków: polskiego (operator telefonii komórkowej Idea), angielskiego i francuskiego:

Tabela 3. Zmiana znaczenia liczb w tekście reklamowym.

Reklama Tekstowa interpretacja reklamy Fonetyczna alternatywa reklamy Fonetyczna alternatywa reklamy
zdjęcie trzech kobiet rozmawiających przez telefony komórkowe pod którym jest słowo "kciuki" trzy mamy kciuki trzymamy kciuki trzymamy kciuki
4 sale four sale for sale Na sprzedaż
O 20 sans O O vingt sans O Au vin sans eau Przy winie bez wody

Jak widać semantyka znaków, z których buduje się liczby, już o dawna nie była ściśle określona, a i obecnie styk świata cyfrowego z komercją pozostawia różne drobne niejednoznaczności. Jednak w środowisku cyfrowym dobrym obyczajem jest nie pozostawianie decyzji interpretacyjnych systemowi lub aplikacji, lecz używanie różnego rodzaju podpowiedzi lub formularzy, ułatwiających użytkownikowi podjęcie prawidłowej decyzji interpretacyjnej.

Kodem nazwiemy wzajemnie jednoznaczne przyporządkowanie wszystkich elementów pewnego skończonego zbioru odpowiednim elementom drugiego skończonego zbioru. Jeżeli elementami jednego z tych zbiorów są liczby, to kod nazywamy cyfrowym. W szczególności z różnych powodów kodowane cyfrowo mogą być również cyfry/liczby. Tak np. w powszechnie stosowanym w osobistych systemach komputerowych kodzie ASCII cyfrze 0 przyporządkowany jest kod dziesiętny 48, cyfrze 1 – kod 49 itd. Przyczyny, dla których twórca kodu wybiera takie a nie inne przyporządkowanie, są bardzo różne. W przypadku systemów komunikacyjnych na ogół chodzi o skrócenie czasu przekazywania komunikatów. W kodzie ASCII daleki od intuicji system kodowania cyfr (jedynka nie ma kodu 1) wynika prawdopodobnie z najwyższego priorytetu przypisanemu 32 kodom sterującym, dla których prosta struktura dekodera gwarantowała najszybsze wykonanie stosownej instrukcji. Złożoność kodu Morse’a dla danego znaku alfabetu jest odwrotnie proporcjonalna do częstotliwości występowania kodowanego znaku w języku angielskim. Najczęściej występująca w języku angielskim litera E jest kodowana pojedynczą kropką. Takie „usprawnienie” wprowadzone na podstawie czystej statystyki przez wynalazcę, w szczególnym przypadku może się okazać spektakularnym niewypałem. Pierce [1967:63] podaje, że Ernest Vincent Wright napisał w 1939 roku powieść, w której na 267 stronach nie użył ani jednego wyrazu, w którym występowała by litera E. Mamy tu, oczywiście, do czynienia z żartem literackim, nie zmienia to jednak faktu, że kody dobre do jednych celów, mogą się okazać nieefektywne w stosunku do innych celów [35].

Typy danych prostych

Dla komputera pamięć stanowi jednolitą masę bitów bez jakiejkolwiek widocznej struktury. Prawdę tą przypomina nam Wirth [1989:17] i powinna ona każdemu uświadomić, że interpretacja zawartości pamięci komputera zależy od człowieka. Aby kiedykolwiek coś sensownego dało się wydobyć z tej bezkształtnej masy, już na etapie pamiętania czegokolwiek komputer musi wykonać coś, co doskonale jest znane każdemu biliotekarzowi: skatalogować przechowywany zasób. I tu, podobnie jak i w wielu bibliotekach, ekonomia obsady pamięci odgrywa dużą rolę. Dla nadania pewnego porządku takiemu przedsięwzięciu we wszystkich językach programowania definiuje się pewne typy danych, którymi wolno posługiwać się programistom i użytkownikom. Z żalem trzeba powiedzieć, że ani znaczenie (sens) poszczególnych typów danych, ani ich nazwy, nigdy nie zostały ujednolicone. Najlepszym tego przykładem jest tabela, porównująca typy danych obowiązujące w SQL, z typami danych dopuszczalnymi w językach: Ada, C, Fortran, MUMPS, Pascal i PL/1 [Gruber, 1996, wewnętrzna strona tylnej okładki]. Bez specjalnego ryzyka można przyjąć, że w znakomitej większości przypadków komputer zaakceptuje następujące cztery typy danych prostych:

  1. liczby całkowite (typ integer)
  2. liczby rzeczywiste (typ real)
  3. wartości logiczne (typ Boolean)
  4. znaki dopuszczalne na urządzenia zewnętrznych, jak klawiatura i monitor (typ char)

Typy te wymieniane są przez Iglewskiego et al. [1986] jako standardowe w Pascalu, nie wymagające osobnej deklaracji. Wymienione cztery typy proste są typami skalarnymi. Z typów prostych możemy tworzyć typy okrojone przez zdefiniowanie odpowiednich podzbiorów. Na przykład miesiące mogą być symbolizowane liczbami należącymi do podzbioru liczb naturalnych nie większych od 12. Są jeszcze inne racje, dla których wypada wyróżnić wymienione wyżej typy danych. W tym celu przyjrzyjmy się pewnemu aspektowi sprzętowemu wydarzeń, które mają miejsce w komputerze.

Operacje wykonywane na prostych typach danych cyfrowych

Głównym elementem procesora, wymienionego przez nas wcześniej wśród składników systemu cyfrowego, jest jednostka arytmetyczno - logiczna, JAL (ang. Arithmetic-Logic Unit, ALU). Jak nie trudno się domyślić, jednostka ta może wykonywać zarówno operacje arytmetyczne (dodawanie i odejmowanie) jak i logiczne (alternatywa, koniunkcja, negacja); a także przechowywać końcowy wynik operacji. Bez większego ryzyka można również przyjąć, że niemal każda współczesna JAL ma zintegrowaną obsługę liczb rzeczywistych na poziomie koprocesora arytmetycznego (w rodzinie procesorów firmy Intel fakt ten ma miejsce począwszy od modelu 486).

W tej sytuacji widzimy, że współczesny komputer ma od swego urodzenia (jak to się w żargonie informatycznym określa: natywnie) wbudowane wykonywanie operacji arytmetycznych na dwóch typach liczb: całkowitych i rzeczywistych, oraz operacji logicznych na parach bitów (suma logiczna, iloczyn logiczny), lub pojedynczych bitach (negacja). Bez specjalnych skrupułów możemy więc powiedzieć, że typem prostym jest typ bezpośrednio obsługiwany przez sprzęt systemu [36].
Dla znaków definiuje się operację konkatenacji (sklejania znaków, tworzenia łańcucha znaków). Operacja ta jest intuicyjnie oczywista, wynika z potrzeby tworzenia napisów oraz sekwencyjnej pracy większości urządzeń zewnętrznych.

Typy danych złożonych

Danymi pochodzącymi z typów prostych można się posłużyć dla utworzenia różnego rodzaju danych zagregowanych. Będziemy mówili, że agregaty te należą do typów złożonych. Klasycznym - rzec by można - przedstawicielem tego gatunku jest data kalendarzowa: trzy liczby, z których jedna określa rok, druga miesiąc, trzecia - dzień. Niestety - i w tym przypadku panuje niezgoda wśród ludzi. W skali świata nie udało się doprowadzić do ustalenia, w jakiej kolejności te trzy liczby powinny być zapisywane. Tak na przykład w USA obowiązującą kolejnością jest: Miesiąc/Dzień/Rok. Natomiast w Polsce w powszechnym obiegu stosuje się dwa zapisy zwierciadlane względem siebie: Dzień/Miesiąc/Rok oraz Rok/Miesiąc/Dzień, - jeśli nie podjąć tematu różnic w używanych separatorach, czy innej rachuby czasu w poza-chrześciańskich kulturach. Istnienie tych niejednoznaczności może w pewnych przypadkach prowadzić do nieporozumień, a nawet być przyczyną poważnych strat materialnych.

Data kalendarzowa jest archetypem wektora - skończonego, uporządkowanego ciągu pewnych obiektów, mających w komputerze swoją cyfrową reprezentację. Jako przykład wektora możemy podać symboliczny opis zasobów w poszczególnych jednostkach pewnej biblioteki:

Tabela 4. Tabela jednowymiarowa jako przykład wektora . Opracowanie autora.

liczba tytułów druków zwartych
liczba tytułów rękopisów
liczba roczników czasopism
liczba numizmatów
liczba wydawnictw kartograficznych

Tak zdefiniowany wektor stanu ma pięć składowych. Oczywiście definicja wektora ma charakter arbitralny. Mimo różnych opisów merytorycznych każdej składowej, odnotujemy ważną cechę przysługującą całemu wektorowi: wszystkie składowe wektora muszą być tego samego typu. Tutaj jest to typ całkowity (ang. integer) - w każdym opisie występuje termin „liczba”. Jeśli przyjąć powyższą konwencję, to wektory stanu dla kilku wybranych jednostek biblioteki będą wyglądały następująco:


Tabela 5. Tabela dwuwymiarowa. Przykład autora.

Czytelnia ogólna
2550
0
30 0 25
Czytelnia czasopism 120 0
175
0

Zbiory specjalne
4961 384
22
974
634
Magazyn 1332855
0 3879
0
226


Czytelnik zechce zauważyć, że dla wektorów obowiązują specjalne reguły, opisujące wykonywanie operacji arytmetycznych. Po pierwsze dodawane wektory muszą mieć identyczną liczbę składowych. Po drugie: suma dwóch wektorów też jest wektorem o składowych, będących sumami odpowiednich składowych dodawanych wektorów. Warto nadmienić, że niektóre procesory mają wbudowane mechanizmy do sprzętowej realizacji operacji na wektorach. Kilka wektorów ustawionych jeden pod drugim tworzy tablicę - twór należący do kolejnego typu danych złożonych - typu tablicowego. Albo może inaczej: wektor jest jednowymiarową tablicą. Tablice to najpopularniejsze, złożone struktury danych, zbudowane z elementów tego samego typu. Powyżej zapisana tablica była dwuwymiarowa. Nie nakłada się żadnych formalnych ograniczeń na liczbę wymiarów tablicy.

Wszystkie elementy tablicy muszą być tego samego typu. Jednak rzeczywistość nie składa się z zestawień wyłącznie samych liczb, albo z samych tekstów. Było by to trudne do zaakceptowania ograniczenie. Przeto wprowadza się swojego rodzaju uogólnienie typu tablicowego i nazywa go typem rekordowym. Pojedynczy rekord składa się z określonej liczby składowych zwanych polami, które mogą być różnych typów. Tak oto definicyjnie przybliżyliśmy się do obszaru, z którym wielu bibliotekarzy jest już nieco oswojonych.

W tym miejscu nie sposób przejść do porządku dziennego nad sprawą nomenklatury. Termin rekord jest kalką przeniesioną do nas z angielskiego. Podobnie jak w języku rosyjskim, przekład tego terminu na polski nastręczał trudności. Przyczyn takiego stanu rzeczy należy upatrywać w bogactwie możliwych technologicznych kontekstów użycia tego słowa w języku angielskim. Wirth [1989] przypomina pragmatyczne względy, dla których powołano to pojęcie i wymienia cztery odcienie znaczeniowe tego terminu: zapis, rejestr, nagranie, przechowywany zestaw informacji. Znakomitą analizę semantyczną terminu electronic record  na gruncie języka angielskiego przeprowadził niedawno Morelli [1998]. Wnioski z tej analizy skłaniają do rezygnacji z używanego niekiedy w Polsce terminu krotka i przyjęcia kalki rekord, jako pojęcia o dobrze poznanej sferze znaczeniowej jej źródłosłowu.

Na końcu wymienimy niezmiernie ważny typ plikowy. Pliki służą do wymiany informacji zarówno między dwoma komputerami, jak i między komputerem a urządzeniem zewnętrznym. Na wielkość plików nie nakłada się żadnych formalnych ograniczeń; oczekuje się tylko, że plik bę dzie się składał z elementów tego samego typu. Mamy więc pliki binarne, pliki tekstowe, pliki z zapisanym dźwiękiem, pliki zawierające rekordy danych osobowych (np. kartoteki czytelników) [37]. Każdy plik ma określonądługość i znacznik końca pliku (ang. End Of File, EOF). Z plikiem należy kojarzyć operacje zapisu pliku oraz odczytu pliku. Trzeba pamiętać, że pliki tworzone na jakimkolwiek nośniku zależą od systemu operacyjnego, pod którym zostały wygenerowane. Fakt ten może stwarzać pewne problemy przy przenoszeniu plików między odmiennymi systemami operacyjnymi [38]. W dalszym ciągu, w odniesieniu do technologii cyfrowej implementowanej w komputerach, będziemy utożsamiać pojęcie pliku z pojęciem zbioru.

Bazy danych

Bazy danych to termin, który jest zakorzeniony w technologii komputerowej od bardzo dawna i głęboko już wrósł w realia dzisiejszego dnia. Baza danych to zbiór wystąpień różnych rekordów oraz opisów powiązań między rekordami, danymi zagregowanymi i danymi elementarnymi [Martin, 1983:26]. Zagadnienie projektowania, testowania i eksploatacji baz danych jest bardzo złożone. Na łamach niejszej książki nie ma najmniejszych szans nawet na fragmentaryczne naszkicowanie terminologii i z tych względów poprzestaniemy na odesłaniu zainteresowanego czytelnika do specjalistycznej literatury [Date 1981, Martin 1983, Gruber 1996]. Do zagadnienia tego jednak odwołamy się w dalszym ciągu jeszcze raz, omawiając dostęp do zasobów cyfrowych, aby nakreślić raczej mało znaną bibliotekarzom problematykę logiki trójwartościowej.

Wybrane rodzaje plików cyfrowych

Plik cyfrowy identyfikuje się przez nazwę. W pierwszych wersjach systemu DOS na nazwę nakładano dodatkowe ograniczenia. Nie mogła być ona dłuższa od 8 liter z repertuaru ASCII, cyfr oraz znaków interpunkcyjnych, plus co najwyżej trzy-literowe rozszerzenie podawane po kropce. Restrykcje nakładane na nazwę pliku zakazywały również używania 14 wyróżnionych znaków:
. „ \ / [ ] : < > + = ; ,

W obecnych systemach te ograniczenia zostały znacznie zliberalizowane. Warto jednak dodać, że swojego rodzaju ukłonem osób projektujących złożone dokumenty internetowe jest nadawanie nazw w miarę możliwości zgodnych ze starymi ograniczeniami DOSu. Pewnych kłopotów dostarcza niekiedy transgraniczna wymiana plików. Pliki wykorzystujące w nazwach kody przekraczające 128 (np. nazwy pisane cyrylicą) po zmianie środowiska systemowego na ogół wymagają zmiany nazwy.

Jeżeli w systemie występuje struktura katalogów, to odwołanie się do pliku na ogół zawsze wymaga podania pełnej specyfikacji pliku (to znaczy nazwy poprzedzonej tzw. ścieżką dostępu do pliku). Przyzwyczaić się tu trzeba do różnic pomiędzy Unixem a DOS i Windows. W tym pierwszym przejście na inny poziom katalogu oznacza się znakiem / podczas, gdy w dwóch pozostałych znakiem \ .

W miarę rozwoju technologii cyfrowej wytwórcy oprogramowania utrwalili w użytkownikach obyczaj rozpoznawania typu pliku po rozszerzeniu jego nazwy.

Tabela 6. Wybrane typy plików. Wybór autora.

Rozszerzenie
Typ pliku
com
plik wykonywalny
exe
plik wykonywalny
bat
plik wsadowy (zbiór komend systemowych do automtycznego wykonania)
sys
plik systemowy (zawierający informację o żądanej konfiguracji systemu)
tmp
plik pomocniczy
txt plik tekstowy (w domyśle zawierający tylko znaki ASCII)
doc
plik tekstowy formatowany (w zasadzie utożsamia się z plikiem zredagowanym pod którąś z mutacji edytora MS Word)
wp
plik tekstowy formatowany, zredagowany pod edytorem Word Perfect
rtf
plik tekstowy formatowany zredagowany w formacie Rich Text Format
htm, html plik hipertekstowy zredagowany w formacie HTML
ps plik w formacie PostScript
wav
plik dźwiękowy
au
plik dźwiękowy
jpg, jpeg
plik graficzny w formacie JPEG
tif, tiff
plik graficzny w formacie TIFF

Niesłychanie bogaty alfabetyczny indeks stosowanych typów plików można znaleźć na sieci pod URL:
http://whatis.techtarget.com/fileFormatA/0,289933,sid9,00.html.

Plik tekstowy

Cyfrowy plik tekstowy podparty technologią uwierzytelnionego podpisu elektronicznego to kamień węgielny współczesnej gospodarki elektronicznej. Na mocy współczesnego ustawodawstwa autor tekstu cyfrowego nadaje swemu cyfrowemu podpisowi taką samą moc prawną, jak podpisowi odręcznemu, a przesłanemu tekstowi pełne cechy dokumentu de iure.

Podstawowym rodzajem tekstu jest tekst niesformatowany. Tekst niesformatowany to typowy tekst używany w tradycyjnej, unixowej poczcie elektronicznej. Nie zawiera on żadnych wskazówek, mogących wpływać na stronę prezentacyjną. To tekst monochromatyczny, mający ten sam typ, rodzaj i wielkość czcionki. Zwykle też nie wykracza poza alfabet angielski [39] choć oczywiście istniejeoprogramowanie, pozwalające na poziomie konsoli unixowej operować pełnym zestawem czcionek narodowych całego świata.

Style tekstu

Już w pierwszych zaawansowanych komputerach osobistych, pracujących pod nadzorem systemu CP/M istniała możliwość przypisania każdemu znakowi widocznemu na ekranie komputera ograniczonej liczby wyróżników (atrybutów): podkreślenia wyświetlanego znaku i wygaszenia jego jasności o połowę. Polegało to na tym, że pamięć ekranu zamiast 8-bitowego modułu, służącego do pomieszczenia wyświetlanego znaku miała moduł 9-bitowy. Ponieważ do wyświetlenia podstawowego zestawu znaków ASCII wystarczy 7 bitów, więc ósmy, standardowy bit był używany jako wskaźnik podkreślenia znaku, a dziewiąty, dodatkowy - jako wskaźnik kontroli jego jasności.

Włączanie i wyłączanie pewnych atrybutów tekstu jest uzasadnione praktyką poligraficzną i zostało unormowane przez ANSI w postaci tzw. sekwencji escape. Pod nazwą tą kryje się sekwencja znaków sterujących ruchami kursora, definiowaniem klawiatury oraz modyfikacją wyświetlacza graficznego. Aktywizację mechanizmu tych sekwencji użytkownik mógł wcześniej poznać w systemie DOS w związku z konfiguracją pliku config.sys [40]. Sekwencja escape zaczynasię niewidocznym na ekranie znakiem, generownym przez naciśnięcie klawisza ESC (kod dziesiętny 27), po którym następuje ciąg parametrów. Wymienimy kilka sekwencji escape ograniczonych wyłącznie do kontroli monitora:

Tabela 7. Sekwencje escape. Wybór autora.


Atrybut tekstu
Sekwencja
Wyłączenie wszystkich atrybutów ESC [ 0
Wytłuszczanie (włączenie)
ESC [ 1
Podkreślanie (włączenie) ESC [ 4
Migotanie (włączenie) ESC [ 5
Inwersja video (włączenie) ESC [ 7
Ukrycie tekstu (wyłączenie) ESC [ 8


W podobny sposób można sterować kolorem tekstu i jego tła - w tabeli jest to drugi, liczbowy parametr sekwencji escape, który w przypadku sterowania barwą zmienia się w granicach od 30 do 47 (te sekwencje są już zgodne z normą ISO 6429).
A więc dla tekstu można zdefiniować rodzaj fontu i jego wielkość, można tekst lokalnie ukryć, ujawnić ukryty, spowodować jego migotanie, podkreślić, pochylić (posłużyć się kursywą), zmienić jego barwę, - ale można też określić język tekstu (ważne przy edytorach wyposażonych w słowniki ortograficzne, oraz przy wielojęzycznych syntezatorach mowy). Zamierzona kompozycja zespołu wyróżników (atrybutów) tekstu będzie przez nas nazywana stylem tekstu.

Formatowanie tekstu

Formatowanie tekstu to nadanie mu żądanej formy, kształtu prezentacyjnego. Elementy, które należy tu wyróżnić, to:

  1. Wyrównywanie tekstu (lewostronne, centrowane, prawostronne, obustronne)
  2. Tworzenie szpalt
  3. Listy numerowane z konspektami numerowanymi
  4. Listy nie numerowane
  5. Tablice
  6. Balans proporcji pomiędzy tekstem właściwym i przypisami

Skład tekstu

Skład tekstu ma na celu końcowe przygotowanie tekstu do publikacji. Skład tekstu to nałożenie stylów i formatowania na strukturę fizycznych wymagań środowiska prezentacyjnego (drukarka, naświetlarka, ploter, ekran, syntezator mowy). Produkt będący wynikiem składu musi być bezpośrednio rozumiany przez urządzenie techniczne, realizujące finalną postać publikacji.

Alternatywna wizualizacja tekstu

Wybrany tekst niejednokrotnie dobrze jest przedstawić w formie alternatywnej. Taki zabieg służy wówczas konkretnemu celowi. Sens alternatywnego zapisu jest natychmiast rozumiany, gdy chodzi np. o wydawnictwo drukowane brajlem. Jednak tym razem zreferowana będzie alternatywna forma zapisu ułatwiająca szybkie wprowadzanie zapisu do systemu cyfrowego. Mowa tu będzie o bardzo już popularnej formie zapisu, zwanej kodem paskowym (ang. bar code). Ten bardzo pożyteczny kod został zaprojektowany na potrzeby handlu celem szybkiego przetwarzania informacji o towarze. Obecnie rozpowszechnił się on na wiele innych dziedzin, znamy go dobrze ze sklepów i chyba na dobre zadomowił się już w wielu bibliotekach. Obecnie kod paskowy występuje w dwóch głównych odmianach: jednowymiarowej i dwuwymiarowej. W tym ostatnim przypadku występują zresztą zarówno wersje kropkowe (plamkowe), jak i paskowe.
Najpierw zreferowany będzie przypadek jednowymiarowy. Na początek małe wyjaśnienie. Nawet w przypadku jednowymiarowym nie osiągnęliśmy takiego poziomu standaryzacji, by na świecie użytkowany był tylko jeden, jednowymiarowy kod paskowy. Już w tej chwili liczba ich jest znaczna. Dużo pożytecznej informacji na ten temat można znaleźć na sieci:

http://www.barcodingfonts.com/barcode.htm
http://www.adams1.com/pub/russadam/stack.html
http://www.spatula.net/proc/barcode/code39.src

Oto nazwy kilku popularnych specyfikacji: kod 2 z 5 (ang. Code 2 of 5), kod 2 z 5 z przeplotem (ang. Code 2 of 5 Interleaved), kod 3 z 9, kod 128 UCC/EAN 128, kod EAN 8/13 [42] , PostNet, UPC-A, UPC-E.Na przykładzie kodu "3 z 9" (trzy z dziewięciu) spróbujemy przeanalizować jego budowę. Na wstępie przedstawimy tytuł niniejszego paragrafu w symbolice zwykłego kodu ASCII oraz kodzie "3 z 9".

Tabela 8. Reprezentacja tekstu w symbolice ASCII oraz symbolice kodu "3 z 9" (opracowanie własne).

 
Font Lucida Sans Unicode 12 pts Font 3 of 9 Barcode 36 pts
Alternatywna Alterna tywna
wizualizacja wizualizacja
tekstu tekstu


Na kod ten składa się sekwencja 5 czarnych pasków (p), między którymi są 4 białe odstępy (o). Zarówno paski, jak i odstępy mogą występować w wersji szerokiej, jak i wąskiej. W tej sekwencji szerokie muszą być trzy spośród dziewięciu elementów (stąd nazwa kodu). Stosunek szerokości większego elementu kodu (paska lub odstępu) do mniejszego nie jest standaryzowany i powinien zawierać się w przedziale 2,25:1 do 3:1. Schemat ten daje możliwość zakodowania 43 znaków, w tym cyfr, dużych liter alfabetu angielskiego oraz znaków używanych w księgowości (+ - * / % . symbol waluty - np. $ ). Do celów obsługi księgowej każdy pełen kod paskowy powinien być poprzedzony znakiem początku kodu i zakończony znakiem końca kodu. Dla kodu "3 z 9" rolę obydwu ograniczników odgrywa ten sam znak kontrolny: jest to znak mnożenia (*). Poszczególne znaki tekstu separowane są pojedynczym wąskim odstępem. Słowa zapisane w powyższym przykładzie nie zawierają dopisanych ograniczników kodu. Przyjrzyjmy się bliżej definicji tego kodu. W poniższej tabelce zestawiony jest fragment kodu

Tabela 9. Fragment specyfikacji kodu kreskowego 3 z 9 w postaci źródłowej i prezentacyjnej.
W - element wąski, S - element szeroki (opracowanie własne)

Znak
Wartość
p1
o1
p2
o2
p3
o3
p4
o4
p5
Postać prezentacyjna znaku
0
0
W
W
W
S
S
W
S
W
W
0
1
1
S
W
W
S
W
W
W
W
S
1
2
2
W
W
S
S
W
W
W
W
W
2
3
3
S
W
S
S
W
W
W
W
W
3
4
4
W
W
W
S
S
W
W
W
S
4
5
5
S
W
W
S
S
W
W
W
W
5
6
6
W
W
S
S
S
W
W
W
W
6
7
7
W
W
W
S
W
W
S
W
S
7
8
8
S
W
W
S
W
W
S
W
W
8
9
9
W
W
S
S
W
W
S
W
W
9
A
A
S
W
W
W
W
S
W
W
S
A
B
B
W
W
S
W
W
S
W
W
S
B
C
C
S
W
S
W
W
S
W
W
W
C
D
D
W
W
W
W
S
S
W
W
S
D
E
E
S
W
W
W
S
S
W
W
W
E
F
F
W
W
S
W
S
S
W
W
W
F
G
G
W
W
W
W
W
S
S
W
S
G
H
H
S
W
W
W
W
S
S
W
W
H
odstęp

W
S
S
W
W
W
S
W
W
 

Kod paskowy może służyć do zapisywania zarówno liter jak i cyfr. Pokazaliśmy powyżej, że tytuł niniejszego paragrafu potrafimy zapisać kodem paskowym na papierze. Zrobiliśmy to przy pomocy komputera i drukarki, ale całkiem nieźle mogło by nam się to udać przy pomocy dwóch precyzyjnych rapidografów różnej szerokości, albo odpowiednio przygotowanych na frezarce matryc celuloidowych oraz czarnej farby w aerozolu. I w takich wersjach ten zapis cyfrowy naprawdę nie miał by nic wspólnego z komputerem, czy elektroniką. Do odczytania tego kodu potrzebna jest tylko kompletna tabelka jego definicji. Jak nie trudno sobie wyobrazić, odkodować go można przez wizualne porównanie zapisu z tabelą kodu, choć z pewnością jest to żmudne i powolne. Podobnie zapis cyfrowy, na przykład "czysty" zapis binarny możemy zrealizować praktycznie na dowolnym nośniku, bez związku z jakąkolwiek elektroniką. Można wykuć w granicie ciąg zer i jedynek, albo kropek i kresek, umownie przedstawiających poszczególne bity. I to będzie znakomity, bardzo trwały zapis cyfrowy. Dla posiadacza takiego zapisu realnym problemem będzie tylko to, jak sprawnie odczytywać i przetwarzać zapisaną informację. I tu elektronika pokazuje swoje prawdziwe zalety. Tym nie mniej konkluzja jest klarowna: zapis cyfrowy może być zrealizowany w różnych technologiach. Jedną z nich, ale nie jedyną i nie wyłączną, jest technologia elektroniczna. Są jednak również inne technologie zapisu cyfrowego, a przykładem takiego zapisu jest kod paskowy. Nie inaczej było z technologiami perforacji kart i taśm papierowych używanych jeszcze w latach 80-tych do wprowadzania cyfrowych danych do komputerów i sterowania obrabiarek numerycznych, a również amerykańskich kart do głosowania w czasie wyborów prezydenckich w roku 2000.

Jednowymiarowy kod paskowy ma jednak swoje ograniczenia. Do podstawowych ograniczeń należy repertuar dopuszczalnych symboli, które podlegają kodowaniu. Dokuczliwość tego ograniczenia udało się znacznie zmniejszyć przez wprowadzenie kodowania dwuwymiarowego. Nie ma tu nic zaskakującego, że tym sposobem kodowania bardzo interesują się kraje dalekowschodnie. Jako przykład takiego kodu podamy kod QR (od ang. Quick Response Code), opracowany przez Nippondenso ID Systems i udostępniany w klasie licencji publicznych (ang. Public Domain). Kod ten jest tworzony w postaci kompozycji trzech narożnych symboli, określających przestrzenną orientację kodu, oraz pola danych. Kompozycja ta wypełnia kwadrat małymi komórkami, również o kształcie kwadratu. Maksymalny rozmiar matrycy kodu QR to 177 modularnych kwadratów zdolnych zakodować 7366 znaków numerycznych lub 4464 znaków alfanumerycznych. Ważną cechą tego kodu jest możliwość bezpośredniego kodowania znaków znajdujących się w japońskich sylabariuszach (kanji, kana).  Osobom niewidzącym polecamy wyłącznie identyfikację symboli przestrzennej orientacji kodu.  W analizowanym tu przykładzie są to trzy kwadraty  o rozmiarze 7 na 7 komórek. Każdy symbol składa się z jednokomórkowej, ciemnej (w naszym przykładzie granatowej) "skórki", jednokomórkowego, jasnego "miąższu" oraz ciemnej "pestki" o rozmiarze 3 na 3 komórki. Dla ułatwienia identyfikacji do ciemnych komórek wpisana została mała litera "c", natomiast komórki wypełnione jasnym tłem są puste. Wszystkie trzy symbole przestrzennej orientacji kodu oddzielone są jednokomórkowym, jasnym pasem od pola danych. Rozkład zaciemnionych komórek w polu danych generowany jest algorytmicznie i dla postronnego obserwatora jawi się jako czysto losowy, nie niosący żadnej informacji.

Rysunek 21. Dwuwymiarowy kod towarowy QR. Opracowanie własne na podstawie materiałów użyczonych autorowi przez Nippon Denso


 
c
c
c
c
c
c
c
      c      
c
c
c
c
c
c
c
c
         
c
 
c
c
c
c
     c            c
c
 
c
c
c
 
c
       c  
c
   c    c c
c
   c
c
 
c
c
c
 
c
       c      c    c  c  c    c
c
 
c
c
c
 
c
   c  c  c  c  c    c    c c
c
   c
c          
c
       c  c      c            c
c
c
c
c
c
c
   c    c    c    c c
c
c
c
c
c
                   c  c                    
     c    c      c  c    c        c      c  
   c      c          c    c  
c
 c  c        
 c      c      c    c    c    c        c    
c
 c    c        c    c  c  c  c      c    
                 c          c  c  c  c    c  c  c
 c c
c
c
c
c
c
           c  c  c  c    c  c    
          c      c        c        c    c  c
 c    c c  c    c    c    c    c    c    c  c    c  c
 c    c  c  c    c          c    c    c      c  c  
 c    c  c  c    c    c  c  c  c      c  c  c        c
 c            c      c    c  c  c      c  c  c  c  c
c
c
c
c
c
c
   c  c  c        c    
 
Przykład 1.

Kod zawarty w kwadracie o boku 10,5 mm

Zawartość: 60 znaków numerycznych (cyfr)

Przykład 2.

Kod zawarty w kwadracie o boku 14 mm

Zawartość: 60 znaków alfanumerycznych 
(cyfr i liter alfabetu angielskiego)

Przykład 3.

Kod zawarty w kwadracie o boku 17,5 mm

Zawartość: 55 japońskich znaków kanji 


Kod ten, podobnie jak i kilka innych kodów, ma możliwość korekcji błędów wywołanych uszkodzeniem zapisu lub defektem urządzenia odczytującego. Dzięki posiadanej nadmiarowości, oryginalnie zapisana przy pomocy tego kodu informacja może być poprawnie odtworzona przy częściowym zniszczeniu, uszkodzeniu lub zabrudzeniu zapisu. Jak widać z przytoczonego przykładu, rozmiar powierzchni kwadratu zajmowanego przez kod dwuwymiarowy zwiększa się w miarę wzrostu liczby kodowanych bajtów (pojedynczy znak kanji kodowany jest na 3 bajtach)

Hipertekst

Hipertekst to uogólnienie klasycznego tekstu w środowisku cyfrowym. Elementami odróżniającymi hipertekst od tekstu są:

Dokumenty hipertekstowe przygotowuje się obecnie w kilku różnych standardach, wywodzących się ze wspólnego rdzenia: normy ISO 8879 definiującej Standard Generalized Markup Language (SGML). Największą popularność na świecie zdobył sobie jego dialekt o nazwie HTML (Hyper Text Markup Language), najnowszą odmianą jest XML (Extensible Markup Language). Przykładami przeniesień koncepcji SGML na inne obszary zastosowań może być język opisu rzeczywistości wirtualnej VRML, lub języki opisu mówionego tekstu SSML [Taylor 1997] i STML [Sproat 1997]. W dalszym ciągu nie podejmiemy dawno zapoczątkowanej dyskusji na temat wad i ograniczeń tak niewiarygodnie dziś popularnego dialektu SGML jakim jest HTML. Ma on w istocie sporo wad, z których niektóre są postrzegane jako zalety. Tak na przykład liberalność przeglądarek hipertekstowych, interpretujących wyłącznie poprawne składniowo fragmenty publikacji, a ignorujące fragmenty niezgodne z implementowaną składnią, jest uważana za zaletę. Taka implementacja interpretuje co prawda publikacje zawierające błędne konstrukcje składniowe (te są w zasadzie ignorowane przez przeglądarki), ale zarazem interpretuje znaczne, "klasyczne" fragmenty publikacji przygotowanych w nowszych mutacjach formatu HTML, jeszcze przez przeglądarkę nie zaimplementowanych. Daje to szanse szybkiego rozwoju formatu z niewielkim uszczerbkiem dla jakości publikacji. Liczba publikacji stosująca format HTML przekracza o rzędy wielkości liczbę publikacji w pozostałych formatach i trzeba być wyjątkowo naiwnym, by wierzyć w realność migracji tych publikacji do formatu XML w skali globalnej. Na to jest już za późno. Można tu się chyba zgodzić, że zwykle wygrywa narzędzie proste, bardziej prymitywne, za to masowo stosowane.

Formatowanie hipertekstu

Formatowanie hipertekstu polega na wpisaniu explicite stylów i dyrektyw formatujących w zwykły tekst. Jest to ogromna zaleta, zważywszy, że komercyjne produkty na ogół oferują tekst zakodowany, zazdrośnie chroniąc swych warsztatowych tajemnic. Taki "otwarty" plik tekstowy jest niesłychanie bezpieczny dla właściciela - edytować go można niemal "byle czym". Nie zamierzamy przeprowadzać tu kursu formatowania tekstu w standardzie HTML - można to znaleźć w licznych, dostępnych od kilku lat na rynku księgarskim książkach [Macewicz 1996, Taylor 1996]. Czytelnikowi wrogo nastawionemu do przyswajania sobie nowych pojęć, ale posiadającego umiejętność posługiwania się edytorami MS Word (ten rekomendujemy począwszy od wersji Word 97) lub Corel Word Perfect (rekomendujemy od wersji 8) zalecamy przygotowanie sobie wersji "zwykłego" dokumentu, a następnie wyeksportowanie go do formatu HTML. Czytelnik łatwo się przekona, że tolerancja przeglądarek w stosunku do odstępstw od zalecanej składni publikacji jest wręcz niewiarygodna.

Znaczniki używane do nadawania tekstowi jego atrybutów i formatowania go są zestawiane w postaci pary: atrybut otwiera się znacznikiem <nazwa atrybutu> i kończy się znacznikiem </nazwa atrybutu>. Nazwy standardowo pochodzą z języka angielskiego i każda osoba, operująca podstawowym słownictwem edytorskim w tym języku szybko chwyta zasady formatowania hipertekstu według definicji HTML. Nie przewiduje się wprowadzenia narodowych wersji języka znaczników. Wymienimy dla przykładu kilka najprostszych znaczników:

Tabela 10. Wybrane znaczniki formatowania HTML.

Atrybut
Znacznik początku
Znacznik zakończenia
Wytłuszczenie tekstu
<B>
</ B >
Kursywa
<I>
</I>
Wielkość i kolor fontu
<FONT SIZE=6 COLOR="#0000FF">
</ FONT >
Centrowanie tekstu
<CENTER> </CENTER>


Wymienione znaczniki tekstu (ewentualnie tła tekstu) odnosiły się do tej pory tylko do obsługi użytkownika czytającego (oglądającego) tekst. Jednak z różnych powodów użytkownik może nie być w stanie w ogóle widzieć tekstu (jest niewidomy, lub ma chore oczy), bądź nie chcieć go chwilowo widzieć (jest zajęty innymi sprawami). Równocześnie ten sam użytkownik ma możliwość przesłuchiwania wyselekcjonowanego tekstu przy pomocy syntezatora mowy. Okazuje się, że rozwój współczesnych syntezatorów mowy wyprzedził technologię języków opisu publikacji hipertekstowych. Mówiąc inaczej, twórcy tych języków mało wiedzieli o potrzebie zastosowania syntezatorów mowy do przeglądania publikacji internetowych. Na rzecz zdefiniowania takiego standardu zawiązało się w ostatnich latach pod nazwą SABLE konsorcjum sześciu instytucji ( http://www.cstr.ed.ac.uk/projects/sable/).Spośród nowych znaczników proponowanych przez SABLE wymienimy: czteropoziomową emfazę, czteropoziomową przerwę w czytaniu, pięciopoziomową szybkość czytania, czteropoziomową głośność, płeć lektora i pięć kategorii wieku lektora. Czytelnik zechce tu docenić zalety tolerancji przeglądarek. Każdą publikację hipertekstową można wzbogacić o znaczniki sterujące syntezatorem, praktycznie bez żadnego wpływu na jej interpretację.

Niezwykle nowatorskie podejście do formatowania tekstu, zorientowanego na systemy syntezatorów mowy, zaprezentował Raman [1998]. W oparciu o zdefiniowane przez siebie rozszerzenie języka Common Lisp skonstruował on formater audio o nazwie AFL (ang. Audio Formatting Language), który w środowisku przeglądarki opartej o syntezator mowy może być uważany za odpowiednik Postscriptu. Autor tego rozwiązania (sam zresztą całkowicie niewidomy) doprowadził niemal do perfekcji stworzony przez siebie zespół narzędzi programistycznych o nazwie Audio System for Technical Readings (ASTER) [44], umożliwiającychniewidomym tworzenie i analizę złożonych tekstów matematycznych z pomocą syntezatora mowy. Lektura znakomitej książki Ramana, osobiście złamanej do druku przez samego jej autora, pozostawia na każdym jej czytelniku niezatarte wrażenie i ze wszech miar jest godna polecenia. Przyjrzyjmy się, jak ASTER przekłada na angielską mowę wzór Faa de Bruno, zaczerpnięty przez Ramana z pierwszego tomu znakomitej książki Knutha [1968] - patrz ćwiczenia do paragrafu 1.2.5, zadanie 21:

Równanie 1. Wzór Faa de Bruno.

Dnx w
=

Dju w
n! (D1x u)k1...(Dnx u)k n
k1! (1!)k1.....kn! (n!)k n


0≤ j ≤ n
k1+k2+...+kn = j





k1+2*k2+...+n*kn = n





k1,k2,...,kn≥0




Wzór powyższy odczytywany jest następująco [45] (plik dźwiękowysec18-ex3.au dostępny jest pod adresem http://www.cs.cornell.edu/home/raman/aster/demo.html):

Ennth derivative with respect to x of w equals summation over
0 less than or equal to j less than or equal to n
The quantity being summed summation over
k1 plus k2 plus AND SO ON plus kn equals j and below that
k1 plus 2k2 plus AND SO ON plus nkn equals n and below that
k1 comma k2 comma ellipsis comma kn greater than or equals to 0
The quantity being summed
jayth derivative with respect to u of w [46]
CORRECTION
the product n factorial quantity first derivative with respect to x of u raised to k1
AND SO ON
Quantity ennth derivative with respect to x of u raised to kn
DIVIDED BY
the product k1 factorial quantity one factorial raised to k1
AND SO ON
kn factorial quantity n factorial raised to kn

W tym miejscu widać bezsiłę drukowanego tekstu. Dla oddania melodii zastosowanego przez Ramana formatowania audialnego, w powyższym tekście zostały użyte wyróżniki. Tak więc wykładniki k1 oraz kn zapisane w górnym indeksie wymawiane są wysokim głosem. Jednak nie oddaje to wrażenia jakie ma słuchacz. Osoby znające angielski zachęcamy do przesłuchania znajdujących się na Sieci plików audio. Zostały one wykonane przez digitalizację sygnału wytworzonego przez syntezator Dectalk, którym posługiwał się Raman i są bardzo dobrej jakości. Warto jeszcze dopowiedzieć, że Raman zaproponował dwie formy interpretacji takich złożonych wyrażeń, różniące się między sobą poziomem przyswajania i czasem odczytu. Raman umiejętnie posługuje się formatowaniem audialnym zmieniając cechy głosu syntetycznego lektora w zależności od elementu strukturalnego interpretowanego wzoru. Innym głosem syntezator wypowiada podstawową linię formuły, innym licznik i mianownik ułamka, jeszcze innym wykładniki. Spektakularne osiągnięcia Ramana w zakresie formatowania audialnego tekstów technicznych obalają wszelkie prymitywne stereotypy na temat możliwości zdobywania najwyższych kwalifikacji przez osoby całkowicie niewidome i pokazują, jak wielkie są możliwości tej grupy inwalidzkiej w zakresie prowadzenia zaawansowanych prac (por. Czermiński [2001-2]).

Na marginesie omawianych tu spraw związanych z redakcją i odbiorem tekstów przez osoby niewidome warto odnotować równie, a może nawet i bardziej fascynujący fakt opracowania przez Heshama Kamela, niewidomego doktoranta Uniwersytetu w Berkeley, pakietu pozwalającego niewidomym tworzyć, przeglądać i edytować grafikę. Więcej informacji na ten temat można znaleźć wizytując stronę internetową twórcy pakietu IC2D ( http://guir.berkeley.edu/projects/ic2d).

Morfologia tekstu formatowanego

Czytelnik oswojony z pracą edytorską w środowisku Windows ma w znakomitej większości przypadków wbudowaną usługę wizualizacji tekstu w jego finalnym formacie. W żargonie informatycznym znana jest ona pod nazwą standardu WYSIWYG (ang. What You See Is What You Get - to co widzisz jest tym, co otrzymujesz). Mało który edytor oferuje możliwość podejrzenia i ewentualnie skorygowania znaczników, czy kodów formatujących tekst. Do takich nielicznych pozytywnych przykładów możemy zaliczyć Word Perfect. Pod klawiszem funkcyjnym F11 edytor ten oferuje funkcję edycji kodów formatujących, określaną nazwą Reveal Codes (ujawnij kody). Ale zarazem możemy powiedzieć z poczuciem pełnej odpowiedzialności, że funkcję taką ma każdy tekst sformatowany zgodnie ze standardem SGML i jego standardami następczymi (HTML, XML, STML, VRML). Każdy taki plik edytowany pod edytorem znakowym (takim, jak np. MS NotePad) ujawnia wszystkie atrybuty tekstu i znaczniki formatujące. Wynika z tego, że cyfrowy tekstowy dokument elektroniczny ma dwie postaci, z których jedna jest zawsze dostępna dla użytkownika, a druga może być dostępna lub nie - w zależności od woli twórcy oprogramowania. Dla pierwszej postaci zaproponujemy nazwę postać prezentacyjna tekstu, dla drugiej przyjmiemy termin będący już w użytkowaniu: postać źródłowa tekstu. W normalnym trybie edytora lub przeglądarki dostępna jest postać prezentacyjna. Postać prezentacyjna z kolei może się dzielić na podpostacie zorientowane sprzętowo w zależności od rodzaju odbiorcy. Można tu wymienić dominującą postać wizualną, coraz bardziej popularną postać audialną, wreszcie rzadko występującą postać sensoryczną. Postać źródłowa publikacji internetowych dostępna jest w menu przeglądarek pod pozycją "Widok" poprzez funkcję "Źródło".

Przyjrzyjmy się, jak udostępniane są obydwie postacie tego samego tekstu przez różne pakiety oprogramowania. Tekst oryginalny został przygotowany pod edytorem Word 97 i dodatkowo skonwertowany do formatów HTML i WP ((WordPerfect). Konwersja ta spowodowała automatyczną zmianę rodzaju czcionki z niedostępnego na platformie Word Perfecta Ariala na najbardziej do niego zbliżoną czcionkę bezszeryfową jaką jest Univers Condensed. MS Word 97 oferuje bardzo ograniczoną usługę dostępu do źródłowej postaci tekstu. Tabela 11 ilustruje kształt postaci prezentacyjnej i źródłowej tekstu widzianej przez pryzmat różnych narzędzi programistycznych. Użytkownik tego edytora może kontrolować wyświetlanie na ekranie kodów wewnętrznych edytora poprzez pozycję menu Narzędzia, funkcję Opcje i zakładkę Widok. Wyjątkowo zwodnicza jest możliwość pokazywania kodów wszystkich znaków niedrukowanych - to dopiero pokazuje faktyczną skromność oferty Microsoftu.

Tabela 11. Postać prezentacyjna i postać źródłowa tekstu.

Postać tekstu
Widok na ekranie
Prezentacyjna (WYSIWYG)
(MS Word 97,
Word Perfect 6.0,
Netscape Navigator,
Internet Explorer)




Electronic Document Morphology

It should be noted that in a straightforward example it is possible to present semantically and graphically the same information using a number of different software


Źródłowa

(Word Perfect 6.0)

[Char Style On: heading 1][Just][Mrk Txt ToC Begin][Font Size:14pt][Font:Univers Condensed][Lang] Electronic Document Morphology][Mrk Txt ToC End][Bold Off][HRt] [Char Style Off: heading 1] It should be noted that in a straightforward example it is possible to present semantically and graphically the same information using a number of different software
Źródłowa

(Netscape Navigator,
Internet Explorer)

<B><FONT FACE="Arial" SIZE=4><P>Electronic Document Morphology</P></B></FONT><FONT SIZE=2>
<P ALIGN="JUSTIFY"> It should be noted that in a straightforward example it is possible to present semantically and graphically
the same information using a number of different software </P></FONT>

W postaci źródłowej ujawnionej przez Word Perfect nietrudno zauważyć znacznik elementu wbudowywanego do opcjonalnego spisu treści publikacji (Mrk Txt ToC, ToC - ang. Table of Contents) - element brakujący w tekście konwertowanym do HTML. Wynika to z faktu, że Word przeniósł do Word Perfecta style, natomiast nie przeniósł ich do formatu HTML.  Dla ułatwienia analizy żródłowej postaci dokumentu znaczniki formatujące oznaczone zostały kolorem czerwonym.

Mając do dyspozycji tekst w postaci źródłowej, użytkownik dysponuje w pełni przewidywalnymi zachowaniami systemu. To właśnie ten element przyczynił się do tak wielkiego sukcesu systemu TEX w środowiskach technicznych. Czy się jednak to komu podoba czy nie, dominująca liczba tzw. przeciętnych użytkowników preferuje systemy WYSIWYG i należy przypuszczać, że proporcja ta nie ulegnie zmianie. Piszący te słowa z konieczności umotywowanej brakiem czasu sam używa pakietu MS Office 2000, choć dysponuje przykładowym plikiem w formacie WORDa, nie spełniającym postulatu WYSIWIG: w tekstowym dokumencie zaszyty jest obrazek, którego nie widać na ekranie, ale który jest drukowany na drukarce. Nie ma wątpliwości, że obecnie stosowane oprogramowanie w większości wypadków jest dalekie od doskonałości. Na zakończenie warto wspomnieć, że przez wiele lat prawdziwą furorę budził zaprojektowany przez S. Jobsa system operacyjny NeXT Step (i jego potomek OPEN STEP). Cechowała go jednolita technologia obsługi zarówno drukarki, jak i ekranu: był to PostScript. To powodowało przewidywalne zachowanie się systemu u końcowego użytkownika. NeXT Step dobrze odpierał atak krytyki na nieprzewidywalność efektów artystycznych na stacji roboczej końcowego użytkownika, ale - mówiąc szczerze – był to użytkownik elitarny. Fakt ten okupiony był jednak znacznymi ograniczeniami: dla platformy intelowskiej producent systemu publikował listę produktów mających atest zgodności sprzętowej. Dotyczyło to płyt głównych, kart graficznych, kart dźwiękowych, kontrolerów SCSI itp. Niestety koszty rozwoju takiego systemu są bardzo wysokie, i firma nie była w stanie nadążyć z pisaniem sterowników obsługujących ogrom pojawiających się nowych produktów rynkowych. NeXT Step urodził się za wcześnie, gdy stopień standaryzacji sprzętowej jeszcze był niski, a moc przetwarzania pod każdym względem zbyt mała. Jak to wspomniano uprzednio, wraz z wprowadzeniem systemu operacyjnego Windows 2000 Microsoft ośmielił się opublikować na swej stronie domowej wykaz sprzętu posiadającego atest zgodności z tym systemem. Fakt ten staje się nowym wyzwaniem dla użytkowników oprogramowania produkowanego przez tą firmę rokującym zbliżone kłopoty do tych, które mieli użytkownicy NeXT Stepa instalowanego na platformie intelowskiej.

Jak wyżej pokazano na przykładach, edytor może należeć do jednej z trzech grup:

  1. Oferującej wyłącznie formę prezentacyjną (np. MS Word)
  2. Oferującej zarówno formę prezentacyjną, jak i źródłową (Corel Word Perfect 8. niektóre edytory HTML)
  3. Oferującej wyłącznie formę źródłową (takim jest np. S.C. UniPad

Można by się spodziewać, że w przypadku Worda użytkownik ma do dyspozycji klasyczną usługę WYSIWYG: na drukarce dostajesz to co widzisz. Jak do tej chwili nie jest to prawdziwe. Microsoftowski Word nadal jest niespójny wewnętrznie. Jak długo w menu Worda w pozycji Widok będzie się znajdowało okienko z trzema opcjami przeglądania dokumentu: ‘Normalny’, ‘Układ sieci Web’ oraz ‘Układ strony’, - tak długo użytkownik musi zdawać sobie sprawę, że w danym momencie ogląda tylko jeden z możliwych obrazów tworzonego dokumentu. Te obrazy mogą się od siebie bardzo różnić. Tak np. w układzie normalnym Word nie pokazuje pól tekstowych. Celem zilustrowania takiego przypadku przygotowany został plik w formacie Word zawierający pola tekstowe. Poniższe rysunki są zrzutami ekranu tworzonymi w trakcie przeglądania tego pliku w układzie normalnym (Rysunek 22) oraz w układzie strony (Rysunek 23).

Rysunek 22. Tekst dokumentu alyakhtund.doc w układzie normalnym. Opracowanie autora.

Песни, посвящённые <не.
№ 1.
Poland, 18 April 2002
Бронислав Пилсудский

Вунит, сестра Чурки, поэтесса, зная что я очень люблю песни, решила составить песню,
обращённую ко <не. Когда я ездил (в 1897 г.) по гилякски< селения<, обучая гиляков
солить рыбу,она жила в с.Кезириво, лежаще< на островке по р.Ты<и близ Мозьб’ во.
Приходила она и ко <не, но не застала до<а, пото< как и все айны отправилась (очевидно
весною 1898 г.) в Арково. Аляхтунд. Акан- тох алеhынд.* женщ[ина] Вунит. 1898 г.

Аляхтунд.

Акан– тох алеhынд.*

женщ[ина] Вунит.
1898 г.
Кезириво фина / Когда я жила в Кезириво
хе<и я<и чхерш внизу по реке и вверху
па <ыта /Мусьпи рох <аhна | про тебя только разговоры слыхала,
hуктох тырахарш толь варшке/ когда спустилась к <есту где лодки
оськ варэт урыты причаливают,

Rysunek 23. Tekst dokumentu alyakhtund.doc w układzie strony. Opracowanie autora

Песни, посвящённые <не.
№ 1.

Poland, 18 April 2002

Бронислав Пилсудский

Вунит, сестра Чурки, поэтесса, зная что я очень люблю песни, решила составить песню, обращённую ко <не. Когда я ездил (в 1897 г.) по гилякски< селения<, обучая гиляков солить рыбу, она жила в с. Кезириво, лежаще< на островке по р. Ты<и близ Мозьб’ во
Pole tekstowe: Библиотека Польской Академии Наук в Кракове. Подлинник.

Приходила она и ко <не, но не застала до<а, пото< как и все айны отправилась (очевидно весною 1898 г.) в Арково. Аляхтунд. Акан- тох алеhынд.* женщ[ина] Вунит. 1898 г .

.


Аляхтунд.

Акан– тох алеhынд.*

Pole tekstowe: Подготовка текста и публикация В.М.Латышева

Кезириво фина /





Jak widać z powyższych przykładów, obydwa obrazy znacznie różnią się między sobą. Układ strony jest prawdopodobnie najbliższy usługi WYSIWIG i z dużym prawdopodobieństwem można orzec, że tak właśnie będzie wyglądał wydruk na drukarce kolorowej, natomiast z całą pewnością nie będzie tak wyglądał wydruk na drukarce biało-czarnej. Natomiast układ normalny jest jakąś formą uproszczoną, która może nie zawierać pewnych elementów. Powyższe komentarze pozwalają zrozumieć, dlaczego na Zachodzie przereklamowanym standardom przemysłowym szybko dokleja się uszczypliwe etykietki, Tak więc w szczególności usługa WYSIWIG bywa przezywana WYSIWYNG (ang. What You See Is What You Never Get – to co widzisz jest tym, czego nigdy nie otrzymasz).

Przytoczona analiza porównawcza ujawnia polimorfizm cyfrowego dokumentu elektronicznego, widziany przez pryzmat standardowych narzędzi środowiska edycyjnego i prezentacyjnego (monitor, drukarka biało-czarna, drukarka kolorowa). Polimorfizm ten jest wyrazem kompromisu jaki producent oprogramowania chce osiągnąć; jest wyrazem balansu pomiędzy spodziewanymi potrzebami użytkownika i ofertą konkurencji. Związane z nim niejednoznaczności mogą poważnie spowalniać procesy redakcyjne i w ostateczności nawet wprowadzać deformacje do postaci prezentacyjnej.

Elektroniczny dokument cyfrowy musi być postrzegany jako byt zintegrowany ze światem, w którym go wytworzono, i do którego winien należeć. Przenoszenie go do niekompletnego środowiska mającego inne wersję oprogramowania użytkowego, sterowniki, fonty czy obsługę ekranu może poważnie zmienić jego cechy. W końcu nawet meduza wyrzucona przez fale na morski brzeg jest tylko marną karykaturą misternego organizmu zawieszonego w wodzie.

Teksty wielojęzyczne

Stwierdzenie, że wielojęzyczność jest immanentnie związana z komunikacją międzynarodową - pieszą, morską czy lotniczą - jest chyba dla wszystkich oczywiste. Dokumentom wielojęzycznym już w starożytności przypisywano ponadczasową wartość. Najlepszym przykładem takiego dokumentu jest pieczołowicie przechowywana w British Museum bazaltowa stela znana pod nazwą Kamienia z Rosetty. To dzięki uwiecznionemu na tym kamieniu trójjęzycznemu zapisowi (hieroglify egipskie, pismo demotyczne i pismo greckie) Jean François Champoillon był w stanie odcyfrować niezrozumiałe już od dwóch tysiącleci egipskie hieroglify. Nie od rzeczy będzie też przypomnieć, że jeden z naszych najciekawszych zabytków – „Psałterz floriański” – zawiera 150 psalmów pisanych w trzech językach: łacińskim, polskim i niemieckim. Jednak wielojęzyczne dokumenty najczęściej nie występują w zbiorach specjalnych, lecz w podręcznym księgozbiorze każdej czytelni: są to słowniki, tak pożyteczne przy bieżącej pracy.

W dzisiejszych czasach ożywiona wymiana handlowa nasyca światowe rynki towarem z wielojęzycznym opisem. Mamy go na słoikach z dżemem, w instrukcjach obsługi pralek i telewizorów, w opisach informacyjnych filmów fotograficznych i leków, na okładkach międzynarodowych biletów lotniczych i kolejowych. Bodaj czy nie jeszcze bujniej rozwija się produkcja materiałów wydawniczych w muzeach. Świat stał się nie tylko bardziej wielojęzyczny, ale i wielokulturowy. Ciekawy przegląd współczesnych zagadnień związanych z wielojęzycznością zaprezentowała niedawno Borgman [1997]. Autorka spostrzega fakt pojawienia się na świecie wielkiej ilości materiału cyfrowego i koncentruje się na konieczności unifikacji zasad kodowania w ramach Unicode'u.

W ostatnich latach poligrafia światowa całkowicie zmieniła swoje oblicze. Obecnie większość tekstów wielojęzycznych sporządza się komputerowo. Czy wszystko jednak da się tu zrobić? Jakie są ograniczenia w poligrafii, a jakie w edytorstwie internetowym? Jakie są współczesne tendencje w zakresie katalogowania wydawnictw obcojęzycznych?

W następnych paragrafach dyskusję wybranych tu problemów ilustrować będziemy przykładami z dalekowschodniego obszaru językowego. Podobne ilustracje tekstowe przez długie lata były przyjmowane z dreszczykiem emocji, teraz stają się powoli codziennością.

Techniczne aspekty wielojęzyczności

W syntetycznym skrócie techniczne problemy związane z obsługą tekstów wielojęzycznych można pogrupować na następujące kategorie:

  1. wprowadzanie znaków tekstu
    • aspekt sprzętowy (klawiatura, sieć poprzez adapter sieciowy, terminal włączony poprzez interfejs szeregowy, mikrofon włączony do karty dźwiękowej plus oprogramowanie rozpoznawania mowy)
    • aspekt programowy (graficzne kompozery złożonych znaków z predefiniowanych struktur, tezaurusy, przełączniki kierunkowości zapisu: lewa do prawej, prawa do lewej, pisanie poziomo, pisanie pionowo)
  2. prezentacja znaków tekstu poprzez urządzenie peryferyjne komputera (ekran, drukarka)
  3. formatowanie tekstu identyfikujące język mówiony na potrzeby obsługi syntezy mowy (programowa synteza przez kartę dźwiękową lub sprzętowa przez autonomiczny syntezator mowy traktowany jako urządzenie peryferyjne)
  4. kodowanie znaków (wybór standardów,transkodowanie online, migracje)
  5. definiowanie sekwencji sortujących terminy i sekwencji określających tryb przeszukiwania i interpretacji tekstu wielojęzycznego
  6. automatyczne tworzenie streszczeń i indeksu słów kluczowych
  7. automatyczne tłumaczenia online

Warto teraz przyjrzeć się kilku wybranym technikom wprowadzania dalekowschodnich tekstów do dokumentu. Rozwój i powszechna akceptacja standardu okienkowego (Apple, Microsoft, X-Windows) stworzyły nową możliwość oferowania przez aplikację dodatkowych usług, niezwykle upraszczających proces edycyjny. Najprostszym (i zarazem najbardziej powolnym) sposobem wprowadzenia tekstu jest pobieranie pojedynczych znaków z posiadanego repertuaru. Nie zamykając edytora użytkownik może wywołać sobie małą przeglądarkę dostępnych znaków, posługując się funkcją Wstaw z poziomu głównego menu edytora, i wybierając z listy pozycję Symbol. Po ukazaniu się okienka dialogowego funkcji Symbol należy wybrać font, zawierający potrzebny podzbiór znaków (w cytowanym przykładzie jest to Hiragana). Jeśli wybrany zostanie font unikodowy, to po prawej stronie okna dialogowego udostępnione zostaje dodatkowe okno podzbioru grupy językowej (np. cyrylica, czy ujednolicone ideogramy CJK). Potrzebny znak wskazuje się myszką, a następnie przenosi się go do głównego okna edytora poprzez aktywizację pozycji Wstaw. Przy rutynowym wpisywaniu obcojęzycznego tekstu użytkownik może oczywiście ostrożnie zredefiniować sobie klawiaturę [47] przy pomocy pozycji Klawisz skrótu. Rysunek 24 przedstawia przykładowe wpisywanie tekstu japońskiego indywidualnie wybieranymi znakami z podzbioru Hiragana:

Rysunek 24. Wprowadzanie tekstu japońskiego w edytorze Word 97 (wybieranie znaków sylabami z puli systemowej fontu Arial Unicode MS). Opracowanie autora.

Proszę pisać - Microsoft Word
Plik Edycja
Widok
Wstaw
Format
Narzędzia
Tabela
Okno
Pomoc









    かいてくだ

Symbol

Symbole

Znaki specjalne

 

Czcionka:  Arial Unicode MS

Podzbiór:   Hiragana

<

 

Autokorekta:

Klawisz skrótu...

Klawisz skrótu:


Wstaw

Anuluj

 


Przyjrzyjmy się z kolei, na ile szersze techniczne możliwości tworzenia napisów w językach dalekowschodnich daje edytor wprowadzania IME (ang. Input Method Editor) firmy Microsoft (Rysunek 25).

Rysunek 25. Edytor IME. Opracowanie autora.

Dokument10 - Microsoft Word
Plik Edycja Widok Wstaw Format Narzędzia Tabela Okno Pomoc
   Karafuto
からふと

カラフト
樺太
からふと
カラフト
karafuto
KARAFUTO

Karafuto

karafuto

KARAFUTO



W klasyfikacji Tuckera [1987] IME podpada pod kategorię systemów konwersji fonetycznej (ang. phonetic conversion systems). Narzędzie to jest swojego rodzaju kombajnem, operującym w środowisku edytorów obsługujących format HTML, umożliwiającym posłużenie się transkrypcją z poziomu klawiatury angielskiej i opcjonalnym, bardzo dogodnym tezaurusem, usłużnie podstawiającym alternatywne skrypty z listy dostępnych sylabariuszy (japoński). Dodatkowo IME oferuje czcionkę standardową, lub połowicznej szerokości (tą ostatnią tylko dla katakany i znaków ASCII). W IME tekst japoński wprowadzamy do otwartego już dokumentu w transkrypcji Hepburna. Edytor podsuwa jednak piszącemu trzy możliwości prezentacji tekstu na ekranie: albo tekst niekonwertowany (romaji) albo automatycznie konwertowany do hiragany lub katakany. Jeśli po zakończeniu pisania jakiegoś słowa naciśniemy klawisz spacji, to wyświetlone zostanie okienko z listą proponowanych alternatywnych form zapisu (homofony). Rysunek 21 ilustracją, obrazującą sposób wyboru zapisu nazwy Karafuto - japońskiego określenia wyspy Sachalin, gdzie więziony był Bronisław Piłsudski. Na rysunku widać od góry alternatywne formy prezentacji: katakanę, kanji, hiraganę (wszystkie trzy w pełnej szerokości), katakanę w połowicznej szerokości czcionki i pięć wersji romaji w obydwu szerokościach czcionki (pozycje 5-9).

W miarę poprawy parametrów technicznych ekranu (ogniskowanie, aberracje odchylania, zdolność rozdzielcza) adaptera graficznego oraz mocy przetwarzania procesora zaczęły narastać apetyty na bardziej wyrafinowane metody tworzenia tekstów wielonarodowych. Przyjrzyjmy się na koniec (Rysunek 26) interesującemu narzędziu, oferowanemu przez firmę Aurora w ramach pakietu dla bibliotek i służącemu do wprowadzania znaków alfabetu chińskiego [48]. Przedstawiane narzędzieto czteropoziomowy kompozer złożonych znaków chińskich w oparciu o pule prymitywów składniowych. Ideę jego przedstawiamy w postaci tablicy podzielonej na cztery sekcje z których pierwsza ogranicza się tylko do jednej kolumny zawierającej znaki oparte na różnych dwuwymiarowych orientacjach pojedynczej kreski (prosta pozioma, prosta pionowa, i dwie wygięte). Dwie następne sekcje (druga i trzecia), o szerokości 5 komórek każda, zawierają ideogramy średniego stopnia złożoności służące do kompozycji finalnego znaku znajdującego się w sekcji czwartej. W rzeczywistym edytorze Jianyi Bushou sekcje przedzielone są suwakami pozwalający wybrać z obszernego pola potrzebny do kompozycji prymityw. Wynika z tego, że złożoność znaku narasta od lewej strony do prawej. W klasyfikacji Tuckera [1987] narzędzie to należy do systemów kompozycyjnych (ang. composition systems) i może się okazać bardzo przydatne przy zapisie chińskich imion własnych, spotykanych na tyle rzadko, że żadna instytucja nie będzie zainteresowana poszukiwaniem takiego samego znaku w innym obszarze językowym tak, jak to miało miejsce przy unifikacji ideogramów CJK.

Rysunek 26. Edytor kompozycyjny. Opracowanie własne na podstawie materiałów firmy Aurora.


 

 

 

 

 

 

 

 

 

丿

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Kodowanie i repertuary znaków

Bardzo poważnym problemem jest kodowanie znaków narodowych. Jeśli nie odwoływać się do historii budowy Wieży Babel, to przypisanie kodów do konkretnych znaków tradycyjnego pisma zawsze miało posmak narodowy i doskonale odzwierciedlało wolę narodów i grup językowych do samostanowienia. Prym wiedli tu Amerykanie, mający najwięcej sprzętu komputerowego i przez wiele lat ignorujący wartość poznawczą poza-anglojęzycznych tekstów. Proponowane przez nich repertuary znaków takie jak EBCDIC, czy też ASCII w założeniach swoich odsuwały w niebyt istnienie innych repertuarów znaków, orientując się głównie na sfery biznesowe. Europa, przyglądająca się tym wyczynom z oddali, i dalekowschodnia Azja, może z nieco mniejszym dystansem z powodu swego dalszego zaawansowania technologicznego, zaczęły na własną rękę tworzyć standardy narodowe i międzynarodowe, oraz inicjować regionalne prace unifikacyjne (por. Tseng i in. 1987). Regionalność zaczęła być oznaczana anagramami: LGC (Latin + Greek + Cyrillic), CJK (Chinese + Japanese + Korean), JACKPHY (Japanese, Chinese, Korean, Persian [Farsi], Hebrew, Yiddish). To sobiepaństwo w zakresie standardów kodowania stało się wyjątkowo uciążliwym hamulcem w rozwoju globalnej wioski. Te różne standardy na ogół bez przeszkód mogą współistnieć pokojowo obok siebie w jednej bazie danych. Niemal w każdym rekordzie bazy danych może zostać wpisana sekwencja znaków zgodna z innym standardem. Jest nawet osobna norma (ISO 2022) regulująca mechanizmy przełączania się między różnymi systemami kodowania. Jednak z faktu istnienia jakiegoś zapisu nie wynika jeszcze możliwość odczytania. Czytelnik może się przekonać o tym osobiście, wizytując np. serwer testowy Z39.50 Research Library Group i filtrując rekordy zawierające pole 066. Bez posiadania specjalistycznego oprogramowania (np. sprzedawanego przez RLG) nie ma szans na poprawne obejrzenie zapisów w języku oryginału (zazwyczaj są one w polu 880). Jest jeszcze jedno ważne ograniczenie - tym razem dotyczące plików pełnotekstowych. W jednym pliku HTML nie można używać kilku różnych standardów kodowania! Zamiar wydawania wielojęzycznej publikacji w Internecie niemal skazuje wydawcę na stosowanie standardu Unicode.

Przyjrzymy się, jak na tą samą przestrzeń adresową (kody z przedziału 128 - 254) poszczególne grupy narodowościowe nakładały swoje znaki w ramach normy ISO 8859-x:

Tabela 12. Współdzielenie przestrzeni kodów przez różne normy ISO 8859-x

ISO 8859-1

A0

A1

¡

A2

¢

A3

£

A4

¤

A5

¥

A6

¦

A7

§

A8

¨

A9

©

AA

ª

AB

«

AC

¬

AD

­­

AE

®

AF

¯

B0

°

B1

±

B2

²

B3

³

B4

´

B5

µ

B6

B7

·

B8

¸

B9

¹

BA

º

BB

»

BC

¼

BD

½

BE

¾

BF

¿

C0

À

C1

Á

C2

Â

C3

Ã

C4

Ä

C5

Å

C6

Æ

C7

Ç

C8

È

C9

É

CA

Ê

CB

Ë

CC

Ì

CD

Í

CE

Î

CF

Ï

D0

Ð

D1

Ñ

D2

Ò

D3

Ó

D4

Ô

D5

Õ

D6

Ö

D7

×

D8

Ø

D9

Ù

DA

Ú

DB

Û

DC

Ü

DD

Ý

DE

Þ

DF

ß

E0

à

E1

á

E2

â

E3

ã

E4

ä

E5

å

E6

æ

E7

ç

E8

è

E9

é

EA

ê

EB

ë

EC

ì

ED

í

EE

î

EF

ï

F0

ð

F1

ñ

F2

ò

F3

ó

F4

ô

F5

õ

F6

ö

F7

÷

F8

ø

F9

ù

FA

ú

FB

û

FC

ü

FD

ý

FE

þ

FF

ÿ


ISO 8859-2


A0

A1

Ą

A2

˘

A3

Ł

A4

¤

A5

Ľ

A6

Ś

A7

§

A8

¨

A9

Š

AA

Ş

AB

Ť

AC

Ź

AD

­­¯

AE

Ž

AF

Ż

B0

°

B1

ą

B2

ˎ

B3

ł

B4

´

B5

Ĭ

B6

Ś

B7

˅

B8

¸

B9

š

BA

ş

BB

ť

BC

ź

BD

˝

BE

ž

BF

ż

C0

Ŕ

C1

Á

C2

Â

C3

Ă

C4

Ä

C5

Ĺ

C6

Ć

C7

Ç

C8

Č

C9

É

CA

Ę

CB

Ë

CC

Ĕ

CD

Í

CE

Î

CF

Ď

D0

Ð

D1

Ń

D2

Ň

D3

Ó

D4

Ô

D5

Ő

D6

Ö

D7

×

D8

Ř

D9

Ů

DA

Ú

DB

Ű

DC

Ü

DD

Ý

DE

Ţ

DF

ß

E0

ŕ

E1

á

E2

â

E3

ă

E4

ä

E5

ĺ

E6

ć

E7

ç

E8

E9

é

EA

ę

EB

ë

EC

ě

ED

í

EE

î

EF

ɗ

F0

đ

F1

ń

F2

ň

F3

ó

F4

ô

F5

ő

F6

ö

F7

÷

F8

ř

F9

ů

FA

ú

FB

ű

FC

ü

FD

ý

FE

ƫ

FF

'


ISO 8859-5

A0

A1

Ё

A2

Ђ

A3

Ѓ

A4

Є

A5

Ѕ

A6

І

A7

Ї

A8

Ј

A9

Љ

AA

AB

Ћ

AC

Ќ

AD

­

AE

Ў

AF

Џ

B0

А

B1

Б

B2

В

B3

Г

B4

Д

B5

Е

B6

Ж

B7

З

B8

И

B9

Й

BA

К

BB

Л

BC

М

BD

Н

BE

О

BF

П

C0

Р

C1

С

C2

Т

C3

У

C4

Ф

C5

Х

C6

Ц

C7

Ч

C8

Ш

C9

Щ

CA

Ъ

CB

Ы

CC

Ь

CD

Э

CE

Ю

CF

Я

D0

а

D1

б

D2

в

D3

г

D4

д

D5

е

D6

ж

D7

з

D8

и

D9

й

DA

к

DB

л

DC

<

DD

н

DE

о

DF

п

E0

р

E1

с

E2

т

E3

у

E4

ф

E5

х

E6

ц

E7

ч

E8

ш

E9

щ

EA

ъ

EB

ы

EC

ь

ED

э

EE

ю

EF

я

F0

а

F1

ё

F2

ђ

F3

ѓ

F4

є

F5

ѕ

F6

і

F7

ї

F8

ј

F9

љ

FA

њ

FB

ћ

FC

ќ

FD

§

FE

ў

FF

џ


ISO 8859-7

A0

A1

ʽ

A2

ʼ

A3

£

A4

A5

A6

¦

A7

§

A8

¨

A9

©

AA

AB

«

AC

¬

AD

­­-

AE

AF

¯

B0

°

B1

±

B2

²

B3

³

B4

´

B5

΅

B6

Ά

B7

·

B8

Έ

B9

Ή

BA

Ί

BB

»

BC

Ό

BD

½

BE

Ύ

BF

Ώ

C0

ΐ

C1

Α

C2

Β

C3

Γ

C4

Δ

C5

Ε

C6

Ζ

C7

Η

C8

Θ

C9

Ι

CA

Κ

CB

Λ

CC

Μ

CD

Ν

CE

Ξ

CF

Ο

D0

Π

D1

Ρ

D2

D3

Σ

D4

Τ

D5

Υ

D6

Φ

D7

Χ

D8

Ψ

D9

Ω

DA

Ϊ

DB

Ϋ

DC

ά

DD

έ

DE

ή

DF

ί

E0

ΰ

E1

α

E2

β

E3

γ

E4

δ

E5

ε

E6

ζ

E7

η

E8

θ

E9

ι

EA

κ

EB

λ

EC

μ

ED

ν

EE

ξ

EF

ο

F0

π

F1

ρ

F2

ς

F3

σ

F4

τ

F5

υ

F6

φ

F7

χ

F8

ψ

F9

ω

FA

ϊ

FB

ϋ

FC

ό

FD

ύ

FE

ώ

FF


Unicode

Mechanizmy przełączania sekwencji escape są bardzo kłopotliwe w praktycznej implementacji. Przeciętny śmiertelnik nie może na swoim komputerze osobistym obejrzeć takich zasobów cyfrowych. Trudno się dziwić, że przy pierwszej nadarzającej się okazji rozpoczął się odwrót od tej technologii na rzecz jednolitej metody kodowania. Zmiana postawy amerykańskiej nastąpiła, jak się wydaje, w mniejszym stopniu na skutek nacisku światłych sfer akademickich, a bardziej w wyniku spodziewanych beneficji z tytułu obrotu handlowego z ogromnymi i chłonnymi rynkami azjatyckimi. Czynnikiem zwiastującym początek nowej ery w stosunkach gospodarczych było zniknięcie "żelaznej kurtyny". Synchronicznie z latami tego przełomu na początku lat 90-tych rodzą się dwie niezależne inicjatywy ujednolicenia zasad kodowania: pierwszej przewodzi grupa amerykańskich producentów sprzętu i oprogramowania komputerowego, drugiej - International Organization for Standardization (ISO). Pierwsza grupa zawiązała korporację w styczniu 1991 r. pod nazwą Unicode Inc. W tym samym roku obie zainteresowane strony doszły do porozumienia, że dysponowanie jednym, spójnym kodem, obejmującym wszystkie znaki obecnie znane, jest sprawą godną najwyższego poparcia. Wzajemnie zaakceptowane zmiany zostały wprowadzone do Wersji 1.0 standardu Unicode, oraz do wstępnego dokumentu ISO/IEC Draft International Standard DIS 10646.1. Połączenie obydwu nastąpiło w styczniu 1992 roku. Końcowa postać tej wersji standardu została opublikowana w 1993 r. Już w zaraniu egzystencji tego nowego standardu stało się jasne, że kończy się czas funkcjonowania mechanizmów przełączania między różnymi repertuarami znaków, i że należy się jak najszybciej wycofać z używania ISO 2022, oraz standardów o zasięgu lokalnym i regionalnym, takich jak rodzina ISO 8859-x na rzecz Unicode'u [Aliprand 1992].

Konwencje notacyjne Unicode'u

Poniższy wybór został opracowany na podstawie 2 wersji standardu. Wszystkie znaki Unicode mają jednoznaczne nazwy składające się wyłącznie z dużych łacińskich [49] liter od A do Z, odstępui myślnika - minusu. Nazwy alternatywne (aliasy) pisane są kursywą.

W tekście niniejszym pojedyncza wartość unikodu [50]zapisywana jest jako U+nnnn, gdzie nnnn jest czterocyfrową liczbą w zapisie heksadecymalnym. Na przykład U+0041 jest wartością unikodu znaku nazywanego LATIN CAPITAL LETTER A.

Ideogramy wschodnio-azjatyckie nazywane [51] sąCJK UNIFIED IDEOGRAPH-X, gdzie X zastępowany jest heksadecymalną wartością unikodu

Założenia projektowe standardu Unicode

Projekt Unicode'u został oparty na następujących 10 zasadach wypunktowanych w definicji standardu:

  1. Kody znaków standardu mają jednolitą szerokość 16 bitów
  2. Cała 16-bitowa przestrzeń kodowa jest dostępna dla kodowania znaków
  3. Standard określa kodowanie znaków, a nie kształtów. Na przykład A A A A A A , to różne kształty tego samego znaku U+0041 LATIN CAPITAL LETTER A.
  4. Znaki mają dobrze zdefiniowane znaczenie
  5. Standard Unicode służy do kodowania tekstu
  6. Domyślne rozlokowanie znaków tekstu w pamięci jest w porządku logicznym (to jest w takim porządku, w jakim tekst jest pisany na klawiaturze). Gdy tekst komponowany z angielskiego i arabskiego (lub hebrajskiego) ma być przesłany na ekran, wtedy logiczny porządek słów pamiętanych w pamięci zmienia się, aby umożliwić poprawną prezentację tekstu, składającego się z zapisów czytanych z lewej do prawej oraz czytanych z prawej do lewej.
  7. Gdziekolwiek jest to możliwe, standard Unicode scala znaki duplikujące się w różnojęzycznych zapisach. Francuskie igrecque, niemieckie ypsilon, angielskie wye, wszystkie są reprezentowane przez kod tego samego znaku U+0059 LATIN CAPITAL LETTER Y. Podobnie chińskie zi, japońskie ji oraz koreańskie ja, wszystkie są reprezentowane przez kod tego samego znaku, U+5B57 CJK UNIFIED IDEOGRAPH 字 . Autor niniejszej książki pozwala sobie mieć krytyczny stosunek co do pełnego sukcesu standaryzacji zaleconej w tym punkcie. Litera Y została zaimportowana do łaciny z greckiego a dalej do języków nowożytnych, o czym najlepiej świadczy wymowa takiej pojedynczej litery we francuskim, polskim i niemieckim. Jednak ten sam znak jest odmiennie kodowany w obu tych grupach językowych: U+0059 Y LATIN CAPITAL LETTER Y oraz U+03A5 Y GREEK CAPITAL LETTER UPSILON. To samo dotyczy wielu innych znaków (jak np. A w cyrylicy). Z pewnością trudność w standaryzacji bierze się z faktu, że kryterium rozróżnienia znaków nie jest oparte ani na fonetyce ani na kształcie znaku, tylko dość abstrakcyjnie i dowolnie zdefiniowanej semantyce znaku. Ale z drugiej strony bardzo sensownie zgrupowano w osobnym bloku kodu rzymskie liczby i tak np. znak M interpretowany jako łacińska litera ma kod 0041, natomiast interpretowany jako cyfra rzymska "jeden tysiąc" ma kod 216F. W tym samym bloku numerycznym jest osobno wyróżniona alternatywna reprezentacja tego znaku o której wspomniano wcześniej omawiając inskrypcję na grobie Machiavellego. Zapisana tam sekwencja 10 znaków: CIƆIƆXXVII ma swój poprawny unkodowy odpowiednik w postaci 5 znaków ↀⅮⅩⅩⅦ zdecydowanie określających dedykowaną semantykę numeryczną. Uwagi godne jest przy tym to, że "jeden tysiąc" traktowany jest w arytmetyce rzymskiej jako cyfra; podobnie cyfra rzymska jest jednym znakiem, a nie konkatenacją trzech znaków.
  8. Standard Unicode dopuszcza dynamiczną kompozycję form akcentowanych.
  9. Dla prekomponowanych form statycznych standard Unicode zapewnia odwzorowanie na równoważne sekwencje dynamicznie komponowanych znaków.
  10. Zagwarantowano dokładne przekształcanie Unicode na inne powszechnie stosowane standardy i vice versa.

Font unikodowy

Z faktu, że grupa ekspertów była w stanie doprowadzić do publikacji dokumentu, w którym każdemu wydrukowanemu znakowi przypisuje się jednoznacznie kod, nie wynikało jeszcze, że oprogramowanie znajdujących się w użytku komputerów posiada czcionkę unicodową, ale - co ważniejsze - umie poprawnie obsłużyć nowy standard. Bardzo szybko, bo już w 1993 roku Bigelow i Holmes opublikowali detale swego projektu nacelowanego na konstrukcję fontu unikodowego. Zaprojektowany i wykonany przez nich font o nazwie Lucida Sans Unicode True Type Font obejmował 1700 znaków z rodziny języków wywodzących się z łaciny plus greka (nowożytna), plus cyrylica, to znaczy pełne środowisko LGC. Ponadto hebrajski, znaki fonetyczne, ramki oraz znaki matematyczne. Cztery następne lata trzeba było czekać na pojawienie się nowego fontu obejmującego oprócz obszaru językowego LGC również języki dalekowschodnie: chiński, japoński i koreański (CJK). Stało się to za sprawą firmy Bitstream, której font Cyberbit oprócz języków już uwzględnionych przez zbiór Lucida Sans Unicode zawierał dodatkowo: arabski, tajski, chiński, japoński i koreański. Zbiór ten w pierwszej swej wersji (1.1) zawiera m.in. 1 153 sylaby z sylabariusza Hangul oraz 20 902 ideogramów Han. Cyberbit ma znaczne rozmiary. W pierwszej wersji jest to plik o wielkości 13 MB (nieskompresowany), który został zaoferowany darmowo i ciągle jest dostępny na różnych serwerach FTP. Ważnym źródłem darmowej czcionki unicodowej jest też produkt pracy kompilacyjnej naszego rodaka, Romana Czyborry, który pracowicie zebrał z różnych źródeł czcionkę, przekonwertował i udostępnił w Internecie pod nazwą UNIFONT. Pakiet ten zawiera ponad 34 000 znaków i był projektowany głównie z myślą o środowisku unixowym. Na koniec należy wymienić nowy, niezwykle bogaty i nienagannie technicznie dopracowany Arial Unicode MS produkcji Microsoftu, zbiór prawie dwukrotnie większy od Cyberbita wersja 1, obecnie również dostępny za darmo dla celów niekomercyjnych.

Celem porównania obsługi tego nowego standardu przez kilka aktualnie dostępnych na rynku zestawów czcionek wykonaliśmy test na dwóch przedziałach kodów dla trzech rodzajów czcionki. Testowanie zostało przeprowadzone przy pomocy edytora yudit zainstalowanego na platformie Linuxa (Debian) i pracującego pod nadzorem X-Windows. Każdy testowany podzbiór zawierał 112 znaków. Wyniki porównania przedstawia tabela 13 [Czermiński 2001]:

Tabela 13. Liczba brakujących znaków w implementacji fontu (opracowanie autora)

Nazwa czcionki  U+AC60 ...U+AC5F
(Hangul)
U+8600 ... U+866F
(Zunifikowane ideogramy CJK
Unifont 0  18
Bitstream Cyberbit  1.1 83 0
Arial Unicode MS 0 0

Tablica potwierdza słabą obsługę koreańskiego sylabariusza przez Bitstream Cyberbit i pokazuje na wyraźną przewagę microsoftowskiego Ariala Unicode MS.

Formaty transformacyjne UTF

Systemy komputerowe i sprzęt teletransmisyjny są bardzo konserwatywne. Obok najnowocześniejszych maszyn stoją stare i bardzo stare. Szesnastobitowy kod nowego standardu nie jest strawny dla starych komputerów, których architektura oparta jest na 8 bitach, a nawet na 7 bitach (stare systemy operacyjne i stare urządzenia sieciowe). Dla znalezienia jakiegoś polubownego rozwiązania opracowano kilka formatów transformacyjnych, które rozkładają szesnastobitowy kod na mniejsze segmenty. Wśród tych kilku formatów wyróżnimy UTF-8, będący już stałą opcją kodowania przy zapisywaniu plików wielojęzycznych na dysku. Z praktycznego punktu widzenia UTF-8 należy rozumieć jako specyficzną formę Unicode. Zaletą UTF-8 jest to, że podstawowe znaki ASCII (o kodach do 127), które jak na razie królują w Internecie, są pamiętane w postaci 8 bitów, a nie 16 – tak jak by tego wymagał klasyczny unikod.

Dla ilustracji, jak konwertuje się 16-bitowy kod utworzony wg standardu Unicode do UTF-8 ograniczymy się tylko do najprostszego przypadku interesującego Polskę z uwagi na kodowanie polskich liter diakrytycznych. Wszystkie one w formacie UTF-8 mieszczą się na dwóch bajtach. Ogólny, ale uproszczony do 3 wynikowych bajtów, schemat transformacji podaje tabela 14.

Tabela 14. Transformacja 16-bitowego unikodu do wielobajtowego ciągu UTF-8. Opracowanie własne na podstawie Tablicy A-3 w Unicode [1998].

Wartość unikodu Produkt transformacji do UTF-8
Pierwszy bajt Drugi bajt Trzeci bajt
0000 0000 0xxx xxxx 0xxx xxxx

0000 0yyy yyxx xxxx 110y yyyy 10xx xxxx
zzzz yyyy yyxx xxxx 1110 zzzz 10yy yyyy 10xx xxxx

W powyższej tabeli bity zapisane kolorem czerwonym są obligatoryjne. Naruszenie tego obligatorium powoduje automatyczną detekcję nielegalnej struktury bitów. Grupowanie po cztery bity ułatwia przejście do zapisu heksadecymalnego. Bity opisane kolorem niebieskim przy dekompozycji 16-bitowego kodu do UTF-8 stanowią uzupełnienie obligatoryjnego nagłówka pierwszego (dwubajtowa dekompozycja) lub drugiego (trzybajtowa dekompozycja) bajtu. Podobnie jest w przypadkach bitów oznaczonych kolorem czarnym. Odpowiednia tablica dla polskich liter diakrytycznych przedstawia się następująco:

Tabela 15. Dekompozycja 16-bitowych kodów polskich liter diakrytycznych do sekwencji UTF-8. Opracowanie własne.

Litera Kod hex.
(UCS-2)

Kod binarny
Produkt transformacji do UTF-8
Kod hex.
(UTF-8)

Pierwszy bajt
Drugi bajt
Ą
01 04
0000 0001 0000 0100
1100 0100
1000 0100
C4 84
ą
01 05
0000 0001 0000 0101
1100 0100
1000 0101
C4 85
Ć
01 06
0000 0001 0000 0110
1100 0100
1000 0110
C4 86
ć
01 07
0000 0001 0000 0111
1100 0100
1000 0111
C4 87
Ę
01 18
0000 0001 0001 1000
1100 0100
1001 1000
C4 98
ę
01 19
0000 0001 0001 1001
1100 0100
1001 1001
C4 99
Ł
01 41
0000 0001 0100 0001
1100 0101
1000 0001
C5 81
ł
01 42
0000 0001 0100 0010
1100 0101
1000 0010
C5 82
Ń
01 43
0000 0001 0100 0011
1100 0101
1000 0011
C5 83
ń
01 44
0000 0001 0100 0100
1100 0101
1000 0100
C5 84
Ó
00 D3
0000 0000 1101 0011
1100 0011
1001 0011
C3 93
ó
00 F3
0000 0000 1111 0011
1100 0011
1011 0011
C3 B3
Ś
01 5A
0000 0001 0101 1010
1100 0101
1001 1010
C5 9A
ś
01 5B
0000 0001 0101 1011
1100 0101
1001 1011
C5 9B
Ź
01 79
0000 0001 0111 1001
1100 0101
1011 1001
C5 B9
ź
01 7A
0000 0001 0111 1010
1100 0101
1011 1010
C5 BA
Ż
01 7B
0000 0001 0111 1011
1100 0101
1011 1011
C5 BB
ż
01 7C
0000 0001 0111 1100
1100 0101
1011 1100
C5 BC

Tabela 15 zawiera pewną osobliwość: są to diakrytyczne litery „Ó” oraz „ó”, które w odróżnieniu od wszystkich pozostałych polskich liter diakrytycznych (zbiór Latin Extended-A) znajdują się w zbiorze Latin-1 Supplement. Z tego powodu pierwsze dwie ‘starsze’ tetrady 16-bitowego kodu złożone są z samych zer, co mogło by predystynować te litery do kodowania jednobajtowego. Jednak Tabela 14 jako obligatorium wymaga, by do jednobajtowego kodowania najstarszy bit w trzeciej tetradzie był zerem, co w tym przypadku nie ma miejsca. Tak więc w ramach transformacyjnego formatu UTF-8 wszystkie polskie litery diakrytycznie są jednolicie kodowane na dwóch bajtach

Przygotowanie tekstu publikacji internetowej kodowanej w unikodzie

Podstawowym wymaganiem jest tu obsługa standardu Unicode przez system operacyjny. Komputer osobisty musi mieć zainstalowany 32-bitowy system operacyjny (Windows 95, Windows 98, Windows NT, Windows 2000, Windows XP, Linux).  Na tym systemie musi być zainstalowany edytor obsługujący Unicode. W systemie MS Windows minimalnym pakietem musi być Word 97. Podkreślić jednak trzeba, że na niższej wersji systemu można instalować wyższe wersje oprogramowania aplikacyjnego. Tak np.  znaczną część prac autor ninieszej książki przygotowywał w Wordzie 2000 zainstalowanym na platformie Windows 98. Dobrym edytorem znakowym dla Windows jest też UniRed (bezpłatny), SC UniPad, a dla Linuxa yudit. Te edytory pozwalają na sprawną redakcję kodu źródłowego. Uznanie budzi zwłaszcza yudit, który ma bardzo dobry, wielojęzyczny moduł wprowadzania tekstu wraz z dobrze opisaną dokumentacją, oraz możliwość korzystania z bardzo bogatych fontów unikodowych w formacie TTF w X-Windows.

Największą dogodność pracy dla osoby nie pragnącej uczyć się formatowania w standardzie HTML przedstawia sobą MS Word, który bardzo dobrze obsługuje Unicode. Dokument napisany w tym edytorze można łatwo wyeksportować do formatu HTML. Bardzo dobry jest wielojęzyczny moduł wprowadzania tekstu – IME.  Autor jednak gorąco poleca tworzenie stron internetowych wprost w edytorze Mozilli począwszy od wersji 6.

Wklejanie tekstów przygotowanych pod innym standardem kodowania do publikacji już zakodowanej jako unikodowa na ogół nie da się bezpośrednio zrealizować. Tak np. teksty japońskie przygotowane pod IME (kodowane w JIS, ang. Japan Industry Standard) należy wstawić do pustego dokumentu w Wordzie, zmienić w przekopiowanym dokumencie czcionkę na unikodową i wyeksportować do formatu HTML. Dopiero taki plik można wkleić do innej publikacji zakodowanej w UTF-8. Wśród uwag praktycznych należy też wspomnieć, że przenoszenie bloków tekstu metodą kopiuj i wklej (Ctrl C – Ctrl V) w środowisku heterogenicznym – np. pomiedzy Netscape i MS Wordem na ogół powoduje utratę atrybutów tekstu (wyróżników tekstu i formatowania).

Mimo piętrzących się, chwilowo dokuczliwych, problemów - już teraz posiadamy komplet narzędzi edycyjnych pozwalających przygotować i wystawić na widok publiczny wielojęzyczne systemy informacyjne. Jako przykład może służyć prototyp pięciojęzycznego (angielski, japoński, litewski, polski, rosyjski) systemu informacyjnego projektu ICRAP ( http://www.icrap.org).

Rysunek 27. Wielojęzyczny dokument internetowy w unikodzie. Projekt autora.

Bronisław Piotr Piłsudski
Бронислав Осипович Пилсудский
ブロニスワフ . ピョ トル . ピウスツキ

portret Bronisława Piłsudskiego

polska wersja english version russian version japanese version lithuanian version

Życiorys

Opracowanie dorobku

Konferencje

Instytucje współpracujące
i osoby kontaktowe

Bibiliografia

Kultura Ajnów

Zespół Redakcyjny

Lokalizacja dokumentów

Posłuchaj starej pieśni ajnuskiej nagranej sto lat temu!
(plik audio MP3, 400 KB)
Ainu song
Listen to the old Ainu song recorded one hundred years ago!
(MP3 audio file, 400 KB)

百 年前の歌をお聴き下さい。



Doświadczenie zebrane przez autora w trakcie przygotowywania tego prototypu wskazuje na znaczną przewagę trudności organizacyjnych nad technicznymi. Jest to jednak doświadczenie ze wszech miar pozytywne. W projekcie bierze udział znaczna grupa osób o przekroju wiekowym od 20 do ponad 60 lat, zamieszkująca obszar geograficzny od Londynu po Tokio. Na potrzeby projektu wpłynęły i ciągle wpływają liczne deklaracje zgody na internetową re-edycję opublikowanych wcześniej materiałów zarówno ze strony wydawców, jak i autorów. Znakomicie wprost układa się współpraca z Instytutem Dziedzictwa Bronisława Piłsudskiego w Jużno-Sachalińsku [53], którego Dyrektor,В.М.Латышев, w pełni docenia siłę publikacji w Internecie.

Edytorstwo internetowe

Na kulturę niewiele się obecnie łoży z pieniędzy budżetowych i Internet jest dla niej prawdziwą łodzią ratunkową na wzburzonych falach gospodarki rynkowej. Odnotujmy kilka ważnych przewag publikacji internetowych nad tradycyjnymi:

Edytorstwo internetowe należy ze wszech miar wspierać. Biblioteki w tej materii mają wyjątkowo dobry punkt startu: dysponują klasycznymi zasobami: książkami, czasopismami, wydawnictwami kartograficznymi itp. Tradycją stały się wystawy organizowane w bibliotekach okresowo, lub okolicznościowo. Nie ma wątpliwości, że do tej chwili nie ujawniło się w większej skali w bibliotekach wystawiennictwo internetowe. Pod tym względem wart rozpowszechnienia jest przykład Biblioteki Królewskiej w Hadze, gdzie na korytarzach zorganizowano stoły ze zgrabnie wbudowanymi komputerami o płaszczyźnie ekranu pokrywającej się z płaszczyzną stołu. Na tych stanowiskach odwiedzający bibliotekę mogą oglądać cyfrowe wersje zbiorów specjalnych biblioteki. Nietrudno sobie wyobrazić, o ile bardziej pożyteczny dla czytelnika byłby kontakt z pełną, cyfrową kopią starodruku czy rękopisu, niż pełne nostalgii oglądanie szacownych opraw, lub dwóch stron rozłożonych dzieł. Aby dać Czytelnikowi przedsmak, co przy dobrych chęciach biblioteki można w tej materii zrobić, proponujemy obejrzenie cyfrowej repliki Grammaire Egyptienne Jean François Champolliona, udostępnianej w Internecie przez University of Illinois w Chicago pod adresem:

http://efts.lib.uchicago.edu/cgi-bin/eos/eos_title.pl?callnum=PJ1135.c45

Uwagi godne jest to, że każdą stronę można oglądać w dwóch trybach pracy: przy normalnej jakości obrazu i wysokiej jakości obrazu. Dobre pytanie: dlaczego to przepiękne dzieło oferują nam w cyfrowej postaci Amerykanie a nie Francuzi, pozostanie bez odpowiedzi. Pytanie, jak winny się zachować polskie biblioteki wobec takiego wyzwania pozostawiamy Czytelnikowi.
Transliteracja i transkrypcja. Romanizacja, cyrylizacja, germanizacja?
Transliteracja to sposób przepisywania tekstów zapisanych literami jednego alfabetu na teksty zapisane literami innego alfabetu zgodnie z zasadą: litera za literę; bez uwzględniania właściwości wymowy.
Termin transkrypcja jest używany w dwóch znaczeniach:

  1. Zapisywanie dźwięków mowy jakiegoś języka za pomocą liter oznaczających te same dźwięki w języku, na który dokonuje się transkrypcji (transkrypcja fonetyczna)
  2. Zapisywanie dźwiękowej postaci języka lub dialektu za pomocą liter i innych znaków w konsekwentny sposób symbolizujących poszczególne głoski (transkrypcja alofoniczna) lub fonemy (transkrypcja fonematyczna)


Transkrypcja i transliteracja są zabiegami wychodzącymi na przeciw niemocy twórcy transkryptu lub jego adresata w zakresie czynnego posłużenia się zapisem oryginału w celach identyfikacyjnych lub komunikacyjnych. W zasadzie chyba panuje powszechna zgoda wszystkich wypowiadających się specjalistów co do tego, że zarówno transliteracja jak i transkrypcja są niedokładne i należy dołożyć wszelkich starań celem zapewnienia możliwości współbieżnego zapisu w języku oryginału. Bardzo dobre studium tego tematu przedstawiła Aissing [1992]. W bibliotekach znanym na świecie zabiegiem jest romanizacja (termin używany powszechnie na Zachodzie). Pod nazwą tą Miller [1982] definiuje metodę konwersji słowa zapisanego alfabetem nie wywodzącym się z łaciny (ang. non-roman) w słowo, które brzmi (ang. sounds) jak oryginał, ale jest zapisane literami alfabetu łacińskiego (patrz przypis 38\ na dole strony 90); dodając, że można tego dokonać na drodze transliteracji, bądź transkrypcji fonetycznej. Niestety, romanizacja nie jest zabiegiem dobrze określonym: różne kraje stosują różne schematy. Spośród podanych przez niego pięciu popularnych form wyszukiwania nazwiska Чайковский (10 liter) jedna ma 10 liter, dwie 11 liter i dwie 12 liter - a zatem przeważa schemat transkrypcyjny nad transliteracją. Fakt ten prowadzi do bardzo ograniczonej skuteczności wyszukiwania obcojęzycznego w zagranicznych serwerach, skuteczność ta bowiem zależy od znajomości lokalnego schematu romanizacji przez zdalnego użytkownika i, ewentualnie, od szczęśliwego zbiegu okoliczności istnienia odpowiednio bogatej listy haseł wzorcowych na lokalnym serwerze (o ile w ogóle lokalny serwer ma kartotekę haseł wzorcowych). Zdalny użytkownik po prosu na ogół nie ma pojęcia, czy lokalnie stosuje się transkrypcję czy transliterację. Borgman [1997] określa taką transformację danych jako stratną (ang. lossy), odwołując się do jej podobieństwa ze stratną kompresją obrazu. Zabawne, że takie problemy występują też na gruncie lokalnym. W cytowanej wyżej pracy Aissing podaje dla ilustracji swych wywodów, że na 50 studentów języka rosyjskiego indagowanych na okoliczność sposobu transkrypcji (autorka niepoprawnie posługuje się tu terminem 'transliteracja') litery Я aż 80% wybrało ya, podczas, gdy tylko 7% procent respondentów podało zgodną z praktyką Biblioteki Kongresu wersję ia (pozostałe propozycje nie zostały przytoczone). A zatem stosowany przez bibliotekę schemat nie spotyka się z oczekiwaniami publicznymi! Dla kogo zatem biblioteki wprowadzają swoje przepisy? Niech odpowiedzią na to pytanie będzie zacytowana w pracy Aissing wypowiedź wyjęta z dawno opublikowanego artykułu Sommer [1934]: Dla czyich korzyści robi się transliterację? Czy jest ona przede wszystkim dla czytelników, czy personelu (ang. staff)? Po rozważeniu może być tylko jedna odpowiedź: dla personelu, lub, bardziej ogólnie, dla tych, którzy nie są w stanie czytać zapisu oryginalnego. ... A jeśli chodzi o czytelników zagranicznych, to oczywiście wolą oni zapis oryginalny, nie czerpiąc praktycznie żadnych korzyści z transliteracji. Termin romanizacja ma na tyle swoisty posmak, że Polakowi nasuwają się niemiłe skojarzenia z germanizacją. Tucker [1987] używa podobnego określenia: cyrylizacja w odniesieniu do języków mniejszości etnicznych, jako formy presji o naturze politycznej, religijnej i kulturowej w odniesieniu do języków tureckich na początku tego wieku (zapewne chodziło Tuckerowi o Rosję, ZSRR oraz Bułgarię). Ale oczywiście cyrylizacja jest normalną procedurą stosowaną w np. bibliotekach rosyjskich.

Przykładem niefortunnie zaprojektowanej i wdrożonej transkrypcji był wspomniany wcześniej system transkrypcji języka chińskiego według schematu Wade-Giles. Szczegóły kosztownej migracji do schematu pinyin można znaleźć w zasobach sieciowych Biblioteki Kongresu pod adresem: http://lcweb.loc.gov/catdir/pinyin

Wydaje się, że w czasach obecnych, gdy znikały żelazne kurtyny i kruszone były betonowe mury, nadszedł czas na pełne respektowanie piękna kulturowego innych narodów i zaniechania niesławnych praktyk przeszłości. Wyzwaniem czasu nie jest całkowite zarzucenie transliteracji i transkrypcji, lecz wprowadzenie jednolitych zasad dodatkowego posługiwania się językiem oryginału w systemach informacyjnych i jak najszybsze wdrożenie ich w codzienną praktykę.

Wielojęzyczność w opisie bibliograficznym

Dawniej właściciel kolekcji książek, a później jego bibliotekarz nie stronili od opisu bibliograficznego rozszerzonego o dane zapisane w języku oryginału. Na wstępie przyjrzymy się kilku wybranym przykładom takich opisów z polskich bibliotek.

Rysunek 28. Opis w językach: polskim i hebrajskim. Biblia hebrajska. Wydanie z 1928 roku. Biblioteka Jagiellońska.



184306
III
Tel-Aviv - Warszawa
1928
"Central"
Druk. Sikora i Mylner
I
(Biblia)
כְּתוּבִים
עִס בֵּאוּר חָדָשׁ, מַפות וְצִיּוּרים
מאת שׁ. ל. גרדון

(Kethūbhim)
Hagiographa
z nowym komentarzem ...
przez Sz.L.Gordona

I. סֵפֶר תְהִלִּים
מְבאָר   עַל־יְדֵי  שׁ. ל. גרדון

(Sēfer thillim.) [Księga Psalmów]
str. CXII str. 320.                                                  -1928
ob.

1928.


lekt

vol. 1



Rysunek 29. Opis w językach: polskim, greckim i łacińskim: Iliada po grecku. Wydanie z 1803 roku. Biblioteka Jagiellońska.


Numerus
currens
Litera
H.
Auctores Gracci
807
Ενετιησιν
Νικολάου Γλυκύ
1803
Forma Armarium Forulus Series

Homeros



dar Ł. Bromirskiego
1872
Ομήρου Ιλιας σύν τοίς σχολίοις ψευδεπιγραφοις Διδύμου. Δαπάνη άδρᾶ̩ τν͂ς τῶν Ζωσιμάδων γενναίας αΰταδελφότητος.

Tomów dwa.
8



Rysunek 30. Opis w językach: polskim, greckim i francuskim: Biuletyn statystyczny Tytuł wpisano po grecku. Alternatywny tytuł czasopisma podano po francusku. Wpisano roczniki od 1929 do 1939. Centralna Biblioteka Statystyczna.

GŁÓWNY URZĄD STATYSTYCZNY Nr. inw. ............................. Nr. bib. 17099
ΜΗΝΙΑΙΟΝ ΣΤΑΤΙΣΤΙΚΟΝ ΔΕΛΤΙΟΝ ΤΗΣ ΓΕΝΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΥΠΗΡΕΣΙΑΣ ΤΗΣ ΕΛΛΑΔΟΣ.
Bulletin mensuel de statistique publié par la Statistique Générale de la Grèce
Wychodzi od 1929 Przest. wych.




Znak według klasyfikacji-
dziesiętnej
31 (495) (95)
Miejsce wyd. Athènes
Wydawca

Rok.wyd. Rok.wyd. Rok.wyd.
1929
1934
1939









1930
1935










1931
1936










1932
1937










1933
1938












Rysunek 31. Opis w językach: polskim i rosyjskim. Spółdzielcze spichlerze zbożowe. Tytuł i instytucja sprawcza wpisane w języku rosyjskim. Miejsce wydania podane w transliteracji. Centralna Biblioteka Statystyczna. (opis dla niewidomych)

URZĄD GŁÓWNY STATYSTYCZNY
[Magaziny] - [Магазины] No 2799 2049
[Obš estvennye]
Общественные сельские хлѣбозапасные <агазины
въ 46 губерніах Европейской Россіи ихъ в<ѣсти><ость и стои<ость. Составлено Центральны<ъ Статистически<ъ Ко<итето<ъ по данны<ъ Хозяйственнаго Департа<ента М.В.Д. къ 1892 г.

<Вре<енникъ Центральнаго Статистическаго Ко<итета Министерства Внутреннихъ Дѣлъ N 31.>
Nr-inwentarza 316/1918 Format
Miejsce wydania
S.-Pietierburg
Wydawca
Cientralny Statisticzeskij Komitet
Ministierstwa Wnutriennych Dieł
Drukarnia
W.Biezobrazow i Komp.
Znak  wedł. klas.dzies. [ 31:[72:633] (41)
Tom
Rok wyd.
Stron
Tabl.
Tom
Rok wyd.
Stron
Tabl.
Tom
Rok wyd.
Stron
Tabl.
1
1894
XVIII+177
-

































Z przytoczonych przykładów widać, że dawniej polski bibliotekarz uważał za swój honor wiernie zapisać tytuł wydawnictwa w języku oryginału, bez żadnej transliteracji, czy transkrypcji. Podobnie postępowano z nazwiskami autorów i niektórymi innymi detalami opisu bibliograficznego. Oczywiście, pozostała część opisu bibliograficznego wykonywana była w lokalnym języku narodowym. Powyższe przykłady nie są u nas czymś wyjątkowym. Nawet sprawdzając poprzez sieć dotychczasowe zasoby znajdującego się w trakcie retrokonwersji alfabetycznego katalogu Biblioteki Jagiellońskiej, a dotyczące np. Arystotelesa, można znaleźć znacznie więcej takich przykładów. To nie były pojedyncze przypadki – to była reguła. Nie inaczej było za granicą. Maja Žumer [1999] charakteryzując liczący 95 tys. kart i obejmujący okres 1774 – 1947 narodowy katalog Słowenii, wśród języków katalogowania wymienia łaciński, niemiecki, grecki, hebrajski, - obecne są też pozycje katalogowane cyrylicą.

Najbardziej restryktywne przepisy katalogowania ma pod tym względem Rosja. Odziedziczona po czasach ZSRR norma GOST 7.1-84, p.1.6 wyraźnie nakazuje „Opis bibliograficzny tworzony jest w języku tekstu dokumentu” [Pastukhova 2000]. Tu nie ma opcji – tu jest nakaz. Widać to najlepiej na załączonych kopiach oryginalnych kart katalogowych udostępnionych przez Bibliotekę Rosyjskiej Akademii Nauk w St. Petersburgu, a obejmujących wydawnictwa współczesne.

Rysunek 32. Opis w językach: rosyjskim i arabskim. Tytuł (Zasady tworzenia indeksu i klasyfikacji) w języku arabskim, w transkrypcji na cyrylicę i w tłumaczeniu rosyjskim. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg. Karta prosta bez podziału na rubryki.



Ар 1982 к
8

مبادئ لفهرسة والتصنيف. – الموصل:
دار الكتب للطباعة والنشر،      
١٩-

Мабади ли-фихриса ва-т-тас-ниф.
– Мосул, 1980
Принципы составления указателяи и классификаци.
Т.2. 1980 220с.


ОЛСАА 339-82 5602

W lewej części karty umieszczony jest symbol oznaczający język: „Ар” (arabski). Po tytule w języku oryginału umieszczono transkrypcję tytułu w języku rosyjskim. Skrót: ОЛСАА oznacza Dział literatury krajów Afryki i Azji.

Rysunek 33. Opis w językach: rosyjskim i perskim. Autor (K. Marks) i tytuł (Praca najemna i kapitał) w języku perskim i w tłumaczeniu na rosyjski bez transkrypcji. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg.




МЭ перс-47
3- 1

ماركص.
كارمزدورىوسرمايه.– مسكو:بنكاه

نشرياتبروكرس ، ١٩٨١. 48 – ص. ؛ 20 سم.


Маркс, Карл.

Нае<ный труд и капитал. – М.:

Прогресс, 1981.

ОЛСАА 386-83
72764




Rysunek 34. Opis w językach: rosyjskim i japońskim. Katalog dokumentów o byłym Premierze Japonii Katsura Taro. Tytuł w języku japońskim, transkrypcji i tłumaczeniu. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg.



З В-спр.
Яп. 246


桂太郎関係文書目録   「東京 、

国立国会図書館、 1965 (憲政資料目録第三)


Кейтаро канкей бунсё <окуроку, [Токио],

Кокурицу коккай тосёкан, 1965 (Кэнсэй сирё <окуроку № 3).

[Каталог доку<ентов из собрания Кэйтаро]
<РПМ Б-ки Ак. наук СССР

ОЛСАА 211-68 65300


Od góry wpisano ręcznie trzy wiersze po japońsku a dalej wpisano propozycję ich rosyjskiej transkrypcji jak następuje: Кейтаро канкей бунсё <окуроку, 1965 [Токио], Кокурицу коккай тосёкан, (Кэнсэй сирё <окуроку № 3). Po transkrypcji podano tłumaczenie tytułu na rosyjski: [Каталог доку<ентов из собраниа Кэйтаро]. Na dole karty podana jest nazwa jednostki sporządzającej opis: "РПМ Б-ки Ак. наук СССР” liczba 65300 oraz napis „ОЛСАА 211-68”. Transkrypcja rosyjska na tej karcie katalogowej jest miejscami błędna. Poprawna transkrypcja wg. schematu Hepburna (latynizacja) winna brzmieć: Katsura tarō kankei bunsho mokuroku [tōkyō] kokuritsu kokkai toshokan, 1965 (kensei shiryō mokuroku daisan). Tłumaczenie: Wykaz dokumentów o Katsura Taro" [Tokyo], Narodowa Biblioteka Diety, 1965 (Lista dokumentów o Rządzie Konstytucyjnym . Tom. 3)

Rysunek 35. Opis w językach: rosyjskim i chińskim. Tytuł (Japońsko – chińskie terminy meteorologiczne) w języku chińskim, transkrypcji i tłumaczeniu na rosyjski. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg. Karta prosta bez podziału na rubryki.



З В-спр.
Кит 570



日 漢気象学詞匯:日中気
象学用語集 「北京 : 科学
出版社、
1981. - У,288 с;
19 с<.

Жи хань цисянсюе цыхуй: Жи чжун
цисянсюе юнъюй цзи. - 「Пекин , 1981.
Японско-китайские <етеорологические тер<ины,

РПМ Б-ки Ак. наук СССР
ОЛСАА 670-82
5026


A zatem Rosjanie na bieżąco katalogują tradycyjnie na kartach, posługując się równolegle zapisem w języku oryginału i transkrypcją, lub transliteracją (cyrylizacja).

W miarę tak zwanego rozwoju, zamożnych i wykształconych właścicieli bibliotek zaczęli zastępować wynajęci ludzie - bibliotekarze i stopień znajomości języków obcych u osób opracowujących opis zasobów gwałtownie zaczął się pogarszać. Postępująca deprecjacja zawodu doprowadziła w efekcie do wprowadzenia takich przepisów katalogowania, które pozwoliły by uniknąć jakiegokolwiek strapienia z tytułu kontaktu z jakimś egzotycznym przypadkiem. Sposoby tłumaczenia się bibliotekarzy z tego powodu są niekiedy osobliwe. Padziński [2000:20] pisze co następuje: „Polskie Normy” i w ślad za nimi „Przepisy katalogowania książek” dopuszczają podawanie elementów zapisanych w alfabetach niełacińskich w formie oryginalnej. Jednakże w praktyce jest to rzadko stosowane, głównie z powodów technicznych. Uwaga ta dotyczy zarówno katalogów kartkowych, jak i komputerowych. W przypadku zautomatyzowanych katalogów bibliotecznych duże nadzieje na zmianę tej sytuacji wiąże się z pracami nad wdrożeniem ISO 10646 [147] i UNICODE [55]. Jednakże droga od projektów i eksperymentów do rzeczywistego zastosowania jest daleka. Polscy bibliotekarze dawno przestali stosować katalogowanie w języku oryginału, na długo przed wprowadzeniem komputerów osobistych i katalogów on-line. Żadne więc względy techniczne nie są w stanie usprawiedliwić takiego postępowania. Po dzień dzisiejszy robią to Rosjanie – więc mogli by to robić również Polacy. Jeśli współpracujący z biblioteką orientalista może wpisać na karcie katalogowej fragment opisu posługując się transkrypcją, to może to zrobić również w języku oryginału. Chyba, że kierująca się względami „politycznymi” biblioteka nie chce mu na to pozwolić.

Dla uświadomienia bibliotekarzom jak niewiele potrzeba, by katalogować w języku oryginału dodamy tu, że autor niniejszej książki nie jest orientalistą, nie zna hebrajskiego, arabskiego, perskiego, japońskiego ani chińskiego i mieszka w mieście, gdzie nie ma na uniwersytecie ani jednego zakładu filologii orientalnej. Tym niemniej nie ruszając się z Gdańska był w stanie zorganizować w krótkim czasie przygotowanie w unikodzie kilku dość egzotycznych opisów w języku oryginału, będących wiernymi odpowiednikami oryginalnych kart katalogowych i nie płacąc za to nawet przysłowiowej złotówki. Prawdziwości opinii o możliwości sporządzenia opisów bibliograficznych w unikodzie nie byłby w stanie Czytelnik sprawdzić korzystając z drukowanej wersji tej książki, natomiast może to sprawdzić korzystając z niniejszej wersji online. Wszystkie powyższe oryginalne skrypty można przenieść do innego dokumentu oznaczając je blokiem a następnie stosując mechanizm „kopiuj-wklej” , co ambitny bibliotekarz może niniejszym potraktować jako zlecone „zadanie domowe”.

Droga, jaką trzeba przebyć od projektów do katalogowania w języku oryginału w ramach współczesnych systemów komputerowych nie musi być długa. Z pewnością można już na nią wchodzić, bo właściwie wszystko już jest do dyspozycji. Ci którzy chcą - po prostu już katalogują. Szanujące się biblioteki świata starają się od długiego czasu honorować oryginalny język opisu pozycji wydawniczej - już w nowej, cyfrowej technologii - nie ograniczając się do transliteracji, czy też transkrypcji. Aliprand [1992] podaje kilka dat: "...niełacińskie dane urzeczywistniły się (w formacie USMARC - przyp. JBC) z implementacją zapisów wschodnioazjatyckich w RLIN w roku 1983. Kolejnymi amerykańskimi implementacjami języków niełacińskich były: implementacja zapisów wschodnioazjatyckich w OCLC (1986), zaś w RLIN cyrylicy (1986), hebrajskiego (1988) i arabskiego (1991)". Znaczne też już są skatalogowane zasoby, choć z pewnie wiele gorzkich słów można by wypowiedzieć o ich jakości i poziomie unifikacji. Zhang i Zeng [1998] podają: Na przykład pliki bibliograficzne RLIN i OCLC zawierają ponad 30 milionów tytułów w ponad 360 językach. Ponad 1,5 miliona rekordów w bazie RLIN zawiera zapisy dalekowschodnie, cyrylicę, hebrajski i arabski. W katalogu centralnym OCLC OLUC (Online Library Union Catalog) ponad 14.000 pozycji ma rekordy w 45 językach.

Przykład katalogowania wydawnictw niełacińskich (pełen opis w USMARCu) można znaleźć w publikacji Aliprand [1992]. Dzięki uprzejmości firmy Aurora podajemy ładny, acz niekompletny (brak Etykiety Rekordu), przykład katalogowania wydanej w Korei książki pt. : "Główne zagadnienia koreańskiej ekonomii w roku 1993 i zagadnienia pokrewne".

Rysunek 36. Alternatywny opis bibliograficzny w języku oryginału. MARC 21. Opracowanie własne na podstawie materiału firmy Aurora.


245

0

0

$6880-01$a1993- nyon Hanguk kyongje ui chuyo hyonan gwa chongch'æk tæung
:$bKDI yongu sokpo moumjip.

246

3


$aCh'on-kubæk-kusipsamnyon Hanguk kyongje ui chuyo hyonan gwa chongch'æk tæung

260



$6880-02$aSeoul T'ukpyolsi:$bHanguk Kæbal Yonguwon,$c1994

300



$a315 p.:$bill.;$c26 cm.

500



$a"1994.2."

651


0

$aKorea (South)$xEconomic policy$y1960-

650


0

$aPlanning$zKorea (South)

651


0

$aKorea (North)$xEconomic conditions

710

2


$6880-03$aHanguk Kæbal Yonguwon.

880

0

0

$6245-01/$1$a1993년 한국 경제의 주요 현안과 정책 대응:$b연구속보 모음집

880



$6260-02/$1$a서울특별:$b한국개발연구원

880

2


$6710-03/$1$a한국개발연구원


Tradycyjnie możliwości operowania zapisami różnojęzycznymi w środowisku komputerowym ograniczał repertuar znaków objęty jednolitym kodowaniem. Jeśli dwa języki należały do dwóch różnych repertuarów znaków (a więc np. przypisujących ten sam kod do różnych znaków), to aplikacja mogła odmówić usługi. Tak np. wczesne wersje węgierskiego oprogramowania do rozpoznawania znaków Recognita na pozwalały na rozpoznawanie tekstu zawierającego mieszaninę słów polskich i szwedzkich. Te dwa języki nie mogły obok siebie być rozpoznawane. Zagadnienia te były omówione wyżej przy normach ISO 8859-x. Jednak w wielu przypadkach istniała możliwość posłużenia się mechanizmem przełączania repertuarów znaków zdefiniowanym przez normę ISO 2022. W szczególności dotyczyło to bibliograficznych baz danych. USMARC zarezerwował pole zmiennej długości 066 na umieszczenie informacji o stosowanych repertuarach znaków. Powtarzalne pole 880 przeznaczone jest na przechowywanie alternatywnej reprezentacji graficznej opisu podanego w innym polu. Niestety, mechanizm przełączania repertuarów znaków z konieczności musi posługiwać się kodami kontrolnymi. Przeto bez specjalnego oprogramowania taka informacja bibliograficzna jest bardziej zniechęcająca niż zachęcająca. Zhang i Zeng [1998] piszą wprost: W podsumowaniu, bez Unicode'u użytkownicy mogą potrzebować różnego oprogramowania i różnych terminali aby wyświetlić czy wprowadzić dane w różnych językach, szczególnie wtedy gdy ma się do czynienia z więcej niż kilkoma zapisami, zwłaszcza zapisami niełacińskimi. To może być do przyjęcia dla pewnych aplikacji komputerowych, ale z pewnością nie jest do zaakceptowania dla czytelników biblioteki. Najbardziej właściwym rozwiązaniem jest tu przejście na kodowanie w ISO 10646 (Unicode). Aliprand [1999] gorąco zachęca narodowych redaktorów przepisów katalogowania do rewizji aktualnie ich używanych wersji pod kątem widzenia dostosowania się do możliwości nowych technologii. Dobrze jest oczywiście mieć na względzie fakt, że MARBI już szczegółowo przedyskutowało wszystkie "za" i "przeciw" migracji do Unicode w ramach USMARCa ( http://lcweb.loc.gov./marc/marbi/1998/98-18.html).Szczegóły ustaleń podane są w cytowanym dokumencie MARBI. Z ustaleń komisji wiemy, że uzgodniono następujące zasady zmian:


W wyniku podjętych decyzji w formacie MARC 21 schemat kodowania znaków został przeniesiony do Etykiety Rekordu pozycja 09 ( http://www.loc.gov/marc/bibliographic/ecbdldrd.html).Z punktu widzenia zarówno bibliotekarza, jak i użytkownika należy jeszcze zreferować stan propozycji w zakresie szeregowania wielobajtowych łańcuchów kodowanych w UTF-8. Wkrótce po opublikowaniu specyfikacji UNICODE 3, Davies i Whistler [2001] opublikowali algorytm porównywania łańcuchów unikodowych. Algorytm ten rozwiązuje wielką liczbę problemów w skali wszystkich języków. W szczególności zapewnia porządkowanie alfabetyczne, diakrytyki (wszystkich poziomów) oraz dużych i małych liter. Ma on jednak pewne cechy, które będą wymagały rozwiązania. W szczególności:

  1. nie gwarantuje odwracalności do stanu sprzed sortowania
  2. nie zapewnia formatowania numerycznego
  3. nie specyfikuje żadnego API
  4. nie dostarcza prostych mechanizmów do obsługi stop-listy

O tym, że to wszystko jest do zrobienia już dziś, świadczy unikodowa bibliograficzna baza danych, oraz unikodowe konwersje oferowane przez Research Library Group swoim członkom (http://www.rlg.org/r-focus/i47eureka.html). Dobrze, że do oglądania tej bazy nie jest już potrzebne specjalne oprogramowanie, by ujrzeć ją w całej urodzie malowniczego Orientu. Po prostu wystarczy dobra przeglądarka WWW.

Jednak posługiwanie się standardem Unicode do reprezentacji alternatywnego opisu w języku oryginału – choć ze wszech miar pożądane – często nie jest konieczne. Świadczą o tym katalogi zbiorów orientalnych udostępnione sieciowo przez biblioteki użytkujące system Allegro. W charakterze przykładów wymienimy tu Bodleian Library z Oxfordu ( http://www.bodley.ox.ac.uk/dept/oriental/allegro.htm)oraz Staatsbibliothek zu Berlin – Preußischer Kulturbesitz ( http://ead.sbb.spk-berlin.de:8080/cat.html).Mimo operowania narodowymi repertuarami znaków dalekowschodnich (kodowanie Big-5 dla chińskiego oraz EUC dla japońskiego) ideogramy są znakomicie dekodowane przez współczesne przeglądarki internetowe, a co ważne – dopuszczają wykorzystanie 7-bitowych kodów ASCII cennie uzupełniających opis bibliograficzny.

Z powyższego widać, że funkcjonująca w bibliotekach wielojęzyczność zasobów podzieliła społeczność bibliotekarzy na dwie grupy, stosujące odmienne podejścia w opisie bibliograficznym. W przebadanych rozwiązaniach zarysowały się kolejne podpodziały wyznaczone przez zaimplementowane standardy (japoński: EUC, JIS, Shift-JIS, Unicode; polski: ISO 8859-2, CP 1250, Mazovia, Unicode; rosyjski: KOI-8, ISO-8859-5, CP1251, Unicode).

Próby zaagitowania środowiska bibliotekarzy do katalogowania w języku oryginału często sprowadzają się do werbalizacji problemu, bez praktycznej demonstracji własnych lub choćby cudzych dokonań. Ostatnio Chachra [2001] w swoim wystąpieniu na temat globalizacji i standardu Unicode, na 5 ilustracji (zrzuty ekranu z klienta VTLS Virtua oraz przeglądarki internetowej korzystającej z Virtua Web Gateway) nie podał ani jednego przykładu demonstrującego współegzystencję zapisów orientalnych i europejskich w jednym rekordzie bibliograficznym, czy dokumencie pełnotekstowej bazy dostępnej przez Z39.50. Można mieć nadzieję, że prezentowana w niniejszej książce egzemplifikacja aktualnych możliwości stosowania unikodu w systemach cyfrowych zachęci i ośmieli polskich bibliotekarzy do odważniejszego i czynnego wdrożenia tego standardu.

Metadane

Powyżej zostało pokazane, że elektroniczny dokument cyfrowy ma dwie podstawowe postaci: źródłową i prezentacyjną. Czytelnik spostrzegł, że w dokumencie żródłowym umieszczona jest znaczna ilość informacji, niewidocznej w postaci prezentacyjnej dokumentu. W głównej mierze jest to informacja związana z formatowaniem dokumentu. Jednak fakt podziału zawartej w dokumencie informacji na ujawnianą i ukrywaną można wykorzystać dla dodatkowego opisu dokumentu. Tego rodzaju opis to w uproszczeniu mówiąc, dane o danych. Posługując się terminem wprowadzonym przez Tarskiego [1936] będziemy mówili o wprowadzaniu do dokumentu metadanych (ang. metadata). Nie ma jakiejś specjalnej potrzeby szczegółowego przybliżania polskim bibliotekarzom celów tworzenia metainformacji. Zagadnienie to zostało obszernie zreferowane przez Bożennę Bojar [1976], a dekadę później przywołane przez Annę Sitarską [1987] – ze szczególną intencją promocji idei wzbogacenia informacji o tekstach w danych bibliograficznych. Krótki komunikat na ten temat przedstawił ostatnio Marek Nahotko [2001].

Duch metadanych ożywa w szczególny sposób w czasach żywiołowego rozwoju cyfrowych publikacji elektronicznych. W stosunku do znakomitej większości tych dokumentów dość łatwo jest określić autora i tytuł. Na ogół są ogromne trudności z ustaleniem daty powstania dokumentu, niemal kompletnie brak informacji o czasie i zakresie wprowadzonych do pierwotnego dokumentu zmian. Nie ma najmniejszych szans na pełne uzupełnienie tych danych w Internecie (ponad 2 miliardy dokumentów indeksowanych w 2002 roku ). Warto jednak zachęcać autorów nowych dokumentów do wprowadzania metainformacji.
W poniższym przykładzie wykorzystane zostaną zalecenia The Dublin Core Metadata Initiative oraz Nordic Metadata Project ( http://www.lub.lu.se/cgi-bin/nmdc.pl). Dużą liczbę użytecznych hiperłączy do stron oferujących formularze do generacji metadanych można znaleźć pod adresem: http://dublincore.org/tools.

Rysunek 37. Wypełnianie formularza Nordic Metadata Project

Nordic Metadata Project

Wybrany formularz nie obsługuje standardu Unicode, ale jest wystarczająco użyteczny, by przy drobnych modyfikacjach móc się nim posłużyć. Przy okazji warto odnotować fakt niedoceniania przez twórców formularzy potrzeby obsługi standardu Unicode przy generacji metadanych. Można przypuszczać, że jedną z przyczyn braku takiego zainteresowania jest brak tej obsługi w systemach wyszukujących wszystkich dawnych systemów (Lycos, yahoo, AltaVista). Dopiero Google zaoferował pełne indeksowanie i wyszukiwanie metadanych kodowanych w tym standardzie. Ta sytuacja może się zmienić za jakiś czas, ale na razie oferta jest bardzo ograniczona.
Końcowym produktem pracy systemu formularza są metadane, które użytkownik zamierza wbudować do swego dokumentu. Na potrzeby uzupełnianego tu artykułu Łatyszewa konieczne jest wprowadzenie w wygenerowanych wyżej metadanych kodowania zgodnego z dokumentem (Unicode), a dodatkowo na potrzeby niniejszego opracowania wprowadzony zostaje kolor fontu ułatwiający semantyczną analizę metadanych. Oto uzyskane metadane:

<META NAME="DC.Title" CONTENT="САХАЛИН В СУДЬБЕ БРОНИСЛАВА ПИЛСУДСКОГО">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#title">
<META NAME="DC.Creator.PersonalName" CONTENT="ЛАТЫШЕВ Владислав Михайлович">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#creator">
<META NAME="DC.Creator.PersonalName.Address" CONTENT="sakhmus@snc.ru">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#creator">
<META NAME="DC.Subject" CONTENT="Bronislaw Pilsudski">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Бронислав Пилсудский">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Сахалин">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Sakhalin">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#subject">

<META NAME="DC.Type" CONTENT="Text.Article">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#type">

<META NAME="DC.Identifier" CONTENT="http://panda.bg.univ.gda.pl/ICRAP/ru/latyshev.html">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#identifier">

<META NAME="DC.Identifier" CONTENT="(SCHEME=ISBN) 5-900334-02-3 (Т. 1)">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#identifier">

<META NAME="DC.Language" CONTENT="(SCHEME=ISO639-1) ru">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#language">
<META NAME="DC.Date.X-MetadataLastModified" CONTENT="(SCHEME=ISO8601) 2002-07-03">
<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#date">

Dokument. O nieskuteczności typologii w czasach rewolucji

W niniejszej pracy podjęta została próba uściślenia zakresu posługiwania się pewnymi terminami. W niniejszym rozdziale szczególna uwaga zostanie poświęcona możliwym zakresom znaczeniowym terminu ‘dokument’ i sprecyzowaniu w jakim sensie termin ten będzie rozumiany na łamach niniejszej książki. Przed rozpoczęciem omawiania dokumentów cyfrowych, przedyskutowane zostanie kilka spraw związanych z dokumentami tradycyjnymi. Zwrócona przy tym będzie uwaga na trudności występujące zarówno przy definiowaniu dokumentu tradycyjnego, jak i całego szeregu jego form przejściowych do świata cyfrowego. Przy okazji podjęte zostaną pewne próby przedyskutowania zakresów znaczeniowych kilku używanych obecnie terminów. Należy powątpiewać w szansę znalezienia zadawalającego rozwiązania na łamach tej książki. Raczej należałoby przyjąć, że poniższe rozważania mogą skłonić kilka osób do rezygnacji z nadużywania w publikacjach pewnych terminów. Chodzi tu głównie o terminy współczesne, związane z zastosowaniem nowoczesnych technologii w bibliotekach. Nowe, wpadające łatwo w ucho i stylizowane na nowoczesność terminy (e-mail, e-business, e-conference, e-book, e-document, e-signature, virtual library, electronic library, digital library) tworzono na Zachodzie z wielką łatwością, lecz bez starań o precyzyjne ich zdefiniowanie. Okazuje się, że dopisanie drobnych dwóch znaków ‘e-’ do znanej od stuleci nazwy dramatycznie zmieniło dobrze ustaloną sferę opisową pierwowzoru, wprowadzając dezorientację, a nawet wstrząsając podstawami poczucia bezpieczeństwa szerokich mas społecznych, wychowanych i wykształconych na pożywce tradycyjnych technologi. Nie ma w tym nic zaskakującego. Przełomy rewolucyjne – zarówno wojskowe, jak i technologiczne – wywierają wielki wpływ na funkcjonowanie społeczeństw i używane przez nie języki. Jakże skrupulatnie, a zarazem obrazowo zreferował Victor Klemperer [1983] deformacje utartych znaczeń języka niemieckiego, jakie ujawniły się w ciągu kilku zaledwie lat istnienia Trzeciej Rzeszy. Podobnie ciągle jeszcze odczuwamy w naszym kraju obecność śladów komunistycznej ‘nowomowy’ w życiu codziennym. Uważne prześledzenie i analiza zmian terminologii staje się ważnym zadaniem w obecnym okresie ponadnarodowych integracji. Ostatnio ukazała się u nas wartościowa rozprawa Dariusza Grygrowskiego Dokumenty nieksiążkowe w bibliotece (Grygrowski [2001]), obszernie dyskutująca liczne nieścisłości i niekonsekwencje terminologiczne odnotowane przez niego zarówno w literaturze krajowej, jak i zagranicznej. Badania Grygrowskiego zmierzały jednak nieco innym kierunku, niż podjęte w ramach niniejszego opracowania. Niebywałe możliwości dnia dzisiejszego zaczynają nasuwać wątpliwości co do tego, jak długo możemy używać dobrze znanego terminu w procesie migracji technologicznej. Terminologia prawnicza nie nadąża za rozwojem technologii nie tylko u nas, ale również w USA. Rozwój ten nieustannie stawia prawników w dwuznacznej sytuacji.

Rozważmy następujący przypadek. Pod nazwą książka mówiona rozumiano przez długie lata nagranie magnetofonowe głosu lektora czytającego książkę na użytek inwalidów wzroku. Z biegiem czasu pojawiła się technologia zapisu dźwięku na dyskach CD o jakości nieporównywalnie wyższej, niż zapewniała to taśma magnetofonowa. Wydaje się, że bez specjalnych oporów termin książka mówiona można przenieść i na tą platformę technologiczną. Jednak już od jakiegoś czasu potrafimy taki głos skonwertować do wersji cyfrowej, usunąć szumy i skażenia oryginalnego nagrania i wreszcie skompresować, by wyjściowy plik zajmował możliwie mało miejsca na dysku. Taki plik, np. w formacie MP3, możemy odsłuchać na domowym komputerze przy pomocy jakiejś przeglądarki (a właściwie przesłuchiwarki) plików audio, powiedzmy popularnego WinAmp’a. Tu już sytuacja zaczyna być bardziej skomplikowana. W zasadzie wyjściowy plik został utworzony z jakiegoś oryginalnego nagrania książki mówionej - wiec niby wszystko jest OK! Właściwie można pogodzić się i z cyfrowym czyszczeniem oryginalnego nagrania. Ale problemy zaczynają się z formatem MP3. Ta technologia kompresji - jakkolwiek świetna - nie jest bezstratna! Bowiem w delikatny, nawet formalnie niezauważalny sposób usuwamy pewne elementy oryginalnego nagrania. Cechy funkcjonalne utworu zostają, choć tym razem re-edycja utworu może pociągnąć za sobą chęć czytającego aktora do uważnej inspekcji całego nagrania. Wykonawca utworu (lektor) może nie godzić się na taką maniulację jej/jego głosem. I to prawo trzeba respektować.

Jednak prawdziwy problem zaczyna się, gdy przechodzimy do najbardziej nowoczesnej technologii książki mówionej - syntezy mowy. Współczesne metody syntezy mowy, których najlepszym przykładem jest konkatenacja difonów opracowana w ramach projektu MBROLA, do skonstruowania syntezatora potrzebują tylko jednokrotnego odczytania standardowego tekstu przez lektora. Mówiąc w uproszczeniu, przetworzony wzorcowy głos z jednej strony zostaje ‘zużyty’ na wykonanie bazy difonów oraz informacji prozodycznej, z drugiej zaś - posłuży do rozpoznania cech intonacyjnych lektora. Końcowy produkt jest pakietem oprogramowania, pozwalającego w niezwykle wiernym stopniu przekształcić wybrany ‘spod dużego palca’ tekst w znajomy głos, czytający ten tekst całkowicie bez świadomości i fizycznego udziału właściciela głosu! W takich warunkach dowolny plik tekstowy staje się książką mówioną przez tego aktora, którego wybierzemy sobie z puli dostępnych głosów syntezatora. Więc może dziś wieczorem Ogniem i mieczem poczyta nam Andrzej Łapicki a zaraz potem córka posłucha sobie do poduszki Ani z Zielonego Wzgórza w wykonaniu Krystyny Czubówny.

Z jednej strony jest to fakt fascynujący, odkrywający wspaniałe możliwości uczestnictwa niewidomych w życiu publicznym. Z drugiej strony zauważamy tu jednak kolejną komplikację w definiowaniu kolejnej wersji książki mówionej. W związku z technologią budowy syntezatorów mowy i sposobem ich użytkowania, automatycznie nasuwa się nam bowiem nieodparta konieczność przyjęcia koncepcji dokumentu rodzicielskiego i dokumentów potomnych - zupełnie identycznie, jak to ma miejsce np. z procesami w systemie operacyjnym UNIX. W powyższym przypadku dokumentem rodzicielskim jest próbka głosu lektora użyta do skonstruowania syntezatora mowy [58], zaś dokumentami potomnymi są wszystkie zarejestrowane odczytania plików tekstowych przy pomocy danego syntezatora. W kategoriach produkcji mamy tu:

<plik tekstowy 1> + <syntezator mowy> => <utwór 1> ==> <dokument 1>
<plik tekstowy 2> + < syntezator mowy > => <utwór 2> ==> <dokument 2>

Oznaczenie <utwór> nie oznacza tu jeszcze dokumentu potomnego, ponieważ symbol ‘=>‘ określa zaledwie akt interpretacji tekstu przez syntezator. Tego rodzaju interpretacja może być przedmiotem dochodzenia praw autora tekstu (lub jego spadkobiercy) oraz lektora (wykonawcy), który użyczył lub odsprzedał swój głos na potrzeby konstrukcji syntezatora. Jednak aby sądowe dochodzenie czy interpretacja miała miejsce, musi być udokumentowane - zatem dopiero zarejestrowany utwór dźwiękowy staje się dokumentem, i dopiero ten może stanowić podstawę do roszczeń autorskich/wykonawczych. Sam fakt istnienia na jakimś komputerze obojga dokumentów rodzicielskich (tzn <pliku tekstowego> oraz < syntezatora mowy >) jeszcze nie implikuje, że kiedykolwiek miała miejsce interpretacja tekstu - czyli odtworzenie utworu. W tym myślowym eksperymencie należy rozdzielić okoliczność uzyskania pliku tekstowego od okoliczności jego interpretacji za pomocą syntezatora mowy. Ta pierwsza może być wynikiem zarówno ‘dozwolonego użytku’, jak i ‘nielegalnego naruszenia praw przedruku’ i dotyczy wyłącznie praw właściciela praw przedruku (wydawca, autor). Ta druga natomiast rozszerza obszar roszczeniowy o interesy ‘dawcy głosu’. Na polimorfizm dokumentu zaczyna nakładać się mozaika podmiotów prawnych, roszczących sobie prawa udziału w zysku z tytułu wniesionej przez nie wartości dodanej.

Z drugiej jednak strony - wobec pleniącej się na świecie zarazy nadużyć i przestępstw - technologia syntezy mowy może grozić ‘dawcy głosu do syntezatora’ nieobliczalnymi w skutkach konsekwencjami. Czy doczekamy się tego, że w tym niemoralnym świecie głos będzie zapisywany na cele publiczne wyłącznie w spadku, z zastrzeżeniem „do użytku wyłącznie po śmierci ofiarodawcy”? Czy zatem, oprócz agencji i stowarzyszeń autorskich: syntetycznym głosem poważniej interesować się będą również służby kryminalne?

Czy należy oczekiwać próby kontrolowania użycia i odpłatności każdego pojedynczego wykorzystania syntetycznego głosu danego lektora? Jak to nadzorować? Dziś jeszcze nie sposób przewidzieć rozwoju wypadków na tej scenie.

O tradycji

Podejmując się zadania prześledzenia losów nowych technologii, które coraz żwawiej wkraczają do bibliotek, wypada nam jakoś odróżnić ‘nowe’ technologie od ‘starych’. By uniknąć pejoratywnych konotacji, zwrot ‘stary’ zastąpimy zwrotem ‘tradycyjny’ i będziemy zmierzali do przyjrzenia się gromadzonym w bibliotekach zasobom z punktu widzenia kategorii dokumentu. Znacznie łatwiej podjąć decyzję, dotyczącą tego, co bylibyśmy skłonni uważać za dokument, niż określić co wpada w przedział czasowy, sugerowany terminem: tradycyjny. Dla odbiorcy tych słów tradycją jest to, co zostaje mu przedstawione w procesie wychowania jako fakt istniejący i zakotwiczony gdzieś w przeszłości. Dla polskiego czytelnika w wieku przedemerytalnym telewizja nie może być tradycyjną metodą przekazu, ponieważ nie istniała, gdy w latach pięćdziesiątych kończył obowiązkową szkolną edukację. Ale dla dzisiejszego absolwenta uniwersytetu telewizja jest już rzeczywistością, w której wyrósł i wykształcił się. Nie przyjmiemy jednak tej kuszącej skądinąd możliwości tworzenia dychotomii w oparciu o kryterium pokoleniowe, np. uznając, że głównym adresatem książki jest obecne pokolenie studenckie. Zamiast tego uznamy, że prawdziwą rewolucję technologiczną zamkniętego już tysiąclecia wyznaczył Internet. Nie ulegniemy przy tym pokusie przesunięcia początku skali do daty publikacji protokołu Hyper Text Transfer Protocol (HTTP) przez konsorcjum W3C, czy też udostępnienia za darmo światu przez NCSA pierwszej graficznej przeglądarki Mosaic - dwóch kamieni milowych dzisiejszego sukcesu Internetu. Zbyt wiele ważnych projektów zostało jednak wcześniej zainicjowanych przez Projekt DARPA i dlatego ta data (1968) będzie w dalszej części tego wykładu uważana za punkt podziału technologicznego. Tak więc do technologii tradycyjnych zaliczymy wszystkie technologie, które zostały opracowane (nie zaś zaadoptowane) przed rokiem 1968. W tym na przykład sensie, technologia odkwaszania papieru [59] jest technologią tradycyjną, ponieważ sam proces odkwaszania jest znany w chemii już od bardzo dawna.

O dokumencie

Z kolei zajmijmy się samym dokumentem. Definicja terminu dokument - podobnie jak terminów dzieło czy utwór – od wielu lat podlega najróżniejszym rewizjom. Gdyby ta terminologia wraz z jej semantyką była łatwa do zdefiniowania, to ustawy o prawach autorskich nie były by tak trudne do sformułowania i nie musiały by być często nowelizowane. Trudno się temu dziwić. Przypomnijmy jak słynąca ze swej precyzji matematyka zgrabnie unika definicji: Badania matematyczne opierają się na pojęciu zbioru. Nie będziemy zbioru definiowali, podajemy jedynie kilka przykładów. [Mostowski, Stark 1958: 7]. W obszarze terminologicznym najbliższym polskim bibliotekarzom w podobny sposób pisze Barbara Sordylowa [1987:37]: Dokumenty są przedmiotem zabiegów typologicznych i klasyfikacyjnych. To prawda, jednak propozycja ta nie daje możliwości rozróżnienia co jest dokumentem, a co nim nie jest. Bardziej szczegółowej definicji można oczekiwać tam, gdzie pojęcie to ma znacznie lepiej wykrystalizowany zakres znaczeniowy: u dokumentalistów i prawników.

Pojęcie dokumentu funkcjonujące w dzisiejszej dobie ma zakresy znaczeniowe uzależnione od środowiska, które się nim posługuje. W wydawnictwach encyklopedycznych dominuje orientacja prawnicza. Przyjrzyjmy się takiemu opisowi. W Dictionary of Contemporary English znajdujemy co następuje: ‘dokument /.../ kawałek papieru który daje oficjalną pisemną informację o czymś’ [Longman 1995:397]. Nie trudno zrozumieć, że w sferze kultury definicja taka jest zdecydowanie za wąska. Jak widać ogranicza się ona do pisanej dokumentacji na papierze. Tak to mniej więcej ujmuje indyjski teoretyk Ranganathan [1963], ale jego argumenty są miejscami tak naiwne, że nie trudno je od razu odrzucić. Uzależnianie faktu bycia dokumentem lub nie, od płaskości nośnika, na którym zapisana jest informacja, jest argumentem nie do przyjęcia. Szelakowa płyta gramofonowa z początku tego wieku (żeby nie wspomnieć o współczesnym nam hologramie) jest bardziej płaska, niż zapisane na ręcznie czerpanym papierze nadanie królewskie z XV wieku.
Są jednak definicje traktujące dokument na znacznie szerszej płaszczyźnie. Świetny przegląd podejść do tego tematu dał ostatnio Michael Buckland [1997]. Autor ten dyskutuje szereg prac, które już 70 lat temu wychodziły poza tekstową definicję dokumentu. Wśród nich godnymi uwagi są opracowania Paula Otlet [1934], Suzanne Briet [1951] oraz Waltera Schürmeyera [1935]. W tym miejscu autor niniejszej książki pragnie dać wyraz swojego szczególnego zauroczenia fundamentalnym dziełem Paula Otlet Traité de documentation i wyrazić żal, że nigdy nie zostało ono przetłumaczone na język polski – z wielką szkodą dla polskich bibliotekarzy.

Przechodząc do meritum sprawy warto odnotować, że w swym analitycznym artykule Buckland jeden jedyny raz kursywą wyróżnia podsuniętą przez Briet prowokującą definicję: Antylopa jako dokument. Może zatem i warto przytoczyć tu sześciowierszową tabelkę będącą syntezą przemyśleń Briet:

Tabela 16. Relacja pomiędzy obiektem i dokumentem wg. Briet. Źródło: Briet [1951:7].

OBIEKT
DOKUMENT ?
Gwiazda na niebie
nie
Fotografia gwiazdy
tak
Kamień w rzece
nie
Kamień w muzeum
tak
Zwierzę na wolności
nie
Zwierzę w ZOO
tak

Zatem w sensie Briet kamyk z plaży w Hawrze ofiarowany ponoć przez Mickiewicza pani Klustin jest dokumentem: Nie zostal przeze mnie podniesiony z ziemi. To muzealny eksponat, a więc kamień już przez kogoś „wybrany”, kamień któremu z jakichś powodów przypisano niezwykłą rangę. (Rosiek [1998]).

Wydaje się, że do terminu ‘dokument’ można zastosować bardziej elastyczne ujęcia, niż to prezentuje Briet. Nie wydaję się być sensowne, by uznanie świątyni Abu Simbel za zabytek - a więc swojego rodzaju dokument epoki faraonów - było uzależnione od przeniesienia go do muzeum w Kairze.

Do dokumentów należałoby więc również zaliczyć obiekty pozostawione w miejscu ich odkrycia, ale celowo wyodrębnione przez człowieka przez nadane im rangi dokumentu czy zabytku. W myśl powyższego dokumentem staje się również szkielet dinozaura pozostawiony na terenie wykopalisk (jak w miejscowości Dinosaur w stanie Utah), ale przecież także i świątynia Hatszepsut, i zabytkowy uschły dąb w Chełmnie oznaczony tabliczką Pomnik przyrody. I równie dobrze dokumentem jest kamień przeniesiony z Rosetty do British Museum, jak i petroglify pozostawione na miejscu odkrycia w pobliżu Carschenna (Szwajcaria).

Do tej definicji znacznie bardziej ogólnie podszedł wcześniej Schürmeyer [1935:389]. Już w 1935 r. pisał on: Pod nazwą Dokument człowiek dzisiejszy rozumie każdą materialną podstawę do rozszerzenia naszej wiedzy, dostępną do badań lub porównań. Definicja ta wydaje się bardzo dobrze obejmować wszystko, co w dalszym ciągu będziemy określać mianem dokumentu tradycyjnego, nadto wydaje się, że stanowi ciekawy punkt wyjścia do definicji dokumentu elektronicznego, a następnie dokumentu cyfrowego.

Przyjrzyjmy się policyjnej ekipie dochodzeniowej na miejscu przestępstwa. Kilku specjalistów od różnych profili dokumentów przeprowadza inspekcję gruntu, budynków, ogrodzeń, roślinności. Od ich doświadczenia w zakresie gromadzenia dokumentów zależy skuteczność dalszego przebiegu dochodzenia. Odcisk palca na klamce, kilka włókien zaczepionych na sztachecie płotu, popiół strząśnięty z papierosa, zwykły kamień leżący na skraju drogi - wszystko to może stać się dokumentem na skutek decyzji jednego specjalisty (choć jeszcze nie dowodem w inkryminowanej sprawie). A czyż inaczej jest w archeologii, paleontologii czy epidemiologii? Warto to podsumować.

Można by przyjąć bez większego ryzyka, że dokumentem (w klasycznym, tradycyjnym rozumieniu tego słowa) staje się pewien obiekt, pozwalający na powtarzalne badanie, i uznany za takowy przez pewną grupę opiniotwórczą, zdolną nadać bieg prawny swojemu osądowi, a często również wesprzeć od strony gospodarczej legislacyjny aspekt swej opinii.

Gwiazda na nieboskłonie w sensie definicji Briet nie jest dokumentem, w sensie definicji Schürmeyera jest dokumentem (z pewnością jest to obiekt materialny dostępny do badań i porównań), w sensie powyższej definicji może być dokumentem – pod warunkiem, że uzna go za takowy jakaś grupa opiniotwórcza.

Dokument nie musi mieć charakteru unikalnego. Jeśli np. jakaś umowa, czy porozumienie sporządzane jest w dwóch czy więcej, jednobrzmiących egzemplarzach, to wszystkie te egzemplarze zachowują w równej mierze atrybut bycia dokumentem. W identycznym stopniu zasada ta dotyczy dokumentów o innym charakterze.

Dokument tradycyjny wykonany z określonego materiału ma swoje wymiary fizyczne, choć nie musi mieć regularnego kształtu. Niekiedy możliwa jest jego replikacja/falsyfikacja, choć w przypadku odpowiednio dużego meteorytu jest to raczej niemożliwe. W przypadku niewielkich obiektów obecne technologie pozwalają często nawet na bardzo wierne odtworzenie fizycznego wyglądu oryginałów. Możliwa (choć bardzo kosztowna) jest również precyzyjna identyfikacja specyficznych cech dokumentu tradycyjnego na poziomie molekularnym, a nawet (w przypadku metalowych dokumentów) - atomowym. Tego rodzaju identyfikacja jest uzasadniona w stosunku do niezwykle cennych, rzadko spotykanych na rynku antykwarycznym, dokumentów.

Dokument tradycyjny. Kilka przykładów i kilka przemyśleń.

Od tysiącleci człowiek pozostawia po sobie materialne obrazy wytworów swego intelektu. Zwłokom zmarłych, składowanym najpierw w pieczarach, potem w prymitywnych grobach, wreszcie w kunsztownych grobowcach, towarzyszą stroje, malowidła, przedmioty codziennego użytku, testamenty. Można przy tym śmiało powiedzieć, że już starożytni Egipcjanie osiągnęli wysoki poziom sztuki konserwatorskiej dla zapewnienia trwałości składowanych obiektów.

Wiele antycznych przedmiotów, które doczekały do naszych czasów, wytyczone miało cele transcendentne. Miasta czy zespoły świątynne projektowane na planie gwiazdozbiorów, kalendarze wykuwane w kamieniu, sylwetki rzeźbione w marmurze, alabastrze czy odlewane z brązu, wizerunki malowane na drzewie, szkle czy haftowane złotą nicią na płótnie, teksty zapisywane na papirusie, papierze i pergaminie, melodie wbijane młotkiem w bębny pozytywek - najczęściej pozerkiwały w niebo. Ale z wolna, niejednokrotnie jeszcze za życia ich twórców, stawały się wielkopańskimi darami a niezadługo potem przedzierżgały się w obiekty szerszego pożądania, rabunku, wymiany. Z postępującą sekularyzacją społeczeństw i wzrostu siły i znaczenia władzy cywilnej przyspieszał się proces komercjalizacji dóbr kultury i zmiany ich właścicieli.

Znakomita większość tego, co oglądamy dziś na własne oczy w muzeach i bibliotekach, jest obrazem przetworzonym przy zmieniającym się udziale osobowości i wyszkolenia dokumentalisty zwanego niekiedy rzemieślnikiem, niekiedy zaś twórcą lub artystą. Nasze bezcenne eksponaty niejednokrotnie bardziej stanowią obraz, jaki artysta lub zamawiający chciał widzieć, niż oddają to, jak coś naprawdę wyglądało, czy brzmiało.

Jeszcze zbyt słabo zbadane są starożytne źródła historyczne, by autorytatywnie orzec, na ile w przeszłości udało się w miarę wiernie udokumentować obrazy natury w postaci jakiegoś zdjęcia, czy też zapisać w jakiejś formie dźwięk. Wiadomo, że już przy dokumentacji rysunkowej miejskich zespołów Majów na półwyspie Jukatan rysownik posługiwał się urządzeniem optycznym (camera lucida), pozwalającym uzyskać wielką zgodność rysunku z oglądanym widokiem przy zachowanie dużej szybkości rysowania. Czy historia barwnej dokumentacji fotograficznej rzeczywiście ma swój początek w wynalazku płyt rastrowych Autochrome przez braci Lumière [Dubiel 1966:15], czy może zaczęła się wcześniej?

O tym, że winniśmy z pokorą podchodzić do naszej wiedzy o przeszłości, przypomina nam nie tylko pełna majestatu trwałość piramid egipskich, ale i niezwykła wzmianka we wstępie do bardzo sumiennie zredagowanej pracy rosyjskich klinicystów z zakresu irydodiagnostyki [Velhover, 1988] o przechowanych do dnia dzisiejszego kolorowych zdjęciach (!) tęczówki Tutanthamona wykonanych na aktywowanych metalowych płytkach przez nadwornego kapłana tego młodo zmarłego faraona. Ta bulwersująca wszystkich znawców współczesnych technologii wiadomość o opanowaniu przez starożytnych Egipcjan technologii otrzymywania barwnych fotografii z pewnością wymaga szczegółowych badań. Mając dodatkowo na względzie fakt, że współcześnie najskuteczniejszy środek przeciwmalaryczny został ostatnio wyodrębniony z rośliny rekomendowanej do leczenia malarii w starożytnych księgach medycyny chińskiej, nie można wykluczyć i tego, że nasi praojcowie uporali się również z zapisem dźwięku na długie stulecia przed narodzeniem Edisona i Berlinera.

Zachowała się też, w zmienionej upływem czasu formie, pewna liczba naturalnych dokumentów - milczących świadków przeszłości. Zmumifikowane przez suchy piasek, czy gorący popiół wulkaniczny szczątki ludzi i zwierząt, prehistoryczne gady w bitumicznym jeziorze, mamuty w lodach wiecznej zmarzliny. Mamy piękne okazy amonitów w skałach kredowych i niezwykle wiernie utrwalone w bursztynie owady oraz fragmenty roślin. Ale jest i Całun Turyński: płótno grobowe z zarejestrowanym niezwykłym wizerunkiem Męki. Mówiąc językiem technologicznym - jest to negatywowa odbitka stykowa z polimerycznym utrwaleniem Wizerunku, której analiza przeprowadzona przy pomocy elektronowego mikroskopu skaningowego ujawnia niezwykłą, trójwymiarową strukturę obrazu przypominającą dzisiejsze hologramy.

W barwnej palecie różnych gatunków tradycyjnego dokumentu warto wyróżnić specjalną ich klasę - zapisy muzyki mechanicznej. Heron z Aleksandrii (angielskie tłumaczenie [1851] ) nie pozostawił nam, niestety, zbyt wiele szczegółów w opisie konstrukcji swoich organów ołtarzowych. Chociaż nie zachował się żaden egzemplarz tych organów, to wiele wskazuje na to, że oprócz wykorzystywania siły wiatru do sprężania powietrza, realizował również jakiś zapis muzyki i mechaniczną automatykę; że to nie były jakieś asemantyczne dźwięki, ale odpowiednio skomponowana melodia. Być może był to jeden z pierwszych modeli sterownika z pamięcią Tylko-Czytaj (ROM - Read Only Memory), prawzór późniejszej pozytywki. Można powiedzieć, że heronowska inżynieria zapisu melodii (tzn. ułożenia piszczałek, ich geometrii i systemu przełączania strumienia powietrza) realizowała funkcje dokumentu muzycznego.

Urządzenia wykorzystujące zapis muzyki mechanicznej na bębnach, a potem na dyskach z pewnością stają się powszechne jakieś 15 stuleci później. Jest rzeczą zdumiewającą, jak wspaniałym modelem współczesnej maszyny cyfrowej z pamięcią ROM jest pozytywka. Wyprzedzając to, co godzi się być może powiedzieć przy dokumentach cyfrowych, przyjrzyjmy się temu prawdziwemu prototypowi dzisiejszych komputerów. Bęben pozytywki jest pamięcią maszyny wypełnioną wierszami sekwencyjnie zapisanych słów maszynowych. Są one zbudowne z dwuwartościowych jednostek informacji (w danej pozycji albo jest wbity kołek, albo go nie ma). Zatem ta maszyna ma arytmetykę binarną. Programowanie polega albo na wbijaniu kołka. albo na wyrywaniu go. Dekoderem instrukcji, arytmometrem oraz urządzeniem wejścia - wyjścia jest system sprężyn wydających dźwięk, czyli tak zwany grzebień W najprostszym wykonaniu pozytywki w tej pamięci mogą być tylko same dane (kod muzyki). Jeśli natomiast pozytywka ma realizować utwór o strukturze złożonej z optymalizacją pamięci (np. trzy zwrotki piosenki z refrenem zapisanym jeden raz po trzeciej zwrotce) wówczas dotychczasowa struktura bez mechanizmu skoków do procedury refrenu i identyfikacji miejsca skoku powrotnego po zakończeniu odtwarzania refrenu staje się niewystarczająca. W mechanizmach zegarowych z jednym kierunkiem obrotu bębna (jak w pozytywkach) nie zachodzi potrzeba adresowania każdego wiersza programu. Pożądany efekt osiąga się przy pomocy systemu kołków blokujących obrót bębna na początku każdej zwrotki i dźwigni odłączającej grzebień wygrywający melodię na czas cyklu szukania kołka wskazujacego początek nowej zwrotki. Widać z tego, że do rozszerzenia funkcjonalności takiej pozytywki trzeba wydłużyć słowo maszynowe o pozycje bitowe, wykorzystywane do sterowania mechanizmu.

W przypadku pozytywki dokumentem jest bęben z zaprogramowaną muzyką. Bęben ten, nasz tradycyjny dokument - zrazu niewymienny - staje się elementem wymienialnym. To co naprawdę w idei pozytywki wyprzedza epokę to fakt, że do odtworzenia zapisu na bębnie potrzebne jest osobne urządzenie, które w epoce Internetu nazwalibyśmy przeglądarką. Ale wymienialność bębnów - dokumentów jest ograniczona do danego egzemplarza pozytywki; a co najwyżej do danego producenta (manufaktury). Do standardów jeszcze daleko. Dla uzupełnienia dodamy, że pozytywka syntezuje muzykę w klasie instrumentów strunowych szarpanych, gdzie programowanie i odtwarzanie muzyki jest skwantowane.

Zbliżająca się szybkimi krokami rewolucja przemysłowa doby wczesnego kapitalizmu rzucała nowe wyzwania, które pociągnęły za sobą, jak byśmy to współcześnie powiedzieli, publikację dokumentów o nowej formie zapisu: perforacji. Motorem wymuszającym pospieszne zmiany była chęć podwyższenia zysków z produkcji i handlu. W automatyzacji rutynowych czynności upatrywano źródła szybkiej obniżki kosztów osobowych (zmniejszenie zatrudnienia) i podwyżki jakości produkcji (mniejszy procent braków produkcyjnych wywoływanych zmęczeniem robotników). W 1801 [60] roku Jacquard wprowadzasterowanie warsztatem tkackim przy pomocy kart perforowanych. Ciekawym jest, że na sterowanie grą pianina czy fortepianu przy pomocy rolki perforowanego papieru (pianola) ludzkość będzie musiała czekać jeszcze prawie sto lat. Za to po tak długim czasie jakby się otworzył worek przepełniony nowymi wynalazkami zwłaszcza w dziedzinie bezpośredniego zapisu dźwięku i na rynku pojawiają się nowe rodzaje dokumentów: fonograficzne wałki woskowe i celuloidowe, miedziane wałki negatywowe (galvanos), wreszcie płyty gramofonowe. W tym samym mniej więcej czasie udało się bezprzewodowo przesłać telegram radiowy - pierwszy prymitywny, niematerialny dokument kodowany [61] -za to od razu na tysiące kilometrów. Zrazu można go było odebrać przez słuchawki i konwertując w pamięci z alfabetu Morse 'na nasze', dyktować stenografowi. Po odkryciu sposobu wzmacniania sygnału elektrycznego, obrazem telegramu u odbiorcy stała się wąska taśma papierowa zawierająca wyłącznie kreski i kropki. A w fonografii inna sensacja: w przypadku negatywów wałków fonograficznych inwersja sygnału okazała się być niełatwym orzechem do zgryzienia dla ówczesnych inżynierów. Galvanos były używane do tworzenia celuloidowych replik wałków, ale na bezpośrednie odtworzenie dźwięku utrwalonego na negatywowych wałkach fonograficznych znowu przyjdzie ludzkości poczekać kolejne sto lat. Udało się to dopiero w roku 1999 zarówno w wersji mechanicznej jak i optycznej. Jak widać, czasem łatwiej jest zapisać jakiś dokument, niż go odtworzyć. Ta smutna prawda jeszcze nie raz da o sobie znać - i to w dość bolesnej formie.

Na zakończenie tej listy przykładów godzi się jeszcze wspomnieć o dokumencie mutimedialnym, a więc integrującym minimum trzy platformy oddziaływania na odbiorcę. W obszarze dokumentu klasycznego prym wiedzie tu film i jego formy potomne, jak telewizja. Cechą charakterystyczną dokumentu multimedialnego jest wydzielenie osobnych sekcji nośnika na rejestrację poszczególnych mediów (obrazu, dźwięku, tekstu). Widać to znakomicie na powiększeniu wycinka starej taśmy filmowej z zapisaną na jej skraju ścieżką dźwiękową. Już na pierwszy rzut oka każdy rozumie, że do odczytu ścieżki dźwiękowej potrzebny jest osobny system odsłuchu, zupełnie różny od systemu projekcji obrazu.
A więc otrzymaliśmy w dziedzictwie pewną dokumentację przeszłości: zbiór obiektów (dzieł, utworów) transcendentnego lub materialnego autorstwa, zwanych dokumentami. Spróbujmy zestawić kilka cech dokumentu tradycyjnego.

Tabela 17. Dokument tradycyjny i jego cechy (opracowanie autora)

Materiał podłożai jego trwałość
Rodzaj zapisywanej informacji
Sposób zapisu
Sposób odczytu
Uwagi
kamień
lawa wulkaniczna

bardzo duża trwałość skał krystalicznych
średnia skał osadowych
cienkie płyty kamienne wykazują znaczną łamliwość(np. tablice Dekalogu),znaczna wrażliwość skał kredowych i marmurów na kwaśne deszcze (dymy wulkaniczne, spaliny, pożary, wyładowania atmosferyczne,)
kształt (rzeźba, konstrukcja
skamielina)
rzeźbienie
ciosanie,
depozyt naturalny
wizualny
dotykowy
znaczna wrażliwość budowli antycznych na trzęsienia ziemi,
grafika (relief)
rzeźbienie
wizualny
dotykowy

grafika (malowidło)
malowanie
wizualny

tekst
rzeźbienie
wizualny
przykładowe zapisy:
Kamień z Rosetty,
inskrypcje nagrobne
ceramika
kryształy
szkło

na ogół mała wytrzymałość na udar

wysoka odporność na warunki atmosferyczne i zanieczyszczenie środowiska
kształt
modelowanie ręczne i maszynowe
wytapianie
wydmuchiwanie
szlifowanie
wizualny
dotykowy
utrwalanie wilgotnego modelu przez suszenie i wypalanie (glinki).przykład realizacji::
„Armia terakotowa”naczynia z kryształu górskiegoceramika budowlana , użytkowa i artystyczna
grafika
(relief i malowidło)
modelowanie
wytłaczanie
malowanie
emaliowanie
wypalana kalkomania
fotografia
napylanie
fotolitografia
trawienie
wizualny
kafle piecowe

selektywne trawienie fluorowodorem (mat) szkła i luster w sztuce secesyjnej

fotografia nagrobna na porcelanie
tekst
wytłaczanie
malowanie
wypalana kalkomania
fotografia
napylanie
Wizualny
Przykładowy zapis:
Kodeks Hammurabiego
metal

bardzo duża trwałość kształtu tytanu, żelazowców i platynowców, niska złota, srebra, miedzi oraz metali lekkich (glin, magnez)

Znane są procesy pasożytnicze: korozja żelaza trąd cynowy” - niskotemperaturowa przemiana alotropowa cyny prowadząca do rozsypania się metalu w szary proszek

bardzo duża wrażliwość glinu na zanieczyszczenie rtęcią.
kształt
odlewanie,
kucie
wytłaczanie wyciąganie
elektroliza
zgrzewanie
spawanie
wizualny
dotykowy
odlewane pomniki:(np. „Wilczyca karmiąca Romulusa i Remusa”)maski trumienne (złoto)
kute zbroje i oręż
elektroliza stosowana jest do tworzenia negatywowych metalowych matryc obiektów trójwymiarowych (np. wałków fonograficznych)
grafika (relief)
rzeźbienie
elektroliza
napylanie
fotolitografia
trawienie
wizualny
dotykowy
elektroliza stosowana jest do tworzenia tekstur (np. na powierzchni cyferblatów) oraz barwnych warstw ochronnych (anodyzacja)
grafika (malowidło)
malowanie
emaliowanie
elektroliza
sitodruk
wizualny
Złącze metal-emalia jest wrażliwe na duże skoki temperatury
tekst prosty i kodowany
malowanie
emaliowanie
fotolitografia
trawienie
sitodruk
wytłaczanie
wizualny
dotykowy
detekcja optyczna, mechaniczna, elektryczna
alternatywna technologia pisma brajlowskiego oferuje wytłaczanie tekstu na cienkich foliach aluminiowych
dźwięk
magnesowanie
detekcja pola magnetycznego
wrażliwość zapisu na zewnętrzne pola magnetyczne
zapis muzyki mechanicznej
wbijanie kołków w tarczę lub bęben
poprzez urządzenie odtwarzające

drewno
skorupy owoców

Duża wrażliwość na ogień. średnia odporność na wilgoć, grzyby, pleśń i szkodniki.
Wymaga dobrych warunków przechowywania oraz okresowej konserwacji

kształt
rzeźbienie
ciosanie
montaż
wizualny
dotykowy
budynki oraz stolarka użytkowa
(ozdobne klatki schodowe, meble)
rzeźba artystyczna
grafika
malowanie
rysowanie
inkrustacja
intarsja
rzeźbienie
wizualny
ikony bizantyjskie
plany miejskie Gdańska (rysunek na deskach, Bushe 1667)
stolarstwo artystyczne
tekst
rzeźbienie
malowanie
pisanie
wypalanie
wizualny
matryce drukarskie Gutenberga (obraz lustrzany tekstu)
sztuka ludowa
skóra
kształt
modelowanie na mokro
garbowanie i napalanie
wizualny
dotykowy
siodła końskie, obuwie
grafika
malowanie
rysowanie
wycinanie
wyplatanie
wytłaczanie
wizualny
dotykowy
odzież, ozdoby
tekst prosty i kodowany
malowanie
pisanie
wiązanie
wizualny
dotykowy
Pergamin jest w Europie powszechnie stosowym materiałem do pisania we wczesnym średniowieczu Inkowie przesyłali sobie komunikaty w postaci wiązki rzemieni z powiązanymi węzłami (kipu)
papier
celuloza
nitroceluloza
acetyloceluloza


(włókna roślinne mielone, naturalne i modyfikowane, materiał amorficzny na ogół o słabej anizotropii)

Niekiedy występuje dodatkowa warstwa z innego materiału
(jak żelatyna namateriałach fotograficznych).

Duża wrażliwość na ogień, a w przypadku materiałów niemodyfikowanych chemicznie również na wilgoć, grzyby i rozdarcie; znaczny udział czynnika technologicznego produkcji (kwaśny papier)
grafika artystyczna i użytkowa
malowanie
rysowanie
wycinanie
naklejanie
wytłaczanie
drukowanie
film
fotografia
puchnięcie
wizualny
dotykowy
klisze cięte, filmy i papiery fotograficzne są materiałami zawierającymi jedną lub więcej dodatkowych warstw żelatynowych w których jest zdyspergowany materiał światłoczuły (halogenki srebra) i, ewentualnie, komponenty sprzęgające do tworzenia obrazu barwnikowegopuchnięcie realizuje się pod wpływem wysokiej temperatury na specjalnym gatunku papieru,technologia ta jest stosowana do przygotowywania grafiki dotykowej dla osób niewidzących
tekst prosty i kodowany(Braille,BCD, Morse)
malowanie
pisanie
perforowanie
wytłaczanie
wizualny
dotykowy za pomocą sprzętu do detekcji otworów lub wypukłości połączona z dekodowaniem
podstawowa technologia druku brajlowskiego przewiduje wytłaczanie kodów Braille’a na papierze o podwyższonej gramaturze (pół-karton)stare typy komputerów wykorzystywały taśmy perforowane do wprowadzania zarówno tekstów programów w wersji źródłowej (do kompilacji), jak i danych do przetwarzania.
zapis muzyki mechanicznej
perforowanie
j.w. rolki papierowe do pianoli
sterowanie
urządzeniami przemysłowymi
perforowanie
j.w.
karty jacquardowskie do krosien
taśmy perforowane do sterowania numerycznego obrabiarek
tkanina,
sznury, filc,papirus

(sierść. włókna roślinne przeplatane lub wiązane)

materiały średniej trwałości, wrażliwe na wilgoć, grzyby i gryzonie
kształt
szycie, tkanie
haftowanie
wiązanie
wizualny
dotykowy
głównie ubiory i elementy wystroju mieszkań
Balony, spadochrony, sieci
grafika
szycie, tkanie, haftowanie
odbicia naturalne malowanie fotografia sitodruk
druk
wizualny
dotykowy

tekst
szycie, tkanie, haftowanie, fotografia, sitodruk, druk, pisanie ręczne
wizualny
dotykowy
papirusy egipskie
Wosk,
bursztyn,
żywice,
laki

Wysoka odporność na warunki atmosferyczne

Niska odporność na wysoką temperaturę
kształt
odlew z natury lub z formy, rzeźbienie, prasowanie, klejenie
wizualny
dotykowy
woskowe maski trumienne (negatyw),
figury woskowe,
rzeźba artystyczna
grafika
barwienie
inkrustacja
intarsja


tekst
rylec


dźwięk
rylec sprzężony z membranąwypraska z matrycy
fonograf
gramofon

Poliester

Na podłoże poliestrowe może być naniesiona dodatkowa warstwa.. Materiał wodoodporny, palny, łatwo topliwy, wrażliwy na kwasy i zasady (hydroliza)
dźwięk
obraz
magnesowanie
magnetofon
magnetowid
materiał rejestrujący ma postać taśmy z naniesioną warstwą zawierającą zdyspergowany materiał ferromagnetyczny.

Powyższe zestawienie ma stanowić pomoc w zrozumieniu proponowanych niżej definicji dokumentu elektronicznego i dokumentu cyfrowego. Niestety, nawet w obszarze klasycznego dokumentu rękopiśmiennego, czy drukowanego, zdarzają się zaskakująco błędne definicje. Dla ilustracji można tu przytoczyć proponowaną przez Bucklanda [1991:71] definicję charakterystyk zapisu informacji na papierze, mikroformach oraz w bazach danych. Dyskutując cechy zasobów [62]informacyjnych na nośniku papierowym (podkr. JBC) Buckland pisze m.in.: "Do ich odczytania nie jest potrzebne żadne specjalne oprzyrządowanie". Z dwóch względów trudno zgodzić się z taką charakterystyką: z jednej strony szansa odczytania zapisu na papierze zależy od człowieka - adresata informacji, z drugiej strony - również od sposobu zapisu (zapis może być zorientowany na odczyt sprzętowy).

Z jednej strony zaciążyła na tej definicji przynależność jej twórcy do kręgu osób widzących. Znakomita większość zbiorów bibliotecznych to teksty pisane i/lub drukowane z leksykograficznym uporządkowaniem znaków oraz ilustracje, nie dające rozpoznać się poprzez dotyk. Osoby niewidzące nie mogą odczytać tych materiałów bez pomocy do datkowych urządzeń. Niewidomi to około 0.5 % populacji ludzkiej, jednak osób z mniej poważnymi wadami wzroku jest znacznie więcej. Piszącemu te słowa nie jest znany stan wzroku Bucklanda. Być może już w chwili tworzenia swej klasyfikacji nosił on okulary nie spostrzegając, że właśnie używa specjalnego sprzętu do odczytywania informacji z tradycyjnych zasobów bibliotecznych, zapisanych na papierze. Nietrudno zauważyć, że w przeciętnej czytelni jest znaczna liczba osób noszących okulary. Znakomita ich większość tak jest oswojona z faktem używania okularów, że na ogół nie odnosi wrażenia posługiwania się "sprzętem wspomagającym". Jak na ironię, pisząc o technologiach informacyjnych opartych na papierze Buckland napisał, że cechy ich "/.../ są tak znane, że zarysowują się tendencje do przeoczania ich". To twierdzenie można zastosować do niego samego. W szczególności posługiwanie się sprzętem rehabilitacyjnym, zwłaszcza tak drobnym jak okulary, może pociągać za sobą niedostrzeganie faktu jego istnienia. W tym sensie nawet tak doświadczony teoretyk i praktyk, jak Buckland, sam padł ofiarą swoich ogólników, zalecając uważne przyglądanie się temu co się ma przed nosem, a nie temu, co się ma na nosie.

Z drugiej strony, we wspomnianej definicji brak jest precyzyjnego spostrzeżenia, że być może nie chodzi jej autorowi o samo podłoże (nośnik) informacji, ale o technologię zapisu. Gdy Buckland przed 10 laty pisał swą książkę, w każdym sklepie USA masami wyłożone były towary z nadrukowanym kodem paskowym. Ciekawe, że patrząc na pracę kasjerek w sklepach nigdy nie zauważył, że do odczytu zapisanego na papierze symbolu towarowego używany jest specjalny sprzęt, bo do zapisu posłużono się specjalną czcionką, składającą się z czarnych pasków. Podobne przypadki błędnego rozumowania spotyka się w licznych artykułach i książkach.

Dokument elektroniczny

W ramach arbitralnie tu przyjętego przedziału czasowego, w którym dokumenty nazywamy tradycyjnymi, już od stu lat wykorzystywane są różne technologie zapisu i odczytu informacji (mechaniczna, magnetyczna i optyczna). Ponad 110 laty liczy edisonowski zapis dźwięku (mechaniczne nacięcie ścieżki dźwiękowej na powierzchni woskowego walca), 100 lat magnetyczny zapis dźwięku (pierwotnie zrealizowany na drucie jako nośniku), 75 lat optyczny zapis ścieżki dźwiękowej na taśmie filmowej. Te dwie ostatnie, stare technologie realizowały praktycznie już około wiek temu jakąś formę dokumentu elektronicznego. Już wiek temu przesyłano wiadomości drogą radiową przez ocean. W zakresie rejestracji sygnału optycznego od stu lat praktycznie też nie wymyślono nic specjalnie nowego. Wszystko co dziś mamy, to w zasadzie znakomite poprawki wnoszone do znanego modelu znanych od dawna zjawisk. Najlepszym przykładem ilustrującym udoskonalenie starej fotograficznej metody rejestracji fal stojących w światłoczułych warstwach płyt lippmanowskich jest rejestracja hologramu. Wprowadzone poprawki dotyczyły głównie zmiany elementu oświetlającego przez wprowadzenia spójnych i monochromatycznych wiązek światła (lasery). Skąd zatem teraz tyle szumu w sprawie dokumentu elektronicznego?

W miarę doskonalenia narzędzi i metod badawczych udało się dość precyzyjnie poznać naturę takich zjawisk jak elektryczność, magnetyzm, światło i dźwięk i ich wzajemne relacje. Od początku też badano możliwości trwałego zapisu informacji z wykorzystaniem tych zjawisk. Od wieków znany i wykorzystywany był magnetyzm. Początek XIX wieku przyniósł nam ogniwo galwaniczne Volty, którego potomek - akumulator ołowiowy - dał się już odwracalnie naładować i rozładować, dysponował już zatem formą pamięci chemicznej. Niestety - procesy chemiczne są z natury powolne i pewną nadzieję można było pokładać w butelce lejdejskiej i jej następcy kondensatorze. Jakoż na efektywną materializację tej idei pamiętania ładunku elektrycznego trzeba było czekać aż do lat siedemdziesiątych XX wieku, gdy firma Intel opracowała pierwszą programowalną i wymazywalną pamięć półprzewodnikową EPROM. Prawdziwą rewelacją było tu odkrycie, że w zawieszonej w dielektrycznym medium bramce krzemowej tranzystora polowego można zmagazynować elektrony wstrzyknięte w trakcie kontrolowanego przebicia lawinowego i system ten cechuje tak minimalna upływność ładunku, że z pełnym zaufaniem można było to zjawisko wykorzystać do konstruowania reprogramowalnych pamięci stałych do komputerów (por. Kalisz [1977]:537). Model kondensatora okazał się skuteczny do pamiętania informacji cyfrowej dopiero w zminiaturyzowanej technologii scalonej, natomiast nieużyteczny do pamiętania informacji analogowej.

Technologia elektroniczna w jej odmianie analogowej szybko została zastosowana w praktyce, mianowicie już na początku tego wieku jako urządzenia komunikacyjne: w postaci telegrafu, potem telefonu, a później - radia i telewizji. Ale też zauważalnie szybko technologia ta została wprzęgnięta do zapisu informacji na nośniku magnetycznym (drut stalowy). To już był element umożliwiający tworzenie dokumentacji. Prawdziwą rewolucję wprowadza jednak dopiero wynalezienie tranzystora, a wkrótce i kolejnych generacji układów scalonych. Bardzo szybko miniaturyzuje się świat analogowej elektroniki użytkowej: najpierw pojawiają się kieszonkowe radia tranzystorowe, potem przenośne telewizory turystyczne, potem amatorskie magnetowidy i kamery video. Od samego początku jasnym było, że choć ważna jest sama przekazywana wiadomość, to skuteczność komunikacji krytycznie zależy od możliwości akumulacji przez odbiorcę dużej ilości informacji. Pojawiła się więc konieczność zapisu komunikatów. Telegraf pozwalał zarejestrować to na taśmie w kodzie Morse’a, jego syn - dalekopis - w postaci gotowego do odczytu tekstu drukowanego, jego wnuk - fax - był w stanie już przesłać grafikę.

Trudno jest jednak precyzyjnie zdefiniować to, co moglibyśmy uznać za dokument elektroniczny. O trudnościach towarzyszącym próbom nadania jednoznacznej interpretacji temu terminowi pisał stosunkowo niedawno Daniłowicz [1998]. Przyjrzyjmy się, jak w obszarze swych zainteresowań podchodzi do tego zagadnienia Sprague proponując krótkie definicje:

Użyty przez Sprague'a termin „elektroniczny” nie wydaje się być przekonywujący. Zachowajmy się bardziej energicznie: zajrzymy do tekstu Internet Growth and Development Act, wprowadzonego do Izby Reprezentantów Kongresu USA w 1999 r i zarejestrowanego pod numerem H.R.1685. W sekcji 101 Definicje znajdziemy pewien obszar interesujących nas terminów:
(2) ŚRODKI ELEKTRONICZNE - Termin 'środki elektroniczne' zawiera w sobie wszystkie formy komunikacji elektronicznej za pośrednictwem komputera, włączając w to komunikację telefoniczną, facsimile, pocztę elektroniczną, wymianę danych elektronicznych, łączność satelitarną, kablową i światłowodową.
.....................
(4) PODPIS ELEKTRONICZNY - Termin 'podpis elektroniczny' oznacza każdy symbol elektroniczny, lub ciąg symboli, utworzony lub przetworzony przez komputer, który w intencji strony używającej go (lub upoważnionej do jego użycia) ma mieć tą samą siłę sprawczą oraz efekt, co i ręczny podpis.

Prawie wszystkie definicje pojęć obdarzonych przymiotnikiem 'elektroniczny' odwołują się do komunikacji. Jednak nie wydaje się to konieczne. Mało tego - w pewnych przypadkach może to prowadzić do fałszywej interpretacji. Tak na przykład próba definicji postaci:

Dokumentem elektronicznym nazywamy każdy obiekt dający się przesłać w wyniku komunikacji pomiędzy komputerami mogła by prowadzić do zakwalifikowania zwykłego klucza do zamka wejściowego do drzwi jako dokumentu elektronicznego - co wydaje się być zupełnym nieporozumieniem. Bowiem w myśl przytoczonej, roboczej definicji można zaprojektować system replikowania na odległość kluczy przy pomocy frezarek numerycznych. W ramach tego hipotetycznego żartu dwoje małżonków - naukowców opuszcza dom i wyjeżdża na dwie różne konferencje międzynarodowe. Żona ma wrócić pierwsza, ale spostrzega w dzień odlotu, że przed wyjazdem nie zabrała kluczy do mieszkania, bo wyjeżdżający później mąż odwoził ją samochodem na lotnisko. Dzwoni więc do męża na komórkę: 'Skocz do United Replication Service i skopiuj mi swój klucz na oddział w Nowym Yorku. Tylko pospiesz się, bo mam samolot za 3 godziny'. Jakoż w okienku URS na lotnisku odbiera replikę mężowskiego klucza typu YALE - ale przecież to uczciwa, metalowa replika klucza, a nie żaden dokument elektroniczny, chociaż całą cyfrową transakcję załatwiły między sobą dwa komputery sterujące serwomechanizmami. Replika ta praktycznie nie posiada takiej samej struktury krystalograficznej jak oryginał, ale to nie jest ważne. W oryginale zawarta była informacja o kształcie. Tu nie jest też ważne, jaka kombinacja technologii (mechanicznej, optycznej, sonometrycznej itp.) była użyta do rozpoznania kształtu oryginalnego klucza i czym posłużono się do przesłania tej informacji. Istotne jest to, jak uzyskaną replikę bada urządzenie końcowe użytkownika - zamek w jego drzwiach. W przypadku tradycyjnego zamka YALE rozpoznaje on kształt wycięć na kluczu metodą mechaniczną, nie korzystając z rozpoznawania wzbudzonych stanów materii klucza, jakakolwiek byłaby natura tego wzbudzenia.

Koniecznością wydaje się więc oderwanie pojęcia dokument elektroniczny od pojęcia komunikacja i skupieniu się na aspekcie zapisu i odczytu informacji. Takie podejście powinno objąć to, co realizuje się w ramach wszystkich najpopularniejszych obecnie form zapisu: magnetycznej i optycznej i elektrycznej, i odwołujące się zarazem do możliwie ogólnej definicji dokumentu. W bardzo wielu punktach trafnie rozwiązuje ten temat propozycja ustawy amerykańskiej H.R. 2626 (patrz Załączniki), która przymiotnik „elektroniczny” definiuje jako: „odnoszący się do technologii mającej cechy elektryczne, cyfrowe, magnetyczne, optyczne, elektromagnetyczne, lub inne bez względu na nośnik. Autor tej propozycji niepotrzebnie wymienił osobno cechy magnetyczne i elektryczne, dalej wymieniając elektromagnetyczne, oraz niesłusznie skojarzył elektronikę z każdym rozwiązaniem cyfrowym. Tu należy przypomnieć, że stosunkowo niedawno w Wielkiej Brytanii zrekonstruowano i uruchomiono całkowicie mechaniczny komputer Charlesa Babbage’a, bez najmniejszego śladu elektroniki.

Potrzebą chwili staje się też pewna dywersyfikacja dokumentów w zależności od natury zapisu, a to z uwagi na zabiegi technologiczne mające na celu uzyskanie możliwie wysokiej trwałości zapisu.  Oto propozycja klasyfikacji, którą można wyprowadzić z powyższych rozważań:

Definicja 1
.

Dokumentem elektronicznym pierwotnym nazwiemy nie przetworzony, trwały zapis informacji naniesionej na dowolny nośnik przy pomocy fal elektromagnetycznych, a stanowiący obiekt poznania. Przykłady: utajony (nie wywołany) obraz w klasycznej fotografii na materiałach halogeno-srebrowych, nagrania na taśmach magnetycznych, dyskach optycznych wypalanych laserem i magnetooptycznych, zapis informacji w strukturach półprzewodnikowych pamięci cyfrowych programowanych elektrycznie (PROM, EPROM, EEPROM)

Definicja 2.

Dokumentem elektronicznym wtórnym nazwiemy produkt technologicznego (np. fizycznego lub chemicznego) utrwalenia niestabilnego zapisu zrealizowanego przy pomocy fal elektromagnetycznych, bez zmiany podłoża. Przykłady: klasyczna fotografia otrzymana na materiałach srebrowych po procesie wywoływania i utrwalania, fotolitografia po wypłukaniu nienaświetlonego fotorezystu, obraz na bębnach drukarek laserowych i kserografów po przeniesieniu tonera na bęben.

Definicja 3.

Dokumentem elektronicznym pochodnym nazwiemy produkt technologicznego przeniesienia pierwotnego dokumentu elektronicznego na inne podłoże z zachowaniem technologii zapisu przy pomocy fal elektromagnetycznych. Przykłady: produkt przeniesienia stanu matrycy CCD kamery cyfrowej do pamięci Flash, fotograficzna odbitka pozytywowa uzyskana z negatywu w procesie wykorzystującym naświetlanie materiału pozytywowego. Kontrprzykład: dokumentem elektronicznym pochodnym nie jest odbitka wytworzona w dyfuzyjnym fotograficznym procesie stykowym prowadzonym bez udziału światła (jak np. w starej technologii DOKUFO).

Trudno tu ocenić, czy te definicje przyjmą się, czy też nie. Podobnie jak niemal każda inna definicja, z biegiem czasu będą one odkrywać swoje wątpliwe strony.

W powyższym zestawieniu mamy zarówno przykłady zapisu analogowego, jak i cyfrowego - tu istotnym elementem jest technologia zapisu (rejestracji). W definicjach tych nie jest ważny nawet sposób odczytu: klasyczna fotografia jest rejestrowana przy pomocy fal elektromagnetycznych, jej odczyt tradycyjnie jest wizualny - a więc przez analizę odbitych od fotografii fal elektromagnetycznych. Jednak, w innym eksperymencie, można wytworzyć w warstwie fotorezystu niewidoczny dla oka obraz przy pomocy naświetlania podobnego jak w klasycznej fotografii, a następnie wypłukać nie naświetlony fotorezyst i poddać podłoże procesowi trawienia chemicznego. W wyniku tego powstanie relief, który może być badany dotykowo i to zarówno przez osoby widzące, jak i niewidzące. A więc w tym drugim przypadku, obraz pewnej rzeczywistości naniesiony w pomocą fal elektromagnetycznych po przetworzeniu (trawienie) może być dalej badany bez udziału fal elektromagnetycznych, np. mechanicznie. Jeżeli w wyniku kolejnych operacji technologicznych zachowana zostaje oryginalna warstwa, w której został wytworzony przy pomocy fal elektromagnetycznych pierwotny obraz, to nadal dokumentowi winien przysługiwać przymiotnik "elektroniczny". Nie będą natomiast dokumentami elektronicznym takie produkty. jak wydruk z drukarki laserowej, czy kserokopia. Będą to zwykłe dokumenty pochodne, ale nie dokumenty elektroniczne pochodne.

Z przytoczonych przykładów widać, że powyższe definicje są wystarczająco szerokie i można traktować je jako roboczy punkt wyjścia do szukania nowych, być może bardziej szczęśliwych definicji dokumentu elektronicznego.

Dokument cyfrowy
Definicja 4.
Dokument cyfrowy jest to dowolny dokument zakodowany przy pomocy dowolnego systemu liczbowego i dostępny do wszelkich transformacji cyfrowych. Przykłady: program w notacji RPN dla kalkulatora HP-41C zapisany kodem paskowym w podręczniku programowania, plik w formacie MS Word 2000 (*.doc) zapisany na dysku komputera osobistego, zdjęcie cyfrowe zapisane w pamięci Flash.

Utożsamianie dokumentów cyfrowych z dokumentami elektronicznymi stało się swego rodzaju obsesją obecnej epoki. Przytoczona wyżej definicja dokumentu cyfrowego nie czyni żadnej aluzji do technologii zapisu czy też odczytu informacji. Pierwszy podany w niej przykład (zapisany kodem paskowym program w notacji RPN) - to dokument sporządzony zwykłą techniką drukarską na papierze - dokument o treści widocznej nieuzbrojonym okiem. Producent HP-41C wyposażył kalkulator w piórowy skaner optyczny do czytania kodu paskowego - ale jest to opcjonalna metoda wpisywania, pośrednicząca pomiędzy tradycyjną, fizyczną postacią dokumentu cyfrowego, a elektroniczną naturą kalkulatora.
Innym przykładem dokumentu cyfrowego, nie będącego dokumentem elektronicznym, jest tak popularna jeszcze niedawno papierowa taśma perforowana (rysunek 38)

Rysunek 38. Dokument cyfrowy nie będący dokumentem elektronicznym. Papierowa taśma perforowana. Obraz tego dokumentu zaaranżowano w postaci tabelki.














o

o


o
o
o
o
o
o
o

o
o
o

o
o
o
o
o


o

o
o
o
o

o
o


o
o
o
o

o
o
o
o
o





o
o
.
.
.
.
.
.
.
.
.
.
.
. .
o
o

o

o
o
o


o

o


o
o
o


o


o
o
o
o
o

o


o
o
o
o
o

o

Obydwa wyżej wymienione przykładowe dokumenty zostały sporządzone na papierze, odmiennymi technikami, nie muszącymi mieć jakiegokolwiek kontaktu z elektroniką i mogą być zdekodowanc nawet „na piechotę", bez żadnych środków technicznych.

Perforowana taśma oferuje niską gęstość zapisu. Współczesne oprogramowanie PaperDisc™ (http://www.paperdisk.com/aboutpd6.htm) oferuje dużą gęstość zapisu na papierze w oparciu o dwuwymiarowy kod plamkowy, pozwalającą zmieścić 900 stron tekstu na pojedynczej kartce o wymiarach 8,5x11" (Bajty o przedłużonej trwałości, Teleinfo Nr 36/2001:29).

Nieco inaczej przedstawia się sprawa zapisanego na dysku pliku tekstowego zredagowanego pod wybranym edytorem. Miniaturyzacja zapisu odbywa się przez precyzyjne ogniskowanie silnego pola elektromagnetycznego na małej powierzchni. Towarzyszy temu strukturalizacja rozkładu informacji na fizycznym nośniku. Miniaturyzacja i strukturalizacja narzucają konieczność posłużenia się miniaturowymi detektorami o nienagannie wystandaryzowanych parametrach, obudowanymi mechaniką, precyzyjną! elektroniką oraz dodatkowo wspartymi odpowiednim oprogramowaniem. Taki plik zapisany na dysku nazwiemy elektronicznym dokumentem cyfrowym. Ma on wszystkie cechy obydwu zdefiniowanych wcześniej dokumentów: elektronicznego i cyfrowego. To właśnie ten typ dokumentu ma na myśli większość ludzi, posługujących się terminami „dokument elektroniczny" i „dokument cyfrowy".

Nie należy przypuszczać, że jedyną technologią, w ramach której można zbudować komputer, jest technologia elektroniczna. W roku 1991 w Wielkiej Brytanii zrekonstruowano, dokładnie według planów wynalazcy, „napędzany" korbą, całkowicie mechaniczny komputer, Dijference Engine No. 2, zaprojektowany pod koniec ubiegłego wieku przez sławnego Charlesa Babbage'a. Ku sporemu zaskoczeniu realizującego zespołu, mechaniczny komputer wyposażony w mechaniczny procesor i mechaniczną pamięć działał nienagannie. W dwa lata po zbudowaniu go postanowiono przeprowadzić zawody pomiędzy tym genetycznie odtworzonym dinozaurem wczesnej epoki informatyki oraz notebookiem Cannon BN22 (i486, 25 MHz). Dla pobudzenia ciekawości Czytelnika nie omówimy tu wyników tego fascynującego projektu. Więcej szczegółów na ten temat można znaleźć na sieci pod URL:
http://www.sciencemuseum.org.uk/collections/exhiblets/babbage/start.asp.
Uwagi godne jest także to, że komputer mechaniczny nie powinien się kojarzyć wyłącznie z archaiczną technologią. Problematyka ta jest bardzo aktualna w związku z rozwojem nanotechnologii i wiele interesujących informacji na ten temat można znaleźć w artykule Raipha Merkle [1993]. Dostępna jest też wersja sieciowa tego tytułu: http://www.zyvex.com/nanotech/mechano.html.

Natura dokumentu. Cyfrowo-analogowo-elektroniczna kość niezgody

Kopernik, ucząc się geometrii sferycznej, nie miał pojęcia o elektronice i nie miał nawet kalkulatora. A jednak obiekty, którymi się zajmował, były reprezentowane przez liczby, a jego instrumenty astronomiczne były swojego rodzaju przetwornikami ana-logowo-cyfrowymi. Mówiąc jeszcze inaczej, Kopernik poddał digitalizacji nieboskłon i zapisał swe wyniki we wspaniałym dokumencie. De revolutionibus jest jednak dokumentem hybrydowym: jedna część obrazu zapisanej rzeczywistości ma postać cyfrową (tekstową), druga część - np. rysunki - postać analogową.

Autor niniejszego opracowania jest zdecydowanym przeciwnikiem powszechnie dziś odczuwalnego chaosu terminologicznego. Oryginalność autorska coraz częściej przejawia się radosnym entuzjazmem w zakresie tworzenia nowych nazw lub przypisywaniem nowych znaczeń nazwom już istniejącym a posiadającym dobrze zdefiniowaną semantykę. Ta żonglerka słowami najczęściej odbywa się bez większej dbałości zarówno o wiedzę technologiczną, jak i historyczną. Z natury rzeczy na pokusę łatwizny interpretacyjnej znacznie bardziej narażeni są w tym zakresie humaniści niż technicy. Z zamiarem wyjaśnienia zakresów stosowania kilku popularnych terminów zestawiona została poniższa tabela.


Tabela 18. Przykłady realizacji dokumentów analogowych i cyfrowych w różnych technologiach zapisu. Opracowanie własne

Technologia zapisu
Natura dokumentu
analogowa
cyfrowa
mechaniczna
fonogram edisonowski
taśma perforowana
magnetyczna
taśma magnetofonowa
taśma DAT
optyczna
ścieżka dźwiękowa na taśmie filmowej
CD-RW
elektryczna/elektroniczna
relief litofotografii elektronowej
BIOS zapisany w pamięci PROM

Na podobieństwo fizyki podstawowy podział dokumentów wykreślimy ze względu na ich naturę. Jak wiadomo, fenomen światła może się manifestować ujawniając swą korpuskularną (w efekcie fotoelektrycznym) lub falową (w interferencji) naturę. W pierwszym przypadku światło zachowuje się tak, jak gdyby stanowiło strumień rozpędzonych cząstek materii, dysponujących masą i pędem. W drugim - zachowuje się tak, jakby wypełniało przestrzeń ciągłym polem, z okresowo - ale w sposób ciągły - zmieniającymi się jego charakterystykami. Tak więc przyjmiemy, że dokumenty mogą mieć naturę cyfrową lub naturę analogową.

Należy unikać sformułowań „nośnik cyfrowy" czy też „nośnik analogowy". Na danym nośniku na ogół zawsze można zapisać zarówno sygnał cyfrowy, jak i analogowy. Czyste, nieperforowane karty do dawnych komputerów klasy mainframe często używane były przez humanistów w charakterze fiszek. Fakt, że producent wyprodukował karty pod kątem widzenia tworzenia w trybie mechanicznym dokumentu cyfrowego, kodowanego w kodzie Holleritha, nie miał tu żadnego znaczenia. Osoba wypełniająca treścią te niestandardowe fiszki dokonywała wpisu ręcznie, lub na maszynie do pisania.

Atrybut "elektroniczny" winien być kojarzony ze sposobem (technologią) odczytu lub zapisu. Niejednokrotnie ten sam dokument (np. taśmę perforowaną) można odczytać różnymi sposobami.

[35]Pierce nie podaje tytułu książki, ale najwyraźniej ma na myśli Gadsby wydaną przez Wetzel Publ,Co.Inc . w Los Angeles. Próbkę tekstu z dwóch stron pierwszego rozdziału tej książki można znaleźć na sieci pod URL: http://www.lhup.edu/~dsimanek/gadsby.htm

[36]Nie należy uznawać tego sformułowania za definicję typu prostego. Trzeba pamiętać, że już od dawna komputery dzielono na skalarne oraz wektorowe, w zależności od tego, na jaki rodzaj przetwarzania była optymalizowana ich architektura. Obecnie żyjemy w epoce bardzo szybkich zmian technologicznych i współczesne procesory komputerów osobistych mają już wbudowane elementy obsługi artytmetyki wektorowej.

[37]W tekście przeznaczonej dla bibliotekarzy pracy "Struktura danych bibliograficznych w zintegrowanych systemach bibliotecznych" (Paluszkiewicz [1997] na stronie 9 wkradła się nieścisłość. Sformułowanie "Podstawowym elementem pliku jest rekord" tylko niekiedy jest prawdziwe.

[38]Dyskietka o pojemności 1,44 MB zawierająca pliki unixowe nie da się „zwyczajnie” odczytać pod DOSem, czy pod MS Windows. W przypadku zaistnienia takiej potrzeby należy się posłużyć funkcją eksportu plików do określonego systemu operacyjnego, lub importu ich z określonego systemu operacyjnego. Pod tym względem znacznie dogodniejsze jest posłużenie się protokołem FTP i transferem plików poprzez sieć.

[39]Pragniemy przypomnieć, że w odniesieniu do znaków zapisanych na klawiaturze komputera niekiedy błędnie stosuje się pojęcie „alfabetu łacińskiego”. Godzi się tu przypomnieć, że klasyczna łacina miała alfabet oparty na 21 literach, zapożyczając od Greków z biegiem czasu litery B, D, O, X, a w I wieku n.e. dodano litery Y i Z. Litery V i U nie były rozróżniane, a litery J oraz W w ogóle w łacinie nie występowały.

[40]Jest ona opisana w podręczniku MS DOS pod hasłem ANSI.SYS

[42]Europejski system numeracji towarów (EAN) został wprowadzony w 1978 r. Jego popularne wersje to kodowanie 8-mio cyfrowe (EAN 8) oraz kodowanie 13-to cyfrowe (EAN 13). Specjalna wersja kodu EAN 13 z 5-cio cyfrowym kodem uzupełniającym używana jest do kodowania numerów ISBN na wszystkich książkach (ta wersja kodu znana jest pod nazwą Bookland).

[44]System ten nazwany został przez Ramana na cześć jego psa-przewodnika: stąd tytułowa nazwa książki.

[45]Przystępując do transkrypcji przytoczonych w książce Ramana fragmentów interpretacji wzoru de Bruno spostrzegłem błąd w złamaniu tekstu. Po sprawdzeniu zarówno źródłowego zapisu w książce Knutha, jak i przesłuchaniu udostępnionych na Sieci przez Ramana (1994) plików cyfrowych w formacie AU okazało się, że system poprawnie odtwarza wzór na kanale dźwiękowym a przekłamanie nastąpiło w wersji drukarskiej (prawdopodobnie przy konwersji z Postscriptu do TEX-a). W związku z tym powyżej przytaczany jest transkrypt z pliku audio dla wzoru, który w niniejszej książce ma numer 4.1, a u Ramana 4.5. Autor wyraża swą wdzięczność Jean Ward za uważną korektę transkryptu na podstawie pliku audio.

[46]Ten wiersz transkrypcji jest błędnie wydrukowany w książce Ramana

[47]Ostrzegamy przed przykrymi konsekwencjami nieostrożnego przypisania znaków do następujących kombinacji klawiszy: Ctrl C, Ctrl S, Ctrl X, Ctrl V.

[48]Firma była głównym wykonawcą projektu CHASE, w ramach którego opracowano szereg narzędzi do ułatwienia bibliotekom migracji do Unicode'u (Fisk 1998]) i obecnie zajmuje się promocją uzupełniania opisu bibliograficznego o alternatywne skrypty w języku oryginału.

[49]Wierne tłumaczenie z oryginału. Poprawnie należałoby użyć zwrotu 'alfabet angielski'

[50]W dalszym ciągu na użytek tej książki będziemy stosować konwencję: Unicode - standard, unikod - kod znaku spełniający wymagania standardu.

[51]Jest to wierne tłumaczenie zapisu definicji [Unicode 1998]. Na użytek tej książki przyjmiemy jednak jednolitą konwencję opisu, zgodną składniowo z zapisem rekomendowanym przez Unicode dla znaków łacińskich/angielskich, tj. U+nnn CJK UNIFIED IDEOGRAPH X, gdzie X - jest ideogramem

[53] Институт наследия Бронислава Пилсудского при Сахалинско<государственно< областно< краеведческо< <узее, Южно-Сахалинск

[54]Ekonomiczne problemy związane z publikacją czasopism w Internecie dyskutowane były m.in. przez Okerson [1998], Garson [1998] oraz O'Donnella [1998]

[55]Autor niefortunnie użył spójnika"i". Obydwa standardy połączyły się w jeden. Cytuję książkę referencyjną: "Cel, jakim było połączenie Unicode Standard oraz ISO/IEC 10646 UCS-2 (to jest ISO/IEC 10646 UCS-2 BMP) został zrealizowany. Programiści i użytkownicy systemów powinni traktować wartości kodów znaków zapisanych w Unicode Standard, UCS-2 oraz BMP jako identyczne, szczególnie w zakresie transmisji surowych zbiorów danych przez granice systemów" (Unicode 1998, Załącznik C-4 The Unicode Standard and ISO/IEC 10646, str. C-3). Tak więc terminami ISO/IEC 10646 oraz Unicode należy posługiwać się w praktyce jako synonimami. Pewne różnice pomiędzy standardami nie dotyczą kodowania, ale implementacji dotyczących transmisji wielobajtowej (patrz także Załączniki: C.5 The Unicode Standard as a Profile of 10646, C.6 Character Names, C.7 Character Functional Specifications).

[58]Dokładnie mówiąc‘dokumentem rodzicielskim’ staje się dopiero produkt przetworzenia głosu lektora w pakiet oprogramowania znany jako TTS (ang. Text-To-Speech converter : konwerter tekstu do mowy). W dalszym ciągu będzie on zbiorczo reprezentowany przez termin ‘syntezator mowy’

[59]por. Dąbrowski [1998], Barański [1999], Zyska [1999].

[60]datacytowana za Ledley[1962].

[61]materialne dokumenty kodowane znane były już od dawna.

[62]wznaczeniu angielskiego terminu "resources"