Motto:
W ciągu dziesiątków tysięcy lat na wszystkich kontynentach języki rozwijały się, zmieniały i ginęły bez śladu, ponieważ ginęły mówiące nimi ludy, brak zaś było metody utrwalania tych języków dla potomności
David Diringer, „Alfabet czyli klucz do dziejów ludzkości”, 1972, strona 24
Znak i kod
Pojęcie znaku użytkowane jest w wielu
naukach, często przybierając szeroką gamę odcieni znaczeniowych.
Badaniem systemów znaków zajmuje się semiologia (por. Guiraud [1974]).
Na potrzeby niniejszego opracowania znakami nazywane będą elementy
pewnego zbioru, służące do tworzenia komunikatów. W bardzo wielu
językach cyfry są podzbiorem podstawowego alfabetu. Semantyka
określonego znaku na ogół nie jest jednoznaczna, lecz ma charakter
konwencji. Na marmurowej płycie grobowca Machiavellego w kościele
Świętego Krzyża we Florencji czytamy co następuje:
Z kontekstu wynika, że ciąg symboli
CIƆ̑IƆXXVII, pojawiający się w ostatnim wierszu napisu na grobowcu,
jest zapisem daty śmierci, a użytym w nim znakom alfabetycznym
przypisano nowe znaczenie. Zakończony kropką ciąg siedmiu symboli
ostatniego wiersza CIƆ̑IƆXXVII jest całkowicie równoważny ciągowi
znaków MDXXVII. Odpowiednik ten podajemy ze względu na potencjalne
użycie syntezatora mowy przy interpretacji wersji online. W zapisie
oryginalnym zamiast litery M oznaczającej tysiąc (por. Ifrah [1990,
strona 142]), występuje ciąg trzech dużych liter, z których pierwsza
jest dużą literą C, a druga dużą literą I. Trzecia litera ma graficzną
formę odwróconej o sto osiemdziesiąt stopni litery C. Znak ten zwany
antisigmą został wprowadzony około 2 tysiące lat temu przez cesarza
Klaudiusza na oznaczenie głoski będącej zbitką ps [Diringer op.cit.
strona 516]. Kod tej litery do chwili obecnej nie jest implementowany
na syntezatorach i z tego względu cytowany napis został poddany
transkrypcji. W podobny sposób występująca w zapisie oryginalnym
sekwencja dwóch znaków: litery I oraz litery antisigma, została
zastąpiona równoważną jej pojedynczą literą D.
A więc te same znaki w jednym miejscu
oznaczały litery – w innym liczby. Rzym nie był tu żadnym wyjątkiem:
taką numeracją alfabetyczną posługują się jeszcze dzisiaj Żydzi przy
pisaniu dat według swego kalendarza oraz przy numerowaniu ustępów i
wersetów Starego Testamentu lub stronic dzieł wydanych po hebrajsku
(Ifrah [op.cit., strona 160]).
Zdawać by się mogło, że znaki mające tak dobrze ustaloną semantykę jak cyfry, występując poza obszarem tradycji nie powinny zmieniać swego znaczenia. Wszakże zostały przez człowieka wymyślone do spełniania ściśle określonej roli. Nie jest to jednak prawdziwe. Agresywność subkultury rynkowej, a zwłaszcza reklamy, w pogoni za wszelkimi formami mogącymi zaskoczyć odbiorcę i swą odmiennością zwrócić uwagę potencjalnego klienta zmieniła i tę sferę znaczeniową. Oto trzy przykłady z kręgu języków: polskiego (operator telefonii komórkowej Idea), angielskiego i francuskiego:
Tabela 3. Zmiana znaczenia liczb w tekście
reklamowym.
Reklama | Tekstowa interpretacja reklamy | Fonetyczna alternatywa reklamy | Fonetyczna alternatywa reklamy |
zdjęcie trzech kobiet rozmawiających przez telefony komórkowe pod którym jest słowo "kciuki" | trzy mamy kciuki | trzymamy kciuki | trzymamy kciuki |
4 sale | four sale | for sale | Na sprzedaż |
O 20 sans O | O vingt sans O | Au vin sans eau | Przy winie bez wody |
Jak widać semantyka
znaków, z których buduje się liczby, już o dawna nie była ściśle
określona, a i obecnie styk świata cyfrowego z komercją pozostawia
różne drobne niejednoznaczności. Jednak w środowisku cyfrowym dobrym
obyczajem jest nie pozostawianie decyzji interpretacyjnych systemowi
lub aplikacji, lecz używanie różnego rodzaju podpowiedzi lub
formularzy, ułatwiających użytkownikowi podjęcie prawidłowej decyzji
interpretacyjnej.
Kodem nazwiemy wzajemnie jednoznaczne przyporządkowanie wszystkich
elementów pewnego skończonego zbioru odpowiednim elementom drugiego
skończonego zbioru. Jeżeli elementami jednego z tych zbiorów są liczby,
to kod nazywamy cyfrowym. W szczególności z różnych powodów kodowane
cyfrowo mogą być również cyfry/liczby. Tak np. w powszechnie stosowanym
w osobistych systemach komputerowych kodzie ASCII cyfrze 0
przyporządkowany jest kod dziesiętny 48, cyfrze 1 – kod 49 itd.
Przyczyny, dla których twórca kodu wybiera takie a nie inne
przyporządkowanie, są bardzo różne. W przypadku systemów
komunikacyjnych na ogół chodzi o skrócenie czasu przekazywania
komunikatów. W kodzie ASCII daleki od intuicji system kodowania cyfr
(jedynka nie ma kodu 1) wynika prawdopodobnie z najwyższego priorytetu
przypisanemu 32 kodom sterującym, dla których prosta struktura dekodera
gwarantowała najszybsze wykonanie stosownej instrukcji. Złożoność kodu
Morse’a dla danego znaku alfabetu jest odwrotnie proporcjonalna do
częstotliwości występowania kodowanego znaku w języku angielskim.
Najczęściej występująca w języku angielskim litera E jest kodowana
pojedynczą kropką. Takie „usprawnienie” wprowadzone na podstawie
czystej statystyki przez wynalazcę, w szczególnym przypadku może się
okazać spektakularnym niewypałem. Pierce [1967:63] podaje, że Ernest
Vincent Wright napisał w 1939 roku powieść, w której na 267 stronach
nie użył ani jednego wyrazu, w którym występowała by litera E. Mamy tu,
oczywiście, do czynienia z żartem literackim, nie zmienia to jednak
faktu, że kody dobre do jednych celów, mogą się okazać nieefektywne w
stosunku do innych celów [35].
Dla komputera
pamięć stanowi jednolitą masę bitów bez jakiejkolwiek widocznej
struktury. Prawdę tą przypomina nam Wirth [1989:17] i powinna ona
każdemu uświadomić, że interpretacja zawartości pamięci komputera
zależy od człowieka. Aby kiedykolwiek coś sensownego dało się wydobyć z
tej bezkształtnej masy, już na etapie pamiętania czegokolwiek komputer
musi wykonać coś, co doskonale jest znane każdemu biliotekarzowi:
skatalogować przechowywany zasób. I tu, podobnie jak i w wielu
bibliotekach, ekonomia obsady pamięci odgrywa dużą rolę. Dla nadania
pewnego porządku takiemu przedsięwzięciu we wszystkich językach
programowania definiuje się pewne typy danych, którymi wolno posługiwać
się programistom i użytkownikom. Z żalem trzeba powiedzieć, że ani
znaczenie (sens) poszczególnych typów danych, ani ich nazwy, nigdy nie
zostały ujednolicone. Najlepszym tego przykładem jest tabela,
porównująca typy danych obowiązujące w SQL, z typami danych
dopuszczalnymi w językach: Ada, C, Fortran, MUMPS, Pascal i PL/1
[Gruber, 1996, wewnętrzna strona tylnej okładki]. Bez specjalnego
ryzyka można przyjąć, że w znakomitej większości przypadków komputer
zaakceptuje następujące cztery typy danych prostych:
Typy te wymieniane
są przez Iglewskiego et al. [1986] jako standardowe w Pascalu, nie
wymagające osobnej deklaracji. Wymienione cztery typy proste są typami
skalarnymi. Z typów prostych możemy tworzyć typy okrojone przez
zdefiniowanie odpowiednich podzbiorów. Na przykład miesiące mogą być
symbolizowane liczbami należącymi do podzbioru liczb naturalnych nie
większych od 12. Są jeszcze inne racje, dla których wypada wyróżnić
wymienione wyżej typy danych. W tym celu przyjrzyjmy się pewnemu
aspektowi sprzętowemu wydarzeń, które mają miejsce w komputerze.
Głównym elementem
procesora, wymienionego przez nas wcześniej wśród składników systemu
cyfrowego, jest jednostka arytmetyczno - logiczna, JAL (ang.
Arithmetic-Logic Unit, ALU). Jak nie trudno się domyślić, jednostka ta
może wykonywać zarówno operacje arytmetyczne (dodawanie i odejmowanie)
jak i logiczne (alternatywa, koniunkcja, negacja); a także przechowywać
końcowy wynik operacji. Bez większego ryzyka można również przyjąć, że
niemal każda współczesna JAL ma zintegrowaną obsługę liczb
rzeczywistych na poziomie koprocesora arytmetycznego (w rodzinie
procesorów firmy Intel fakt ten ma miejsce począwszy od modelu 486).
W tej sytuacji widzimy, że współczesny komputer ma od swego urodzenia
(jak to się w żargonie informatycznym określa: natywnie) wbudowane
wykonywanie operacji arytmetycznych na dwóch typach liczb: całkowitych
i rzeczywistych, oraz operacji logicznych na parach bitów (suma
logiczna, iloczyn logiczny), lub pojedynczych bitach (negacja). Bez
specjalnych skrupułów możemy więc powiedzieć, że typem prostym jest typ
bezpośrednio obsługiwany przez sprzęt systemu
[36].
Dla znaków definiuje się operację konkatenacji (sklejania znaków,
tworzenia łańcucha znaków). Operacja ta jest intuicyjnie oczywista,
wynika z potrzeby tworzenia napisów oraz sekwencyjnej pracy większości
urządzeń zewnętrznych.
Danymi pochodzącymi
z typów prostych można się posłużyć dla utworzenia różnego rodzaju
danych zagregowanych. Będziemy mówili, że agregaty te należą do typów
złożonych. Klasycznym - rzec by można - przedstawicielem tego gatunku
jest data kalendarzowa: trzy liczby, z których jedna określa rok, druga
miesiąc, trzecia - dzień. Niestety - i w tym przypadku panuje niezgoda
wśród ludzi. W skali świata nie udało się doprowadzić do ustalenia, w
jakiej kolejności te trzy liczby powinny być zapisywane. Tak na
przykład w USA obowiązującą kolejnością jest: Miesiąc/Dzień/Rok.
Natomiast w Polsce w powszechnym obiegu stosuje się dwa zapisy
zwierciadlane względem siebie: Dzień/Miesiąc/Rok oraz
Rok/Miesiąc/Dzień, - jeśli nie podjąć tematu różnic w używanych
separatorach, czy innej rachuby czasu w poza-chrześciańskich kulturach.
Istnienie tych niejednoznaczności może w pewnych przypadkach prowadzić
do nieporozumień, a nawet być przyczyną poważnych strat materialnych.
Data kalendarzowa jest archetypem wektora - skończonego,
uporządkowanego ciągu pewnych obiektów, mających w komputerze swoją
cyfrową reprezentację. Jako przykład wektora możemy podać symboliczny
opis zasobów w poszczególnych jednostkach pewnej biblioteki:
Tabela 4. Tabela jednowymiarowa jako przykład wektora . Opracowanie
autora.
liczba
tytułów druków zwartych |
liczba
tytułów rękopisów |
liczba
roczników czasopism |
liczba
numizmatów |
liczba
wydawnictw kartograficznych |
Tabela 5. Tabela dwuwymiarowa. Przykład autora.
Czytelnia ogólna |
2550 |
0 |
30 | 0 | 25 |
Czytelnia czasopism | 120 | 0 |
175 |
0 |
|
Zbiory specjalne |
4961 | 384 |
22 |
974 |
634 |
Magazyn | 1332855 |
0 | 3879 |
0 |
226 |
Czytelnik zechce zauważyć, że dla wektorów obowiązują specjalne reguły,
opisujące wykonywanie operacji arytmetycznych. Po pierwsze dodawane
wektory muszą mieć identyczną liczbę składowych. Po drugie: suma dwóch
wektorów też jest wektorem o składowych, będących sumami odpowiednich
składowych dodawanych wektorów. Warto nadmienić, że niektóre procesory
mają wbudowane mechanizmy do sprzętowej realizacji operacji na
wektorach. Kilka wektorów ustawionych jeden pod drugim tworzy tablicę -
twór należący do kolejnego typu danych złożonych - typu tablicowego.
Albo może inaczej: wektor jest jednowymiarową tablicą. Tablice to
najpopularniejsze, złożone struktury danych, zbudowane z elementów tego
samego typu. Powyżej zapisana tablica była dwuwymiarowa. Nie nakłada
się żadnych formalnych ograniczeń na liczbę wymiarów tablicy.
Wszystkie elementy tablicy muszą być tego
samego typu. Jednak rzeczywistość nie składa się z zestawień wyłącznie
samych liczb, albo z samych tekstów. Było by to trudne do
zaakceptowania ograniczenie. Przeto wprowadza się swojego rodzaju
uogólnienie typu tablicowego i nazywa go typem rekordowym. Pojedynczy
rekord składa się z określonej liczby składowych zwanych polami, które
mogą być różnych typów. Tak oto definicyjnie przybliżyliśmy się do
obszaru, z którym wielu bibliotekarzy jest już nieco oswojonych.
W tym miejscu nie sposób przejść do
porządku dziennego nad sprawą nomenklatury. Termin rekord jest kalką
przeniesioną do nas z angielskiego. Podobnie jak w języku rosyjskim,
przekład tego terminu na polski nastręczał trudności. Przyczyn takiego
stanu rzeczy należy upatrywać w bogactwie możliwych technologicznych
kontekstów użycia tego słowa w języku angielskim. Wirth [1989]
przypomina pragmatyczne względy, dla których powołano to pojęcie i
wymienia cztery odcienie znaczeniowe tego terminu: zapis, rejestr,
nagranie, przechowywany zestaw informacji. Znakomitą analizę
semantyczną terminu electronic record
na gruncie języka angielskiego przeprowadził niedawno Morelli [1998].
Wnioski z tej analizy skłaniają do rezygnacji z używanego niekiedy w
Polsce terminu krotka i przyjęcia kalki rekord, jako pojęcia o dobrze
poznanej sferze znaczeniowej jej źródłosłowu.
Na końcu wymienimy niezmiernie ważny typ
plikowy. Pliki służą do wymiany informacji zarówno między dwoma
komputerami, jak i między komputerem a urządzeniem zewnętrznym. Na
wielkość plików nie nakłada się żadnych formalnych ograniczeń; oczekuje
się tylko, że plik bę dzie się składał z elementów tego samego typu.
Mamy więc pliki binarne, pliki tekstowe, pliki z zapisanym dźwiękiem,
pliki zawierające rekordy danych osobowych (np. kartoteki czytelników)
[37]. Każdy plik ma określonądługość i znacznik końca pliku (ang. End Of File, EOF). Z plikiem
należy kojarzyć operacje zapisu pliku oraz odczytu pliku. Trzeba
pamiętać, że pliki tworzone na jakimkolwiek nośniku zależą od systemu
operacyjnego, pod którym zostały wygenerowane. Fakt ten może stwarzać
pewne problemy przy przenoszeniu plików między odmiennymi systemami
operacyjnymi [38]. W dalszym ciągu, w
odniesieniu do technologii cyfrowej implementowanej w komputerach,
będziemy utożsamiać pojęcie pliku z pojęciem zbioru.
Bazy danych to termin, który jest
zakorzeniony w technologii komputerowej od bardzo dawna i głęboko już
wrósł w realia dzisiejszego dnia. Baza danych to zbiór wystąpień
różnych rekordów oraz opisów powiązań między rekordami, danymi
zagregowanymi i danymi elementarnymi [Martin, 1983:26]. Zagadnienie
projektowania, testowania i eksploatacji baz danych jest bardzo
złożone. Na łamach niejszej książki nie ma najmniejszych szans nawet na
fragmentaryczne naszkicowanie terminologii i z tych względów
poprzestaniemy na odesłaniu zainteresowanego czytelnika do
specjalistycznej literatury [Date 1981, Martin 1983, Gruber 1996]. Do
zagadnienia tego jednak odwołamy się w dalszym ciągu jeszcze raz,
omawiając dostęp do zasobów cyfrowych, aby nakreślić raczej mało znaną
bibliotekarzom problematykę logiki trójwartościowej.
Plik cyfrowy
identyfikuje się przez nazwę. W pierwszych wersjach systemu DOS na
nazwę nakładano dodatkowe ograniczenia. Nie mogła być ona dłuższa od 8
liter z repertuaru ASCII, cyfr oraz znaków interpunkcyjnych, plus co
najwyżej trzy-literowe rozszerzenie podawane po kropce. Restrykcje
nakładane na nazwę pliku zakazywały również używania 14 wyróżnionych
znaków:
. „ \ / [ ] : < > + = ; ,
W obecnych systemach te ograniczenia zostały znacznie zliberalizowane.
Warto jednak dodać, że swojego rodzaju ukłonem osób projektujących
złożone dokumenty internetowe jest nadawanie nazw w miarę możliwości
zgodnych ze starymi ograniczeniami DOSu. Pewnych kłopotów dostarcza
niekiedy transgraniczna wymiana plików. Pliki wykorzystujące w nazwach
kody przekraczające 128 (np. nazwy pisane cyrylicą) po zmianie
środowiska systemowego na ogół wymagają zmiany nazwy.
Jeżeli w systemie występuje struktura katalogów, to odwołanie się do
pliku na ogół zawsze wymaga podania pełnej specyfikacji pliku (to
znaczy nazwy poprzedzonej tzw. ścieżką dostępu do pliku). Przyzwyczaić
się tu trzeba do różnic pomiędzy Unixem a DOS i Windows. W tym
pierwszym przejście na inny poziom katalogu oznacza się znakiem /
podczas, gdy w dwóch pozostałych znakiem \ .
W miarę rozwoju technologii cyfrowej wytwórcy oprogramowania utrwalili
w użytkownikach obyczaj rozpoznawania typu pliku po rozszerzeniu jego
nazwy.
Tabela 6. Wybrane typy plików. Wybór autora.
Rozszerzenie |
Typ
pliku |
com |
plik wykonywalny |
exe |
plik wykonywalny |
bat |
plik wsadowy
(zbiór komend systemowych do automtycznego wykonania) |
sys |
plik systemowy
(zawierający informację o żądanej konfiguracji systemu) |
tmp |
plik pomocniczy |
txt | plik tekstowy
(w domyśle zawierający tylko znaki ASCII) |
doc |
plik tekstowy
formatowany (w zasadzie utożsamia się z plikiem zredagowanym pod którąś
z mutacji edytora MS Word) |
wp |
plik tekstowy
formatowany, zredagowany pod edytorem Word Perfect |
rtf |
plik tekstowy
formatowany zredagowany w formacie Rich Text Format |
htm, html | plik
hipertekstowy zredagowany w formacie HTML |
ps | plik w formacie
PostScript |
wav |
plik dźwiękowy |
au |
plik dźwiękowy |
jpg, jpeg |
plik graficzny
w formacie JPEG |
tif, tiff |
plik graficzny
w formacie TIFF |
Niesłychanie bogaty
alfabetyczny indeks stosowanych typów plików można znaleźć na sieci pod
URL:
http://whatis.techtarget.com/fileFormatA/0,289933,sid9,00.html.
Cyfrowy plik tekstowy podparty technologią uwierzytelnionego podpisu elektronicznego to kamień węgielny współczesnej gospodarki elektronicznej. Na mocy współczesnego ustawodawstwa autor tekstu cyfrowego nadaje swemu cyfrowemu podpisowi taką samą moc prawną, jak podpisowi odręcznemu, a przesłanemu tekstowi pełne cechy dokumentu de iure.
Podstawowym
rodzajem tekstu jest tekst niesformatowany. Tekst niesformatowany to
typowy tekst używany w tradycyjnej, unixowej poczcie elektronicznej.
Nie zawiera on żadnych wskazówek, mogących wpływać na stronę
prezentacyjną. To tekst monochromatyczny, mający ten sam typ, rodzaj i
wielkość czcionki. Zwykle też nie wykracza poza alfabet angielski
[39] choć oczywiście istniejeoprogramowanie, pozwalające na poziomie konsoli unixowej operować
pełnym zestawem czcionek narodowych całego świata.
Już w pierwszych zaawansowanych komputerach osobistych, pracujących pod nadzorem systemu CP/M istniała możliwość przypisania każdemu znakowi widocznemu na ekranie komputera ograniczonej liczby wyróżników (atrybutów): podkreślenia wyświetlanego znaku i wygaszenia jego jasności o połowę. Polegało to na tym, że pamięć ekranu zamiast 8-bitowego modułu, służącego do pomieszczenia wyświetlanego znaku miała moduł 9-bitowy. Ponieważ do wyświetlenia podstawowego zestawu znaków ASCII wystarczy 7 bitów, więc ósmy, standardowy bit był używany jako wskaźnik podkreślenia znaku, a dziewiąty, dodatkowy - jako wskaźnik kontroli jego jasności.
Włączanie i
wyłączanie pewnych atrybutów tekstu jest uzasadnione praktyką
poligraficzną i zostało unormowane przez ANSI w postaci tzw. sekwencji
escape. Pod nazwą tą kryje się sekwencja znaków sterujących ruchami
kursora, definiowaniem klawiatury oraz modyfikacją wyświetlacza
graficznego. Aktywizację mechanizmu tych sekwencji użytkownik mógł
wcześniej poznać w systemie DOS w związku z konfiguracją pliku
config.sys
[40]. Sekwencja escape zaczynasię niewidocznym na ekranie znakiem, generownym przez naciśnięcie
klawisza ESC (kod dziesiętny 27), po którym następuje ciąg parametrów.
Wymienimy kilka sekwencji escape ograniczonych wyłącznie do kontroli
monitora:
Tabela 7. Sekwencje escape. Wybór autora.
Atrybut
tekstu |
Sekwencja |
Wyłączenie wszystkich atrybutów | ESC [ 0 |
Wytłuszczanie (włączenie) |
ESC [ 1 |
Podkreślanie (włączenie) | ESC [ 4 |
Migotanie (włączenie) | ESC [ 5 |
Inwersja video (włączenie) | ESC
[ 7 |
Ukrycie tekstu (wyłączenie) | ESC
[ 8 |
W podobny sposób
można sterować kolorem tekstu i jego tła - w tabeli jest to drugi,
liczbowy parametr sekwencji escape, który w przypadku sterowania barwą
zmienia się w granicach od 30 do 47 (te sekwencje są już zgodne z normą
ISO 6429).
A więc dla tekstu można zdefiniować rodzaj fontu i jego wielkość, można
tekst lokalnie ukryć, ujawnić ukryty, spowodować jego migotanie,
podkreślić, pochylić (posłużyć się kursywą), zmienić jego barwę, - ale
można też określić język tekstu (ważne przy edytorach wyposażonych w
słowniki ortograficzne, oraz przy wielojęzycznych syntezatorach mowy).
Zamierzona kompozycja zespołu wyróżników (atrybutów) tekstu będzie
przez nas nazywana stylem tekstu.
Formatowanie tekstu
to nadanie mu żądanej formy, kształtu prezentacyjnego. Elementy, które
należy tu wyróżnić, to:
Skład tekstu ma na
celu końcowe przygotowanie tekstu do publikacji. Skład tekstu to
nałożenie stylów i formatowania na strukturę fizycznych wymagań
środowiska prezentacyjnego (drukarka, naświetlarka, ploter, ekran,
syntezator mowy). Produkt będący wynikiem składu musi być bezpośrednio
rozumiany przez urządzenie techniczne, realizujące finalną postać
publikacji.
Wybrany tekst
niejednokrotnie dobrze jest przedstawić w formie alternatywnej. Taki
zabieg służy wówczas konkretnemu celowi. Sens alternatywnego zapisu
jest natychmiast rozumiany, gdy chodzi np. o wydawnictwo drukowane
brajlem. Jednak tym razem zreferowana będzie alternatywna forma zapisu
ułatwiająca szybkie wprowadzanie zapisu do systemu cyfrowego. Mowa tu
będzie o bardzo już popularnej formie zapisu, zwanej kodem paskowym
(ang. bar code). Ten bardzo pożyteczny kod został zaprojektowany na
potrzeby handlu celem szybkiego przetwarzania informacji o towarze.
Obecnie rozpowszechnił się on na wiele innych dziedzin, znamy go dobrze
ze sklepów i chyba na dobre zadomowił się już w wielu bibliotekach.
Obecnie kod paskowy występuje w dwóch głównych odmianach:
jednowymiarowej i dwuwymiarowej. W tym ostatnim przypadku występują
zresztą zarówno wersje kropkowe (plamkowe), jak i paskowe.
Najpierw zreferowany będzie przypadek jednowymiarowy. Na początek małe
wyjaśnienie. Nawet w przypadku jednowymiarowym nie osiągnęliśmy takiego
poziomu standaryzacji, by na świecie użytkowany był tylko jeden,
jednowymiarowy kod paskowy. Już w tej chwili liczba ich jest znaczna.
Dużo pożytecznej informacji na ten temat można znaleźć na sieci:
Oto nazwy kilku
popularnych specyfikacji: kod 2 z 5 (ang. Code 2 of 5), kod 2 z 5 z
przeplotem (ang. Code 2 of 5 Interleaved), kod 3 z 9, kod 128 UCC/EAN
128, kod EAN 8/13
[42] , PostNet, UPC-A, UPC-E.Na przykładzie kodu "3 z 9" (trzy z dziewięciu) spróbujemy
przeanalizować jego budowę. Na wstępie przedstawimy tytuł niniejszego
paragrafu w symbolice zwykłego kodu ASCII oraz kodzie "3 z 9".
Tabela 8. Reprezentacja tekstu w symbolice ASCII oraz symbolice kodu "3
z 9" (opracowanie własne).
Font Lucida Sans Unicode 12 pts | Font 3 of 9 Barcode 36 pts |
Alternatywna | Alterna tywna |
wizualizacja | wizualizacja |
tekstu | tekstu |
Na kod ten składa
się sekwencja 5 czarnych pasków (p), między którymi są 4 białe odstępy
(o). Zarówno paski, jak i odstępy mogą występować w wersji szerokiej,
jak i wąskiej. W tej sekwencji szerokie muszą być trzy spośród
dziewięciu elementów (stąd nazwa kodu). Stosunek szerokości większego
elementu kodu (paska lub odstępu) do mniejszego nie jest standaryzowany
i powinien zawierać się w przedziale 2,25:1 do 3:1. Schemat ten daje
możliwość zakodowania 43 znaków, w tym cyfr, dużych liter alfabetu
angielskiego oraz znaków używanych w księgowości (+ - * / % . symbol
waluty - np. $ ). Do celów obsługi księgowej każdy pełen kod paskowy
powinien być poprzedzony znakiem początku kodu i zakończony znakiem
końca kodu. Dla kodu "3 z 9" rolę obydwu ograniczników odgrywa ten sam
znak kontrolny: jest to znak mnożenia (*). Poszczególne znaki tekstu
separowane są pojedynczym wąskim odstępem. Słowa zapisane w powyższym
przykładzie nie zawierają dopisanych ograniczników kodu. Przyjrzyjmy
się bliżej definicji tego kodu. W poniższej tabelce zestawiony jest
fragment kodu
Tabela 9. Fragment
specyfikacji kodu kreskowego 3 z 9 w postaci źródłowej i prezentacyjnej.
W - element wąski, S - element szeroki (opracowanie własne)
Znak |
Wartość |
p1 |
o1 |
p2 |
o2 |
p3 |
o3 |
p4 |
o4 |
p5 |
Postać prezentacyjna znaku |
0 |
0 |
W |
W |
W |
S |
S |
W |
S |
W |
W |
0 |
1 |
1 |
S |
W |
W |
S |
W |
W |
W |
W |
S |
1 |
2 |
2 |
W |
W |
S |
S |
W |
W |
W |
W |
W |
2 |
3 |
3 |
S |
W |
S |
S |
W |
W |
W |
W |
W |
3 |
4 |
4 |
W |
W |
W |
S |
S |
W |
W |
W |
S |
4 |
5 |
5 |
S |
W |
W |
S |
S |
W |
W |
W |
W |
5 |
6 |
6 |
W |
W |
S |
S |
S |
W |
W |
W |
W |
6 |
7 |
7 |
W |
W |
W |
S |
W |
W |
S |
W |
S |
7 |
8 |
8 |
S |
W |
W |
S |
W |
W |
S |
W |
W |
8 |
9 |
9 |
W |
W |
S |
S |
W |
W |
S |
W |
W |
9 |
A |
A |
S |
W |
W |
W |
W |
S |
W |
W |
S |
A |
B |
B |
W |
W |
S |
W |
W |
S |
W |
W |
S |
B |
C |
C |
S |
W |
S |
W |
W |
S |
W |
W |
W |
C |
D |
D |
W |
W |
W |
W |
S |
S |
W |
W |
S |
D |
E |
E |
S |
W |
W |
W |
S |
S |
W |
W |
W |
E |
F |
F |
W |
W |
S |
W |
S |
S |
W |
W |
W |
F |
G |
G |
W |
W |
W |
W |
W |
S |
S |
W |
S |
G |
H |
H |
S |
W |
W |
W |
W |
S |
S |
W |
W |
H |
odstęp |
W |
S |
S |
W |
W |
W |
S |
W |
W |
|
Kod paskowy może służyć do zapisywania
zarówno liter jak i cyfr. Pokazaliśmy powyżej, że tytuł niniejszego
paragrafu potrafimy zapisać kodem paskowym na papierze. Zrobiliśmy to
przy pomocy komputera i drukarki, ale całkiem nieźle mogło by nam się
to udać przy pomocy dwóch precyzyjnych rapidografów różnej szerokości,
albo odpowiednio przygotowanych na frezarce matryc celuloidowych oraz
czarnej farby w aerozolu. I w takich wersjach ten zapis cyfrowy
naprawdę nie miał by nic wspólnego z komputerem, czy elektroniką. Do
odczytania tego kodu potrzebna jest tylko kompletna tabelka jego
definicji. Jak nie trudno sobie wyobrazić, odkodować go można przez
wizualne porównanie zapisu z tabelą kodu, choć z pewnością jest to
żmudne i powolne. Podobnie zapis cyfrowy, na przykład "czysty" zapis
binarny możemy zrealizować praktycznie na dowolnym nośniku, bez związku
z jakąkolwiek elektroniką. Można wykuć w granicie ciąg zer i jedynek,
albo kropek i kresek, umownie przedstawiających poszczególne bity. I to
będzie znakomity, bardzo trwały zapis cyfrowy. Dla posiadacza takiego
zapisu realnym problemem będzie tylko to, jak sprawnie odczytywać i
przetwarzać zapisaną informację. I tu elektronika pokazuje swoje
prawdziwe zalety. Tym nie mniej konkluzja jest klarowna: zapis cyfrowy
może być zrealizowany w różnych technologiach. Jedną z nich, ale nie
jedyną i nie wyłączną, jest technologia elektroniczna. Są jednak
również inne technologie zapisu cyfrowego, a przykładem takiego zapisu
jest kod paskowy. Nie inaczej było z technologiami perforacji kart i
taśm papierowych używanych jeszcze w latach 80-tych do wprowadzania
cyfrowych danych do komputerów i sterowania obrabiarek numerycznych, a
również amerykańskich kart do głosowania w czasie wyborów prezydenckich
w roku 2000.
Jednowymiarowy kod paskowy ma jednak swoje
ograniczenia. Do podstawowych ograniczeń należy repertuar
dopuszczalnych symboli, które podlegają kodowaniu. Dokuczliwość tego
ograniczenia udało się znacznie zmniejszyć przez wprowadzenie kodowania
dwuwymiarowego. Nie ma tu nic zaskakującego, że tym sposobem kodowania
bardzo interesują się kraje dalekowschodnie. Jako przykład takiego kodu
podamy kod QR (od ang. Quick Response Code), opracowany przez
Nippondenso ID Systems i udostępniany w klasie licencji publicznych
(ang. Public Domain). Kod ten jest tworzony w postaci kompozycji trzech
narożnych symboli, określających przestrzenną orientację kodu, oraz
pola danych. Kompozycja ta wypełnia kwadrat małymi komórkami, również o
kształcie kwadratu. Maksymalny rozmiar matrycy kodu QR to 177
modularnych kwadratów zdolnych zakodować 7366 znaków numerycznych lub
4464 znaków alfanumerycznych. Ważną cechą tego kodu jest możliwość
bezpośredniego kodowania znaków znajdujących się w japońskich
sylabariuszach (kanji, kana). Osobom niewidzącym polecamy
wyłącznie identyfikację symboli przestrzennej orientacji kodu. W
analizowanym tu przykładzie są to trzy kwadraty o rozmiarze 7 na
7 komórek. Każdy symbol składa się z jednokomórkowej, ciemnej (w naszym
przykładzie granatowej) "skórki", jednokomórkowego, jasnego "miąższu"
oraz ciemnej "pestki" o rozmiarze 3 na 3 komórki. Dla ułatwienia
identyfikacji do ciemnych komórek wpisana została mała litera "c",
natomiast komórki wypełnione jasnym tłem są puste. Wszystkie trzy
symbole przestrzennej
orientacji kodu oddzielone są
jednokomórkowym, jasnym pasem od pola danych. Rozkład zaciemnionych
komórek w polu danych generowany jest algorytmicznie i dla postronnego
obserwatora jawi się jako czysto losowy, nie niosący żadnej informacji.
Rysunek 21. Dwuwymiarowy kod towarowy QR. Opracowanie własne na podstawie materiałów użyczonych autorowi przez Nippon Denso
|
Kod ten, podobnie jak i kilka innych kodów, ma możliwość korekcji błędów wywołanych uszkodzeniem zapisu lub defektem urządzenia odczytującego. Dzięki posiadanej nadmiarowości, oryginalnie zapisana przy pomocy tego kodu informacja może być poprawnie odtworzona przy częściowym zniszczeniu, uszkodzeniu lub zabrudzeniu zapisu. Jak widać z przytoczonego przykładu, rozmiar powierzchni kwadratu zajmowanego przez kod dwuwymiarowy zwiększa się w miarę wzrostu liczby kodowanych bajtów (pojedynczy znak kanji kodowany jest na 3 bajtach)
Hipertekst to uogólnienie klasycznego
tekstu w środowisku cyfrowym. Elementami odróżniającymi hipertekst od
tekstu są:
Dokumenty hipertekstowe przygotowuje się
obecnie w kilku różnych standardach, wywodzących się ze wspólnego
rdzenia: normy ISO 8879 definiującej Standard Generalized Markup
Language (SGML). Największą popularność na świecie zdobył sobie jego
dialekt o nazwie HTML (Hyper Text Markup Language), najnowszą odmianą
jest XML (Extensible Markup Language). Przykładami przeniesień
koncepcji SGML na inne obszary zastosowań może być język opisu
rzeczywistości wirtualnej VRML, lub języki opisu mówionego tekstu SSML
[Taylor 1997] i STML [Sproat 1997]. W dalszym ciągu nie podejmiemy
dawno zapoczątkowanej dyskusji na temat wad i ograniczeń tak
niewiarygodnie dziś popularnego dialektu SGML jakim jest HTML. Ma on w
istocie sporo wad, z których niektóre są postrzegane jako zalety. Tak
na przykład liberalność przeglądarek hipertekstowych, interpretujących
wyłącznie poprawne składniowo fragmenty publikacji, a ignorujące
fragmenty niezgodne z implementowaną składnią, jest uważana za zaletę.
Taka implementacja interpretuje co prawda publikacje zawierające błędne
konstrukcje składniowe (te są w zasadzie ignorowane przez
przeglądarki), ale zarazem interpretuje znaczne, "klasyczne" fragmenty
publikacji przygotowanych w nowszych mutacjach formatu HTML, jeszcze
przez przeglądarkę nie zaimplementowanych. Daje to szanse szybkiego
rozwoju formatu z niewielkim uszczerbkiem dla jakości publikacji.
Liczba publikacji stosująca format HTML przekracza o rzędy wielkości
liczbę publikacji w pozostałych formatach i trzeba być wyjątkowo
naiwnym, by wierzyć w realność migracji tych publikacji do formatu XML
w skali globalnej. Na to jest już za późno. Można tu się chyba zgodzić,
że zwykle wygrywa narzędzie proste, bardziej prymitywne, za to masowo
stosowane.
Formatowanie hipertekstu polega na wpisaniu
explicite stylów i dyrektyw formatujących w zwykły tekst. Jest to
ogromna zaleta, zważywszy, że komercyjne produkty na ogół oferują tekst
zakodowany, zazdrośnie chroniąc swych warsztatowych tajemnic. Taki
"otwarty" plik tekstowy jest niesłychanie bezpieczny dla właściciela -
edytować go można niemal "byle czym". Nie zamierzamy przeprowadzać tu
kursu formatowania tekstu w standardzie HTML - można to znaleźć w
licznych, dostępnych od kilku lat na rynku księgarskim książkach
[Macewicz 1996, Taylor 1996]. Czytelnikowi wrogo nastawionemu do
przyswajania sobie nowych pojęć, ale posiadającego umiejętność
posługiwania się edytorami MS Word (ten rekomendujemy począwszy od
wersji Word 97) lub Corel Word Perfect (rekomendujemy od wersji 8)
zalecamy przygotowanie sobie wersji "zwykłego" dokumentu, a następnie
wyeksportowanie go do formatu HTML. Czytelnik łatwo się przekona, że
tolerancja przeglądarek w stosunku do odstępstw od zalecanej składni
publikacji jest wręcz niewiarygodna.
Znaczniki używane do nadawania tekstowi
jego atrybutów i formatowania go są zestawiane w postaci pary: atrybut
otwiera się znacznikiem <nazwa atrybutu> i kończy się znacznikiem
</nazwa atrybutu>. Nazwy standardowo pochodzą z języka
angielskiego i każda osoba, operująca podstawowym słownictwem
edytorskim w tym języku szybko chwyta zasady formatowania hipertekstu
według definicji HTML. Nie przewiduje się wprowadzenia narodowych
wersji języka znaczników. Wymienimy dla przykładu kilka najprostszych
znaczników:
Tabela 10. Wybrane znaczniki formatowania HTML.
Atrybut
|
Znacznik
początku |
Znacznik
zakończenia |
Wytłuszczenie
tekstu |
<B> |
</ B > |
Kursywa |
<I> |
</I> |
Wielkość i kolor fontu |
<FONT SIZE=6
COLOR="#0000FF"> |
</ FONT > |
Centrowanie
tekstu |
<CENTER> | </CENTER> |
Wymienione znaczniki tekstu (ewentualnie tła tekstu) odnosiły się do
tej pory tylko do obsługi użytkownika czytającego (oglądającego) tekst.
Jednak z różnych powodów użytkownik może nie być w stanie w ogóle
widzieć tekstu (jest niewidomy, lub ma chore oczy), bądź nie chcieć go
chwilowo widzieć (jest zajęty innymi sprawami). Równocześnie ten sam
użytkownik ma możliwość przesłuchiwania wyselekcjonowanego tekstu przy
pomocy syntezatora mowy. Okazuje się, że rozwój współczesnych
syntezatorów mowy wyprzedził technologię języków opisu publikacji
hipertekstowych. Mówiąc inaczej, twórcy tych języków mało wiedzieli o
potrzebie zastosowania syntezatorów mowy do przeglądania publikacji
internetowych. Na rzecz zdefiniowania takiego standardu zawiązało się w
ostatnich latach pod nazwą SABLE konsorcjum sześciu instytucji (
http://www.cstr.ed.ac.uk/projects/sable/).Spośród nowych znaczników proponowanych przez SABLE wymienimy:
czteropoziomową emfazę, czteropoziomową przerwę w czytaniu,
pięciopoziomową szybkość czytania, czteropoziomową głośność, płeć
lektora i pięć kategorii wieku lektora. Czytelnik zechce tu docenić
zalety tolerancji przeglądarek. Każdą publikację hipertekstową można
wzbogacić o znaczniki sterujące syntezatorem, praktycznie bez żadnego
wpływu na jej interpretację.
Niezwykle nowatorskie podejście do
formatowania tekstu, zorientowanego na systemy syntezatorów mowy,
zaprezentował Raman [1998]. W oparciu o zdefiniowane przez siebie
rozszerzenie języka Common Lisp skonstruował on formater audio o nazwie
AFL (ang. Audio Formatting Language), który w środowisku przeglądarki
opartej o syntezator mowy może być uważany za odpowiednik Postscriptu.
Autor tego rozwiązania (sam zresztą całkowicie niewidomy) doprowadził
niemal do perfekcji stworzony przez siebie zespół narzędzi
programistycznych o nazwie Audio System for Technical Readings (ASTER)
[44], umożliwiającychniewidomym tworzenie i analizę złożonych tekstów matematycznych z
pomocą syntezatora mowy. Lektura znakomitej książki Ramana, osobiście
złamanej do druku przez samego jej autora, pozostawia na każdym jej
czytelniku niezatarte wrażenie i ze wszech miar jest godna polecenia.
Przyjrzyjmy się, jak ASTER przekłada na angielską mowę wzór Faa de
Bruno, zaczerpnięty przez Ramana z pierwszego tomu znakomitej książki
Knutha [1968] - patrz ćwiczenia do paragrafu 1.2.5, zadanie 21:
Równanie 1. Wzór Faa de Bruno.
Dnx w |
= | ∑ |
∑ |
Dju
w |
n! (D1x
u)k1...(Dnx u)k
n
k1! (1!)k1.....kn! (n!)k n |
0≤ j ≤ n |
k1+k2+...+kn
= j |
||||
k1+2*k2+...+n*kn
= n |
|||||
k1,k2,...,kn≥0 |
Wzór powyższy odczytywany jest następująco
[45] (plik dźwiękowysec18-ex3.au dostępny jest pod adresem
http://www.cs.cornell.edu/home/raman/aster/demo.html):
Ennth
derivative with respect to x of w equals summation over
0 less than or equal to j less than or equal to n
The quantity being summed summation over
k1 plus k2 plus AND SO ON plus kn equals j and below that
k1 plus 2k2 plus AND SO ON plus nkn equals n and below that
k1 comma k2 comma ellipsis comma kn greater than or equals to 0
The quantity being summed
jayth derivative with respect to u of w
[46]
CORRECTION
the product n factorial quantity first derivative with respect to x of
u raised to k1
AND SO ON
Quantity ennth derivative with respect to x of u raised to kn
DIVIDED BY
the product k1 factorial quantity one factorial raised to k1
AND SO ON
kn factorial quantity n factorial raised to kn
W tym miejscu widać
bezsiłę drukowanego tekstu. Dla oddania melodii zastosowanego przez
Ramana formatowania audialnego, w powyższym tekście zostały użyte
wyróżniki. Tak więc wykładniki k1 oraz kn zapisane w górnym indeksie
wymawiane są wysokim głosem. Jednak nie oddaje to wrażenia jakie ma
słuchacz. Osoby znające angielski zachęcamy do przesłuchania
znajdujących się na Sieci plików audio. Zostały one wykonane przez
digitalizację sygnału wytworzonego przez syntezator Dectalk, którym
posługiwał się Raman i są bardzo dobrej jakości. Warto jeszcze
dopowiedzieć, że Raman zaproponował dwie formy interpretacji takich
złożonych wyrażeń, różniące się między sobą poziomem przyswajania i
czasem odczytu. Raman umiejętnie posługuje się formatowaniem audialnym
zmieniając cechy głosu syntetycznego lektora w zależności od elementu
strukturalnego interpretowanego wzoru. Innym głosem syntezator
wypowiada podstawową linię formuły, innym licznik i mianownik ułamka,
jeszcze innym wykładniki. Spektakularne osiągnięcia Ramana w zakresie
formatowania audialnego tekstów technicznych obalają wszelkie
prymitywne stereotypy na temat możliwości zdobywania najwyższych
kwalifikacji przez osoby całkowicie niewidome i pokazują, jak wielkie
są możliwości tej grupy inwalidzkiej w zakresie prowadzenia
zaawansowanych prac (por. Czermiński [2001-2]).
Na marginesie omawianych tu spraw związanych z redakcją i odbiorem
tekstów przez osoby niewidome warto odnotować równie, a może nawet i
bardziej fascynujący fakt opracowania przez Heshama Kamela, niewidomego
doktoranta Uniwersytetu w Berkeley, pakietu pozwalającego niewidomym
tworzyć, przeglądać i edytować grafikę. Więcej informacji na ten temat
można znaleźć wizytując stronę internetową twórcy pakietu IC2D (
http://guir.berkeley.edu/projects/ic2d).
Czytelnik oswojony
z pracą edytorską w środowisku Windows ma w znakomitej większości
przypadków wbudowaną usługę wizualizacji tekstu w jego finalnym
formacie. W żargonie informatycznym znana jest ona pod nazwą standardu
WYSIWYG (ang. What You See Is What You Get - to co widzisz jest tym, co
otrzymujesz). Mało który edytor oferuje możliwość podejrzenia i
ewentualnie skorygowania znaczników, czy kodów formatujących tekst. Do
takich nielicznych pozytywnych przykładów możemy zaliczyć Word Perfect.
Pod klawiszem funkcyjnym F11 edytor ten oferuje funkcję edycji kodów
formatujących, określaną nazwą Reveal Codes (ujawnij kody). Ale zarazem
możemy powiedzieć z poczuciem pełnej odpowiedzialności, że funkcję taką
ma każdy tekst sformatowany zgodnie ze standardem SGML i jego
standardami następczymi (HTML, XML, STML, VRML). Każdy taki plik
edytowany pod edytorem znakowym (takim, jak np. MS NotePad) ujawnia
wszystkie atrybuty tekstu i znaczniki formatujące. Wynika z tego, że
cyfrowy tekstowy dokument elektroniczny ma dwie postaci, z których
jedna jest zawsze dostępna dla użytkownika, a druga może być dostępna
lub nie - w zależności od woli twórcy oprogramowania. Dla pierwszej
postaci zaproponujemy nazwę postać
prezentacyjna tekstu, dla drugiej przyjmiemy termin będący już w
użytkowaniu: postać źródłowa tekstu.
W normalnym trybie edytora lub przeglądarki dostępna jest postać
prezentacyjna. Postać prezentacyjna z kolei może się dzielić na
podpostacie zorientowane sprzętowo w zależności od rodzaju odbiorcy.
Można tu wymienić dominującą postać
wizualną, coraz bardziej popularną postać audialną, wreszcie rzadko
występującą postać sensoryczną.
Postać źródłowa publikacji internetowych dostępna jest w menu
przeglądarek pod pozycją "Widok" poprzez funkcję "Źródło".
Przyjrzyjmy się, jak udostępniane są obydwie postacie tego samego
tekstu przez różne pakiety oprogramowania. Tekst oryginalny został
przygotowany pod edytorem Word 97 i dodatkowo skonwertowany do formatów
HTML i WP ((WordPerfect). Konwersja ta spowodowała automatyczną zmianę
rodzaju czcionki z niedostępnego na platformie Word Perfecta Ariala na
najbardziej do niego zbliżoną czcionkę bezszeryfową jaką jest Univers
Condensed. MS Word 97 oferuje bardzo ograniczoną usługę dostępu do
źródłowej postaci tekstu. Tabela 11 ilustruje kształt postaci
prezentacyjnej i źródłowej tekstu widzianej przez pryzmat różnych
narzędzi programistycznych. Użytkownik tego edytora może kontrolować
wyświetlanie na ekranie kodów wewnętrznych edytora poprzez pozycję menu
Narzędzia, funkcję Opcje i zakładkę Widok. Wyjątkowo zwodnicza jest
możliwość pokazywania kodów wszystkich znaków niedrukowanych - to
dopiero pokazuje faktyczną skromność oferty Microsoftu.
Tabela 11. Postać prezentacyjna i postać źródłowa tekstu.
Postać
tekstu |
Widok
na ekranie |
Prezentacyjna (WYSIWYG) (MS Word 97, Word Perfect 6.0, Netscape Navigator, Internet Explorer) |
Electronic Document Morphology It should be noted that in a straightforward example it is possible to present semantically and graphically the same information using a number of different software |
Źródłowa (Word Perfect 6.0) |
[Char Style On: heading 1][Just][Mrk
Txt ToC Begin][Font Size:14pt][Font:Univers Condensed][Lang] Electronic
Document Morphology][Mrk Txt ToC End][Bold Off][HRt] [Char Style Off:
heading 1] It should be noted that in a straightforward example
it is possible to present semantically and graphically the same
information using a number of different software |
Źródłowa (Netscape Navigator, Internet Explorer) |
<B><FONT
FACE="Arial" SIZE=4><P>Electronic Document Morphology</P></B></FONT><FONT
SIZE=2> <P ALIGN="JUSTIFY"> It should be noted that in a straightforward example it is possible to present semantically and graphically the same information using a number of different software </P></FONT> |
Mając do dyspozycji tekst w postaci
źródłowej, użytkownik dysponuje w pełni przewidywalnymi zachowaniami
systemu. To właśnie ten element przyczynił się do tak wielkiego sukcesu
systemu TEX w środowiskach technicznych. Czy się jednak to komu podoba
czy nie, dominująca liczba tzw. przeciętnych użytkowników preferuje
systemy WYSIWYG i należy przypuszczać, że proporcja ta nie ulegnie
zmianie. Piszący te słowa z konieczności umotywowanej brakiem czasu sam
używa pakietu MS Office 2000, choć dysponuje przykładowym plikiem w
formacie WORDa, nie spełniającym postulatu WYSIWIG: w tekstowym
dokumencie zaszyty jest obrazek, którego nie widać na ekranie, ale
który jest drukowany na drukarce. Nie ma wątpliwości, że obecnie
stosowane oprogramowanie w większości wypadków jest dalekie od
doskonałości. Na zakończenie warto wspomnieć, że przez wiele lat
prawdziwą furorę budził zaprojektowany przez S. Jobsa system operacyjny
NeXT Step (i jego potomek OPEN STEP). Cechowała go jednolita
technologia obsługi zarówno drukarki, jak i ekranu: był to PostScript.
To powodowało przewidywalne zachowanie się systemu u końcowego
użytkownika. NeXT Step dobrze odpierał atak krytyki na
nieprzewidywalność efektów artystycznych na stacji roboczej końcowego
użytkownika, ale - mówiąc szczerze – był to użytkownik elitarny. Fakt
ten okupiony był jednak znacznymi ograniczeniami: dla platformy
intelowskiej producent systemu publikował listę produktów mających
atest zgodności sprzętowej. Dotyczyło to płyt głównych, kart
graficznych, kart dźwiękowych, kontrolerów SCSI itp. Niestety koszty
rozwoju takiego systemu są bardzo wysokie, i firma nie była w stanie
nadążyć z pisaniem sterowników obsługujących ogrom pojawiających się
nowych produktów rynkowych. NeXT Step urodził się za wcześnie, gdy
stopień standaryzacji sprzętowej jeszcze był niski, a moc przetwarzania
pod każdym względem zbyt mała. Jak to wspomniano uprzednio, wraz z
wprowadzeniem systemu operacyjnego Windows 2000 Microsoft ośmielił się
opublikować na swej stronie domowej wykaz sprzętu posiadającego atest
zgodności z tym systemem. Fakt ten staje się nowym wyzwaniem dla
użytkowników oprogramowania produkowanego przez tą firmę rokującym
zbliżone kłopoty do tych, które mieli użytkownicy NeXT Stepa
instalowanego na platformie intelowskiej.
Jak wyżej pokazano na przykładach, edytor
może należeć do jednej z trzech grup:
Można by się spodziewać, że w przypadku Worda użytkownik ma do dyspozycji klasyczną usługę WYSIWYG: na drukarce dostajesz to co widzisz. Jak do tej chwili nie jest to prawdziwe. Microsoftowski Word nadal jest niespójny wewnętrznie. Jak długo w menu Worda w pozycji Widok będzie się znajdowało okienko z trzema opcjami przeglądania dokumentu: ‘Normalny’, ‘Układ sieci Web’ oraz ‘Układ strony’, - tak długo użytkownik musi zdawać sobie sprawę, że w danym momencie ogląda tylko jeden z możliwych obrazów tworzonego dokumentu. Te obrazy mogą się od siebie bardzo różnić. Tak np. w układzie normalnym Word nie pokazuje pól tekstowych. Celem zilustrowania takiego przypadku przygotowany został plik w formacie Word zawierający pola tekstowe. Poniższe rysunki są zrzutami ekranu tworzonymi w trakcie przeglądania tego pliku w układzie normalnym (Rysunek 22) oraz w układzie strony (Rysunek 23).
Rysunek 22. Tekst
dokumentu alyakhtund.doc w układzie normalnym. Opracowanie autora.
|
Rysunek 23. Tekst dokumentu alyakhtund.doc w układzie strony. Opracowanie autora
Песни,
посвящённые <не. Poland, 18 April 2002 Бронислав Пилсудский Вунит,
сестра Чурки, поэтесса, зная что я очень люблю песни, решила составить
песню, обращённую ко <не. Когда я ездил (в 1897 г.) по гилякски<
селения<, обучая гиляков солить рыбу, она жила в с. Кезириво, лежаще<
на островке по р. Ты<и близ Мозьб’ во . Аляхтунд. Акан–
тох алеhынд.* Кезириво фина /
|
Jak widać z
powyższych przykładów, obydwa obrazy znacznie różnią się między sobą.
Układ strony jest prawdopodobnie najbliższy usługi WYSIWIG i z dużym
prawdopodobieństwem można orzec, że tak właśnie będzie wyglądał wydruk
na drukarce kolorowej, natomiast z całą pewnością nie będzie tak
wyglądał wydruk na drukarce biało-czarnej. Natomiast układ normalny
jest jakąś formą uproszczoną, która może nie zawierać pewnych
elementów. Powyższe komentarze pozwalają zrozumieć, dlaczego na
Zachodzie przereklamowanym standardom przemysłowym szybko dokleja się
uszczypliwe etykietki, Tak więc w szczególności usługa WYSIWIG bywa
przezywana WYSIWYNG (ang. What You See Is What You Never Get – to co
widzisz jest tym, czego nigdy nie otrzymasz).
Przytoczona analiza porównawcza ujawnia polimorfizm cyfrowego dokumentu
elektronicznego, widziany przez pryzmat standardowych narzędzi
środowiska edycyjnego i prezentacyjnego (monitor, drukarka
biało-czarna, drukarka kolorowa). Polimorfizm ten jest wyrazem
kompromisu jaki producent oprogramowania chce osiągnąć; jest wyrazem
balansu pomiędzy spodziewanymi potrzebami użytkownika i ofertą
konkurencji. Związane z nim niejednoznaczności mogą poważnie spowalniać
procesy redakcyjne i w ostateczności nawet wprowadzać deformacje do
postaci prezentacyjnej.
Elektroniczny dokument cyfrowy musi być postrzegany jako byt
zintegrowany ze światem, w którym go wytworzono, i do którego winien
należeć. Przenoszenie go do niekompletnego środowiska mającego inne
wersję oprogramowania użytkowego, sterowniki, fonty czy obsługę ekranu
może poważnie zmienić jego cechy. W końcu nawet meduza wyrzucona przez
fale na morski brzeg jest tylko marną karykaturą misternego organizmu
zawieszonego w wodzie.
Stwierdzenie, że
wielojęzyczność jest immanentnie związana z komunikacją międzynarodową
- pieszą, morską czy lotniczą - jest chyba dla wszystkich oczywiste.
Dokumentom wielojęzycznym już w starożytności przypisywano ponadczasową
wartość. Najlepszym przykładem takiego dokumentu jest pieczołowicie
przechowywana w British Museum bazaltowa stela znana pod nazwą Kamienia
z Rosetty. To dzięki uwiecznionemu na tym kamieniu trójjęzycznemu
zapisowi (hieroglify egipskie, pismo demotyczne i pismo greckie) Jean
François Champoillon był w stanie odcyfrować niezrozumiałe już od dwóch
tysiącleci egipskie hieroglify. Nie od rzeczy będzie też przypomnieć,
że jeden z naszych najciekawszych zabytków – „Psałterz floriański” –
zawiera 150 psalmów pisanych w trzech językach: łacińskim, polskim i
niemieckim. Jednak wielojęzyczne dokumenty najczęściej nie występują w
zbiorach specjalnych, lecz w podręcznym księgozbiorze każdej czytelni:
są to słowniki, tak pożyteczne przy bieżącej pracy.
W dzisiejszych czasach ożywiona wymiana handlowa nasyca światowe rynki
towarem z wielojęzycznym opisem. Mamy go na słoikach z dżemem, w
instrukcjach obsługi pralek i telewizorów, w opisach informacyjnych
filmów fotograficznych i leków, na okładkach międzynarodowych biletów
lotniczych i kolejowych. Bodaj czy nie jeszcze bujniej rozwija się
produkcja materiałów wydawniczych w muzeach. Świat stał się nie tylko
bardziej wielojęzyczny, ale i wielokulturowy. Ciekawy przegląd
współczesnych zagadnień związanych z wielojęzycznością zaprezentowała
niedawno Borgman [1997]. Autorka spostrzega fakt pojawienia się na
świecie wielkiej ilości materiału cyfrowego i koncentruje się na
konieczności unifikacji zasad kodowania w ramach Unicode'u.
W ostatnich latach poligrafia światowa całkowicie zmieniła swoje
oblicze. Obecnie większość tekstów wielojęzycznych sporządza się
komputerowo. Czy wszystko jednak da się tu zrobić? Jakie są
ograniczenia w poligrafii, a jakie w edytorstwie internetowym? Jakie są
współczesne tendencje w zakresie katalogowania wydawnictw
obcojęzycznych?
W następnych paragrafach dyskusję wybranych tu problemów ilustrować
będziemy przykładami z dalekowschodniego obszaru językowego. Podobne
ilustracje tekstowe przez długie lata były przyjmowane z dreszczykiem
emocji, teraz stają się powoli codziennością.
W syntetycznym
skrócie techniczne problemy związane z obsługą tekstów wielojęzycznych
można pogrupować na następujące kategorie:
Warto teraz przyjrzeć się kilku wybranym technikom wprowadzania dalekowschodnich tekstów do dokumentu. Rozwój i powszechna akceptacja standardu okienkowego (Apple, Microsoft, X-Windows) stworzyły nową możliwość oferowania przez aplikację dodatkowych usług, niezwykle upraszczających proces edycyjny. Najprostszym (i zarazem najbardziej powolnym) sposobem wprowadzenia tekstu jest pobieranie pojedynczych znaków z posiadanego repertuaru. Nie zamykając edytora użytkownik może wywołać sobie małą przeglądarkę dostępnych znaków, posługując się funkcją Wstaw z poziomu głównego menu edytora, i wybierając z listy pozycję Symbol. Po ukazaniu się okienka dialogowego funkcji Symbol należy wybrać font, zawierający potrzebny podzbiór znaków (w cytowanym przykładzie jest to Hiragana). Jeśli wybrany zostanie font unikodowy, to po prawej stronie okna dialogowego udostępnione zostaje dodatkowe okno podzbioru grupy językowej (np. cyrylica, czy ujednolicone ideogramy CJK). Potrzebny znak wskazuje się myszką, a następnie przenosi się go do głównego okna edytora poprzez aktywizację pozycji Wstaw. Przy rutynowym wpisywaniu obcojęzycznego tekstu użytkownik może oczywiście ostrożnie zredefiniować sobie klawiaturę [47] przy pomocy pozycji Klawisz skrótu. Rysunek 24 przedstawia przykładowe wpisywanie tekstu japońskiego indywidualnie wybieranymi znakami z podzbioru Hiragana:
Rysunek 24.
Wprowadzanie tekstu japońskiego w edytorze Word 97 (wybieranie znaków
sylabami z puli systemowej fontu Arial Unicode MS). Opracowanie autora.
Proszę
pisać - Microsoft Word |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Plik | Edycja |
Widok |
Wstaw |
Format |
Narzędzia |
Tabela |
Okno |
Pomoc |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
かいてくだ
|
Przyjrzyjmy się z
kolei, na ile szersze techniczne możliwości tworzenia napisów w
językach dalekowschodnich daje edytor wprowadzania IME (ang. Input
Method Editor) firmy Microsoft (Rysunek 25).
Rysunek 25. Edytor
IME. Opracowanie autora.
Dokument10 - Microsoft Word | |||||||||||||||||
Plik | Edycja | Widok | Wstaw | Format | Narzędzia | Tabela | Okno | Pomoc | |||||||||
Karafuto からふと
|
W klasyfikacji
Tuckera [1987] IME podpada pod kategorię systemów konwersji fonetycznej
(ang. phonetic conversion systems). Narzędzie to jest swojego rodzaju
kombajnem, operującym w środowisku edytorów obsługujących format HTML,
umożliwiającym posłużenie się transkrypcją z poziomu klawiatury
angielskiej i opcjonalnym, bardzo dogodnym tezaurusem, usłużnie
podstawiającym alternatywne skrypty z listy dostępnych sylabariuszy
(japoński). Dodatkowo IME oferuje czcionkę standardową, lub połowicznej
szerokości (tą ostatnią tylko dla katakany i znaków ASCII). W IME tekst
japoński wprowadzamy do otwartego już dokumentu w transkrypcji
Hepburna. Edytor podsuwa jednak piszącemu trzy możliwości prezentacji
tekstu na ekranie: albo tekst niekonwertowany (romaji) albo
automatycznie konwertowany do hiragany lub katakany. Jeśli po
zakończeniu pisania jakiegoś słowa naciśniemy klawisz spacji, to
wyświetlone zostanie okienko z listą proponowanych alternatywnych form
zapisu (homofony). Rysunek 21 ilustracją, obrazującą sposób wyboru
zapisu nazwy Karafuto - japońskiego określenia wyspy Sachalin, gdzie
więziony był Bronisław Piłsudski. Na rysunku widać od góry alternatywne
formy prezentacji: katakanę, kanji, hiraganę (wszystkie trzy w pełnej
szerokości), katakanę w połowicznej szerokości czcionki i pięć wersji
romaji w obydwu szerokościach czcionki (pozycje 5-9).
W miarę poprawy parametrów technicznych ekranu (ogniskowanie, aberracje
odchylania, zdolność rozdzielcza) adaptera graficznego oraz mocy
przetwarzania procesora zaczęły narastać apetyty na bardziej
wyrafinowane metody tworzenia tekstów wielonarodowych. Przyjrzyjmy się
na koniec (Rysunek 26) interesującemu narzędziu, oferowanemu przez
firmę Aurora w ramach pakietu dla bibliotek i służącemu do wprowadzania
znaków alfabetu chińskiego
[48]. Przedstawiane narzędzieto czteropoziomowy kompozer złożonych znaków chińskich w oparciu o pule
prymitywów składniowych. Ideę jego przedstawiamy w postaci tablicy
podzielonej na cztery sekcje z których pierwsza ogranicza się tylko do
jednej kolumny zawierającej znaki oparte na różnych dwuwymiarowych
orientacjach pojedynczej kreski (prosta pozioma, prosta pionowa, i dwie
wygięte). Dwie następne sekcje (druga i trzecia), o szerokości 5
komórek każda, zawierają ideogramy średniego stopnia złożoności służące
do kompozycji finalnego znaku znajdującego się w sekcji czwartej. W
rzeczywistym edytorze Jianyi Bushou sekcje przedzielone są suwakami
pozwalający wybrać z obszernego pola potrzebny do kompozycji prymityw.
Wynika z tego, że złożoność znaku narasta od lewej strony do prawej. W
klasyfikacji Tuckera [1987] narzędzie to należy do systemów
kompozycyjnych (ang. composition systems) i może się okazać bardzo
przydatne przy zapisie chińskich imion własnych, spotykanych na tyle
rzadko, że żadna instytucja nie będzie zainteresowana poszukiwaniem
takiego samego znaku w innym obszarze językowym tak, jak to miało
miejsce przy unifikacji ideogramów CJK.
Rysunek 26. Edytor kompozycyjny. Opracowanie własne na podstawie
materiałów firmy Aurora.
|
Bardzo poważnym
problemem jest kodowanie znaków narodowych. Jeśli nie odwoływać się do
historii budowy Wieży Babel, to przypisanie kodów do konkretnych znaków
tradycyjnego pisma zawsze miało posmak narodowy i doskonale
odzwierciedlało wolę narodów i grup językowych do samostanowienia. Prym
wiedli tu Amerykanie, mający najwięcej sprzętu komputerowego i przez
wiele lat ignorujący wartość poznawczą poza-anglojęzycznych tekstów.
Proponowane przez nich repertuary znaków takie jak EBCDIC, czy też
ASCII w założeniach swoich odsuwały w niebyt istnienie innych
repertuarów znaków, orientując się głównie na sfery biznesowe. Europa,
przyglądająca się tym wyczynom z oddali, i dalekowschodnia Azja, może z
nieco mniejszym dystansem z powodu swego dalszego zaawansowania
technologicznego, zaczęły na własną rękę tworzyć standardy narodowe i
międzynarodowe, oraz inicjować regionalne prace unifikacyjne (por.
Tseng i in. 1987). Regionalność zaczęła być oznaczana anagramami: LGC
(Latin + Greek + Cyrillic), CJK (Chinese + Japanese + Korean), JACKPHY
(Japanese, Chinese, Korean, Persian [Farsi], Hebrew, Yiddish). To
sobiepaństwo w zakresie standardów kodowania stało się wyjątkowo
uciążliwym hamulcem w rozwoju globalnej wioski. Te różne standardy na
ogół bez przeszkód mogą współistnieć pokojowo obok siebie w jednej
bazie danych. Niemal w każdym rekordzie bazy danych może zostać wpisana
sekwencja znaków zgodna z innym standardem. Jest nawet osobna norma
(ISO 2022) regulująca mechanizmy przełączania się między różnymi
systemami kodowania. Jednak z faktu istnienia jakiegoś zapisu nie
wynika jeszcze możliwość odczytania. Czytelnik może się przekonać o tym
osobiście, wizytując np. serwer testowy Z39.50 Research Library Group i
filtrując rekordy zawierające pole 066. Bez posiadania
specjalistycznego oprogramowania (np. sprzedawanego przez RLG) nie ma
szans na poprawne obejrzenie zapisów w języku oryginału (zazwyczaj są
one w polu 880). Jest jeszcze jedno ważne ograniczenie - tym razem
dotyczące plików pełnotekstowych. W jednym pliku HTML nie można używać
kilku różnych standardów kodowania! Zamiar wydawania wielojęzycznej
publikacji w Internecie niemal skazuje wydawcę na stosowanie standardu
Unicode.
Przyjrzymy się, jak na tą samą przestrzeń adresową (kody z przedziału
128 - 254) poszczególne grupy narodowościowe nakładały swoje znaki w
ramach normy ISO 8859-x:
Tabela 12. Współdzielenie przestrzeni kodów przez różne normy ISO
8859-x
ISO 8859-1
A0
|
A1 ¡ |
A2 ¢ |
A3 £ |
A4 ¤ |
A5 ¥ |
A6 ¦ |
A7 § |
A8 ¨ |
A9 © |
AA ª |
AB « |
AC ¬ |
AD |
AE ® |
AF ¯ |
B0 ° |
B1 ± |
B2 ² |
B3 ³ |
B4 ´ |
B5 µ |
B6 ¶ |
B7 · |
B8 ¸ |
B9 ¹ |
BA º |
BB » |
BC ¼ |
BD ½ |
BE ¾ |
BF ¿ |
C0 À |
C1 Á |
C2 Â |
C3 Ã |
C4 Ä |
C5 Å |
C6 Æ |
C7 Ç |
C8 È |
C9 É |
CA Ê |
CB Ë |
CC Ì |
CD Í |
CE Î |
CF Ï |
D0 Ð |
D1 Ñ |
D2 Ò |
D3 Ó |
D4 Ô |
D5 Õ |
D6 Ö |
D7 × |
D8 Ø |
D9 Ù |
DA Ú |
DB Û |
DC Ü |
DD Ý |
DE Þ |
DF ß |
E0 à |
E1 á |
E2 â |
E3 ã |
E4 ä |
E5 å |
E6 æ |
E7 ç |
E8 è |
E9 é |
EA ê |
EB ë |
EC ì |
ED í |
EE î |
EF ï |
F0 ð |
F1 ñ |
F2 ò |
F3 ó |
F4 ô |
F5 õ |
F6 ö |
F7 ÷ |
F8 ø |
F9 ù |
FA ú |
FB û |
FC ü |
FD ý |
FE þ |
FF ÿ |
A0
|
A1 Ą |
A2 ˘ |
A3 Ł |
A4 ¤ |
A5 Ľ |
A6 Ś |
A7 § |
A8 ¨ |
A9 Š |
AA Ş |
AB Ť |
AC Ź |
AD ¯ |
AE Ž |
AF Ż |
B0 ° |
B1 ą |
B2 ˎ |
B3 ł |
B4 ´ |
B5 Ĭ |
B6 Ś |
B7 ˅ |
B8 ¸ |
B9 š |
BA ş |
BB ť |
BC ź |
BD ˝ |
BE ž |
BF ż |
C0 Ŕ |
C1 Á |
C2 Â |
C3 Ă |
C4 Ä |
C5 Ĺ |
C6 Ć |
C7 Ç |
C8 Č |
C9 É |
CA Ę |
CB Ë |
CC Ĕ |
CD Í |
CE Î |
CF Ď |
D0 Ð |
D1 Ń |
D2 Ň |
D3 Ó |
D4 Ô |
D5 Ő |
D6 Ö |
D7 × |
D8 Ř |
D9 Ů |
DA Ú |
DB Ű |
DC Ü |
DD Ý |
DE Ţ |
DF ß |
E0 ŕ |
E1 á |
E2 â |
E3 ă |
E4 ä |
E5 ĺ |
E6 ć |
E7 ç |
E8
|
E9 é |
EA ę |
EB ë |
EC ě |
ED í |
EE î |
EF ɗ |
F0 đ |
F1 ń |
F2 ň |
F3 ó |
F4 ô |
F5 ő |
F6 ö |
F7 ÷ |
F8 ř |
F9 ů |
FA ú |
FB ű |
FC ü |
FD ý |
FE ƫ |
FF ' |
ISO 8859-5
A0 |
A1 Ё |
A2 Ђ |
A3 Ѓ |
A4 Є |
A5 Ѕ |
A6 І |
A7 Ї |
A8 Ј |
A9 Љ |
AA
|
AB Ћ |
AC Ќ |
AD |
AE Ў |
AF Џ |
B0 А |
B1 Б |
B2 В |
B3 Г |
B4 Д |
B5 Е |
B6 Ж |
B7 З |
B8 И |
B9 Й |
BA К |
BB Л |
BC М |
BD Н |
BE О |
BF П |
C0 Р |
C1 С |
C2 Т |
C3 У |
C4 Ф |
C5 Х |
C6 Ц |
C7 Ч |
C8 Ш |
C9 Щ |
CA Ъ |
CB Ы |
CC Ь |
CD Э |
CE Ю |
CF Я |
D0 а |
D1 б |
D2 в |
D3 г |
D4 д |
D5 е |
D6 ж |
D7 з |
D8 и |
D9 й |
DA к |
DB л |
DC < |
DD н |
DE о |
DF п |
E0 р |
E1 с |
E2 т |
E3 у |
E4 ф |
E5 х |
E6 ц |
E7 ч |
E8 ш |
E9 щ |
EA ъ |
EB ы |
EC ь |
ED э |
EE ю |
EF я |
F0 а |
F1 ё |
F2 ђ |
F3 ѓ |
F4 є |
F5 ѕ |
F6 і |
F7 ї |
F8 ј |
F9 љ |
FA њ |
FB ћ |
FC ќ |
FD § |
FE ў |
FF џ |
A0 |
A1 ʽ |
A2 ʼ |
A3 £ |
A4
|
A5
|
A6 ¦ |
A7 § |
A8 ¨ |
A9 © |
AA
|
AB « |
AC ¬ |
AD - |
AE |
AF ¯ |
B0 ° |
B1 ± |
B2 ² |
B3 ³ |
B4 ´ |
B5 ΅ |
B6 Ά |
B7 · |
B8 Έ |
B9 Ή |
BA Ί |
BB » |
BC Ό |
BD ½ |
BE Ύ |
BF Ώ |
C0 ΐ |
C1 Α |
C2 Β |
C3 Γ |
C4 Δ |
C5 Ε |
C6 Ζ |
C7 Η |
C8 Θ |
C9 Ι |
CA Κ |
CB Λ |
CC Μ |
CD Ν |
CE Ξ |
CF Ο |
D0 Π |
D1 Ρ |
D2 |
D3 Σ |
D4 Τ |
D5 Υ |
D6 Φ |
D7 Χ |
D8 Ψ |
D9 Ω |
DA Ϊ |
DB Ϋ |
DC ά |
DD έ |
DE ή |
DF ί |
E0 ΰ |
E1 α |
E2 β |
E3 γ |
E4 δ |
E5 ε |
E6 ζ |
E7 η |
E8 θ |
E9 ι |
EA κ |
EB λ |
EC μ |
ED ν |
EE ξ |
EF ο |
F0 π |
F1 ρ |
F2 ς |
F3 σ |
F4 τ |
F5 υ |
F6 φ |
F7 χ |
F8 ψ |
F9 ω |
FA ϊ |
FB ϋ |
FC ό |
FD ύ |
FE ώ |
FF
|
Mechanizmy
przełączania sekwencji escape są bardzo kłopotliwe w praktycznej
implementacji. Przeciętny śmiertelnik nie może na swoim komputerze
osobistym obejrzeć takich zasobów cyfrowych. Trudno się dziwić, że przy
pierwszej nadarzającej się okazji rozpoczął się odwrót od tej
technologii na rzecz jednolitej metody kodowania. Zmiana postawy
amerykańskiej nastąpiła, jak się wydaje, w mniejszym stopniu na skutek
nacisku światłych sfer akademickich, a bardziej w wyniku spodziewanych
beneficji z tytułu obrotu handlowego z ogromnymi i chłonnymi rynkami
azjatyckimi. Czynnikiem zwiastującym początek nowej ery w stosunkach
gospodarczych było zniknięcie "żelaznej kurtyny". Synchronicznie z
latami tego przełomu na początku lat 90-tych rodzą się dwie niezależne
inicjatywy ujednolicenia zasad kodowania: pierwszej przewodzi grupa
amerykańskich producentów sprzętu i oprogramowania komputerowego,
drugiej - International Organization for Standardization (ISO).
Pierwsza grupa zawiązała korporację w styczniu 1991 r. pod nazwą
Unicode Inc. W tym samym roku obie zainteresowane strony doszły do
porozumienia, że dysponowanie jednym, spójnym kodem, obejmującym
wszystkie znaki obecnie znane, jest sprawą godną najwyższego poparcia.
Wzajemnie zaakceptowane zmiany zostały wprowadzone do Wersji 1.0
standardu Unicode, oraz do wstępnego dokumentu ISO/IEC Draft
International Standard DIS 10646.1. Połączenie obydwu nastąpiło w
styczniu 1992 roku. Końcowa postać tej wersji standardu została
opublikowana w 1993 r. Już w zaraniu egzystencji tego nowego standardu
stało się jasne, że kończy się czas funkcjonowania mechanizmów
przełączania między różnymi repertuarami znaków, i że należy się jak
najszybciej wycofać z używania ISO 2022, oraz standardów o zasięgu
lokalnym i regionalnym, takich jak rodzina ISO 8859-x na rzecz
Unicode'u [Aliprand 1992].
Konwencje notacyjne Unicode'u
Poniższy wybór
został opracowany na podstawie 2 wersji standardu. Wszystkie znaki
Unicode mają jednoznaczne nazwy składające się wyłącznie z dużych
łacińskich
[49] liter od A do Z, odstępui myślnika - minusu. Nazwy alternatywne (aliasy) pisane są kursywą.
W tekście niniejszym pojedyncza wartość unikodu
[50]zapisywana jest jako U+nnnn,
gdzie nnnn jest
czterocyfrową liczbą w zapisie heksadecymalnym. Na przykład U+0041 jest
wartością unikodu znaku nazywanego LATIN CAPITAL LETTER A.
Ideogramy wschodnio-azjatyckie nazywane
[51] sąCJK UNIFIED IDEOGRAPH-X, gdzie X zastępowany jest heksadecymalną
wartością unikodu
Projekt Unicode'u
został oparty na następujących 10 zasadach wypunktowanych w definicji
standardu:
Font unikodowy
Z faktu, że grupa ekspertów była w stanie
doprowadzić do publikacji dokumentu, w którym każdemu wydrukowanemu
znakowi przypisuje się jednoznacznie kod, nie wynikało jeszcze, że
oprogramowanie znajdujących się w użytku komputerów posiada czcionkę
unicodową, ale - co ważniejsze - umie poprawnie obsłużyć nowy standard.
Bardzo szybko, bo już w 1993 roku Bigelow i Holmes opublikowali detale
swego projektu nacelowanego na konstrukcję fontu unikodowego.
Zaprojektowany i wykonany przez nich font o nazwie Lucida Sans Unicode
True Type Font obejmował 1700 znaków z rodziny języków wywodzących się
z łaciny plus greka (nowożytna), plus cyrylica, to znaczy pełne
środowisko LGC. Ponadto hebrajski, znaki fonetyczne, ramki oraz znaki
matematyczne. Cztery następne lata trzeba było czekać na pojawienie się
nowego fontu obejmującego oprócz obszaru językowego LGC również języki
dalekowschodnie: chiński, japoński i koreański (CJK). Stało się to za
sprawą firmy Bitstream, której font Cyberbit oprócz języków już
uwzględnionych przez zbiór Lucida Sans Unicode zawierał dodatkowo:
arabski, tajski, chiński, japoński i koreański. Zbiór ten w pierwszej
swej wersji (1.1) zawiera m.in. 1 153 sylaby z sylabariusza Hangul oraz
20 902 ideogramów Han. Cyberbit ma znaczne rozmiary. W pierwszej wersji
jest to plik o wielkości 13 MB (nieskompresowany), który został
zaoferowany darmowo i ciągle jest dostępny na różnych serwerach FTP.
Ważnym źródłem darmowej czcionki unicodowej jest też produkt pracy
kompilacyjnej naszego rodaka, Romana Czyborry, który pracowicie zebrał
z różnych źródeł czcionkę, przekonwertował i udostępnił w Internecie
pod nazwą UNIFONT. Pakiet ten zawiera ponad 34 000 znaków i był
projektowany głównie z myślą o środowisku unixowym. Na koniec należy
wymienić nowy, niezwykle bogaty i nienagannie technicznie dopracowany
Arial Unicode MS produkcji Microsoftu, zbiór prawie dwukrotnie większy
od Cyberbita wersja 1, obecnie również dostępny za darmo dla celów
niekomercyjnych.
Celem porównania obsługi tego nowego standardu przez kilka aktualnie
dostępnych na rynku zestawów czcionek wykonaliśmy test na dwóch
przedziałach kodów dla trzech rodzajów czcionki. Testowanie zostało
przeprowadzone przy pomocy edytora yudit zainstalowanego na platformie
Linuxa (Debian) i pracującego pod nadzorem X-Windows. Każdy testowany
podzbiór zawierał 112 znaków. Wyniki porównania przedstawia tabela 13
[Czermiński 2001]:
Tabela 13. Liczba brakujących znaków w implementacji fontu (opracowanie
autora)
Nazwa czcionki | U+AC60
...U+AC5F (Hangul) |
U+8600
... U+866F (Zunifikowane ideogramy CJK |
Unifont | 0 | 18 |
Bitstream Cyberbit 1.1 | 83 | 0 |
Arial Unicode MS | 0 | 0 |
Tablica potwierdza słabą obsługę koreańskiego sylabariusza przez Bitstream Cyberbit i pokazuje na wyraźną przewagę microsoftowskiego Ariala Unicode MS.
Systemy komputerowe i sprzęt
teletransmisyjny są bardzo konserwatywne. Obok najnowocześniejszych
maszyn stoją stare i bardzo stare. Szesnastobitowy kod nowego standardu
nie jest strawny dla starych komputerów, których architektura oparta
jest na 8 bitach, a nawet na 7 bitach (stare systemy operacyjne i stare
urządzenia sieciowe). Dla znalezienia jakiegoś polubownego rozwiązania
opracowano kilka formatów transformacyjnych, które rozkładają
szesnastobitowy kod na mniejsze segmenty. Wśród tych kilku formatów
wyróżnimy UTF-8, będący już stałą opcją kodowania przy zapisywaniu
plików wielojęzycznych na dysku. Z praktycznego punktu widzenia UTF-8
należy rozumieć jako specyficzną formę Unicode. Zaletą UTF-8 jest to,
że podstawowe znaki ASCII (o kodach do 127), które jak na razie królują
w Internecie, są pamiętane w postaci 8 bitów, a nie 16 – tak jak by
tego wymagał klasyczny unikod.
Dla ilustracji, jak konwertuje się 16-bitowy kod utworzony wg standardu
Unicode do UTF-8 ograniczymy się tylko do najprostszego przypadku
interesującego Polskę z uwagi na kodowanie polskich liter
diakrytycznych. Wszystkie one w formacie UTF-8 mieszczą się na dwóch
bajtach. Ogólny, ale uproszczony do 3 wynikowych bajtów, schemat
transformacji podaje tabela 14.
Tabela 14. Transformacja 16-bitowego unikodu do wielobajtowego ciągu
UTF-8. Opracowanie własne na podstawie Tablicy A-3 w Unicode [1998].
Wartość unikodu | Produkt transformacji do UTF-8 | ||
Pierwszy bajt | Drugi bajt | Trzeci bajt | |
0000 0000 0xxx xxxx | 0xxx xxxx | ||
0000 0yyy yyxx xxxx | 110y yyyy | 10xx xxxx | |
zzzz yyyy yyxx xxxx | 1110 zzzz | 10yy yyyy | 10xx xxxx |
W powyższej tabeli bity zapisane kolorem
czerwonym są obligatoryjne. Naruszenie tego obligatorium powoduje
automatyczną detekcję nielegalnej struktury bitów. Grupowanie po cztery
bity ułatwia przejście do zapisu heksadecymalnego. Bity opisane kolorem
niebieskim przy dekompozycji 16-bitowego kodu do UTF-8 stanowią
uzupełnienie obligatoryjnego nagłówka pierwszego (dwubajtowa
dekompozycja) lub drugiego (trzybajtowa dekompozycja) bajtu. Podobnie
jest w przypadkach bitów oznaczonych kolorem czarnym. Odpowiednia
tablica dla polskich liter diakrytycznych przedstawia się następująco:
Tabela 15. Dekompozycja 16-bitowych kodów polskich liter diakrytycznych do sekwencji UTF-8. Opracowanie własne.
Litera | Kod hex. (UCS-2) |
Kod binarny |
Produkt transformacji do UTF-8 |
Kod hex. (UTF-8) |
|
Pierwszy
bajt |
Drugi
bajt |
||||
Ą |
01
04 |
0000 0001 0000 0100 |
1100 0100 |
1000 0100 |
C4
84 |
ą |
01
05 |
0000 0001 0000 0101 |
1100 0100 |
1000 0101 |
C4
85 |
Ć |
01
06 |
0000 0001 0000 0110 |
1100 0100 |
1000 0110 |
C4
86 |
ć |
01
07 |
0000 0001 0000 0111 |
1100 0100 |
1000 0111 |
C4
87 |
Ę |
01
18 |
0000 0001 0001 1000 |
1100 0100 |
1001 1000 |
C4
98 |
ę |
01
19 |
0000 0001 0001 1001 |
1100 0100 |
1001 1001 |
C4
99 |
Ł |
01
41 |
0000 0001 0100 0001 |
1100 0101 |
1000 0001 |
C5
81 |
ł
|
01
42 |
0000 0001 0100 0010 |
1100 0101 |
1000 0010 |
C5
82 |
Ń |
01
43 |
0000 0001 0100 0011 |
1100 0101 |
1000 0011 |
C5
83 |
ń |
01
44 |
0000 0001 0100 0100 |
1100 0101 |
1000 0100 |
C5
84 |
Ó |
00
D3 |
0000 0000 1101 0011 |
1100 0011 |
1001 0011 |
C3
93 |
ó |
00
F3 |
0000 0000 1111 0011 |
1100 0011 |
1011 0011 |
C3
B3 |
Ś |
01
5A |
0000 0001 0101 1010 |
1100 0101 |
1001 1010 |
C5
9A |
ś |
01
5B |
0000 0001 0101 1011 |
1100 0101 |
1001 1011 |
C5
9B |
Ź |
01
79 |
0000 0001 0111 1001 |
1100 0101 |
1011 1001 |
C5
B9 |
ź |
01
7A |
0000 0001 0111 1010 |
1100 0101 |
1011 1010 |
C5
BA |
Ż |
01
7B |
0000 0001 0111 1011 |
1100 0101 |
1011 1011 |
C5
BB |
ż |
01
7C |
0000 0001 0111 1100 |
1100 0101 |
1011 1100 |
C5
BC |
Tabela 15 zawiera pewną osobliwość: są to diakrytyczne litery „Ó” oraz „ó”, które w odróżnieniu od wszystkich pozostałych polskich liter diakrytycznych (zbiór Latin Extended-A) znajdują się w zbiorze Latin-1 Supplement. Z tego powodu pierwsze dwie ‘starsze’ tetrady 16-bitowego kodu złożone są z samych zer, co mogło by predystynować te litery do kodowania jednobajtowego. Jednak Tabela 14 jako obligatorium wymaga, by do jednobajtowego kodowania najstarszy bit w trzeciej tetradzie był zerem, co w tym przypadku nie ma miejsca. Tak więc w ramach transformacyjnego formatu UTF-8 wszystkie polskie litery diakrytycznie są jednolicie kodowane na dwóch bajtach
Podstawowym
wymaganiem jest tu obsługa standardu Unicode przez system operacyjny.
Komputer osobisty musi mieć zainstalowany 32-bitowy system operacyjny
(Windows 95, Windows 98, Windows NT, Windows 2000, Windows XP,
Linux). Na tym systemie musi być zainstalowany edytor obsługujący
Unicode. W systemie MS Windows minimalnym pakietem musi być Word 97.
Podkreślić jednak trzeba, że na niższej wersji systemu można instalować
wyższe wersje oprogramowania aplikacyjnego. Tak np. znaczną część
prac autor ninieszej książki przygotowywał w Wordzie 2000
zainstalowanym na platformie Windows 98. Dobrym edytorem znakowym dla
Windows jest też UniRed (bezpłatny), SC UniPad, a dla Linuxa yudit. Te
edytory pozwalają na sprawną redakcję kodu źródłowego. Uznanie budzi
zwłaszcza yudit, który ma bardzo dobry, wielojęzyczny moduł
wprowadzania tekstu wraz z dobrze opisaną dokumentacją, oraz możliwość
korzystania z bardzo bogatych fontów unikodowych w formacie TTF w
X-Windows.
Największą dogodność
pracy dla osoby nie pragnącej uczyć się formatowania w standardzie HTML
przedstawia sobą MS Word, który bardzo dobrze obsługuje Unicode.
Dokument napisany w tym edytorze można łatwo wyeksportować do formatu
HTML. Bardzo dobry jest wielojęzyczny moduł wprowadzania tekstu –
IME. Autor jednak gorąco poleca tworzenie stron internetowych
wprost w edytorze Mozilli począwszy od wersji 6.
Wklejanie tekstów przygotowanych pod innym standardem kodowania do
publikacji już zakodowanej jako unikodowa na ogół nie da się
bezpośrednio zrealizować. Tak np. teksty japońskie przygotowane pod IME
(kodowane w JIS, ang. Japan Industry Standard) należy wstawić do
pustego dokumentu w Wordzie, zmienić w przekopiowanym dokumencie
czcionkę na unikodową i wyeksportować do formatu HTML. Dopiero taki
plik można wkleić do innej publikacji zakodowanej w UTF-8. Wśród uwag
praktycznych należy też wspomnieć, że przenoszenie bloków tekstu metodą
kopiuj i wklej (Ctrl C – Ctrl V) w środowisku heterogenicznym – np.
pomiedzy Netscape i MS Wordem na ogół powoduje utratę atrybutów tekstu
(wyróżników tekstu i formatowania).
Mimo piętrzących się, chwilowo dokuczliwych, problemów - już teraz
posiadamy komplet narzędzi edycyjnych pozwalających przygotować i
wystawić na widok publiczny wielojęzyczne systemy informacyjne. Jako
przykład może służyć prototyp pięciojęzycznego (angielski, japoński,
litewski, polski, rosyjski) systemu informacyjnego projektu ICRAP (
http://www.icrap.org).
Rysunek 27. Wielojęzyczny dokument internetowy w unikodzie. Projekt autora.
Бронислав Осипович Пилсудский ブロニスワフ . ピョ トル . ピウスツキ
|
Doświadczenie zebrane przez autora w trakcie przygotowywania tego
prototypu wskazuje na znaczną przewagę trudności organizacyjnych nad
technicznymi. Jest to jednak doświadczenie ze wszech miar pozytywne. W
projekcie bierze udział znaczna grupa osób o przekroju wiekowym od 20
do ponad 60 lat, zamieszkująca obszar geograficzny od Londynu po Tokio.
Na potrzeby projektu wpłynęły i ciągle wpływają liczne deklaracje zgody
na internetową re-edycję opublikowanych wcześniej materiałów zarówno ze
strony wydawców, jak i autorów. Znakomicie wprost układa się współpraca
z Instytutem Dziedzictwa Bronisława Piłsudskiego w Jużno-Sachalińsku
[53], którego Dyrektor,В.М.Латышев, w pełni docenia siłę publikacji w Internecie.
Na kulturę niewiele się obecnie łoży z
pieniędzy budżetowych i Internet jest dla niej prawdziwą łodzią
ratunkową na wzburzonych falach gospodarki rynkowej. Odnotujmy kilka
ważnych przewag publikacji internetowych nad tradycyjnymi:
Edytorstwo internetowe należy ze wszech
miar wspierać. Biblioteki w tej materii mają wyjątkowo dobry punkt
startu: dysponują klasycznymi zasobami: książkami, czasopismami,
wydawnictwami kartograficznymi itp. Tradycją stały się wystawy
organizowane w bibliotekach okresowo, lub okolicznościowo. Nie ma
wątpliwości, że do tej chwili nie ujawniło się w większej skali w
bibliotekach wystawiennictwo internetowe. Pod tym względem wart
rozpowszechnienia jest przykład Biblioteki Królewskiej w Hadze, gdzie
na korytarzach zorganizowano stoły ze zgrabnie wbudowanymi komputerami
o płaszczyźnie ekranu pokrywającej się z płaszczyzną stołu. Na tych
stanowiskach odwiedzający bibliotekę mogą oglądać cyfrowe wersje
zbiorów specjalnych biblioteki. Nietrudno sobie wyobrazić, o ile
bardziej pożyteczny dla czytelnika byłby kontakt z pełną, cyfrową kopią
starodruku czy rękopisu, niż pełne nostalgii oglądanie szacownych
opraw, lub dwóch stron rozłożonych dzieł. Aby dać Czytelnikowi
przedsmak, co przy dobrych chęciach biblioteki można w tej materii
zrobić, proponujemy obejrzenie cyfrowej repliki Grammaire Egyptienne
Jean François Champolliona, udostępnianej w Internecie przez University
of Illinois w Chicago pod adresem:
Transkrypcja
i transliteracja są zabiegami wychodzącymi na przeciw niemocy twórcy
transkryptu lub jego adresata w zakresie czynnego posłużenia się
zapisem oryginału w celach identyfikacyjnych lub komunikacyjnych. W
zasadzie chyba panuje powszechna zgoda wszystkich wypowiadających się
specjalistów co do tego, że zarówno transliteracja jak i transkrypcja
są niedokładne i należy dołożyć wszelkich starań celem zapewnienia
możliwości współbieżnego zapisu w języku oryginału. Bardzo dobre
studium tego tematu przedstawiła Aissing [1992]. W bibliotekach znanym
na świecie zabiegiem jest romanizacja (termin używany powszechnie na
Zachodzie). Pod nazwą tą Miller [1982] definiuje metodę konwersji słowa
zapisanego alfabetem nie wywodzącym się z łaciny (ang. non-roman) w
słowo, które brzmi (ang. sounds) jak oryginał, ale jest zapisane
literami alfabetu łacińskiego (patrz przypis 38\ na dole strony 90);
dodając, że można tego dokonać na drodze transliteracji, bądź
transkrypcji fonetycznej. Niestety, romanizacja nie jest zabiegiem
dobrze określonym: różne kraje stosują różne schematy. Spośród podanych
przez niego pięciu popularnych form wyszukiwania nazwiska Чайковский
(10 liter) jedna ma 10 liter, dwie 11 liter i dwie 12 liter - a zatem
przeważa schemat transkrypcyjny nad transliteracją. Fakt ten prowadzi
do bardzo ograniczonej skuteczności wyszukiwania obcojęzycznego w
zagranicznych serwerach, skuteczność ta bowiem zależy od znajomości
lokalnego schematu romanizacji przez zdalnego użytkownika i,
ewentualnie, od szczęśliwego zbiegu okoliczności istnienia odpowiednio
bogatej listy haseł wzorcowych na lokalnym serwerze (o ile w ogóle
lokalny serwer ma kartotekę haseł wzorcowych). Zdalny użytkownik po
prosu na ogół nie ma pojęcia, czy lokalnie stosuje się transkrypcję czy
transliterację. Borgman [1997] określa taką transformację danych jako
stratną (ang. lossy), odwołując się do jej podobieństwa ze stratną
kompresją obrazu. Zabawne, że takie problemy występują też na gruncie
lokalnym. W cytowanej wyżej pracy Aissing podaje dla ilustracji swych
wywodów, że na 50 studentów języka rosyjskiego indagowanych na
okoliczność sposobu transkrypcji (autorka niepoprawnie posługuje się tu
terminem 'transliteracja') litery Я aż 80% wybrało ya, podczas, gdy
tylko 7% procent respondentów podało zgodną z praktyką Biblioteki
Kongresu wersję ia (pozostałe propozycje nie zostały przytoczone). A
zatem stosowany przez bibliotekę schemat nie spotyka się z
oczekiwaniami publicznymi! Dla kogo zatem biblioteki wprowadzają swoje
przepisy? Niech odpowiedzią na to pytanie będzie zacytowana w pracy
Aissing wypowiedź wyjęta z dawno opublikowanego artykułu Sommer [1934]:
Dla czyich korzyści robi się
transliterację? Czy jest ona przede wszystkim dla czytelników, czy
personelu (ang. staff)? Po
rozważeniu może być tylko jedna odpowiedź: dla personelu, lub, bardziej
ogólnie, dla tych, którzy nie są w stanie czytać zapisu oryginalnego.
... A jeśli chodzi o czytelników zagranicznych, to oczywiście wolą oni
zapis oryginalny, nie czerpiąc praktycznie żadnych korzyści z
transliteracji. Termin romanizacja ma na tyle swoisty posmak, że
Polakowi nasuwają się niemiłe skojarzenia z germanizacją. Tucker [1987]
używa podobnego określenia: cyrylizacja w odniesieniu do języków
mniejszości etnicznych, jako formy presji o naturze politycznej,
religijnej i kulturowej w odniesieniu do języków tureckich na początku
tego wieku (zapewne chodziło Tuckerowi o Rosję, ZSRR oraz Bułgarię).
Ale oczywiście cyrylizacja jest normalną procedurą stosowaną w np.
bibliotekach rosyjskich.
Przykładem niefortunnie zaprojektowanej i wdrożonej transkrypcji był
wspomniany wcześniej system transkrypcji języka chińskiego według
schematu Wade-Giles. Szczegóły kosztownej migracji do schematu pinyin
można znaleźć w zasobach sieciowych Biblioteki Kongresu pod adresem:
http://lcweb.loc.gov/catdir/pinyin
Wydaje się, że w czasach obecnych, gdy znikały żelazne kurtyny i
kruszone były betonowe mury, nadszedł czas na pełne respektowanie
piękna kulturowego innych narodów i zaniechania niesławnych praktyk
przeszłości. Wyzwaniem czasu nie jest całkowite zarzucenie
transliteracji i transkrypcji, lecz wprowadzenie jednolitych zasad
dodatkowego posługiwania się językiem oryginału w systemach
informacyjnych i jak najszybsze wdrożenie ich w codzienną praktykę.
Wielojęzyczność w opisie bibliograficznym
Dawniej właściciel kolekcji książek, a później jego bibliotekarz nie
stronili od opisu bibliograficznego rozszerzonego o dane zapisane w
języku oryginału. Na wstępie przyjrzymy się kilku wybranym przykładom
takich opisów z polskich bibliotek.
Rysunek 28. Opis w językach: polskim i hebrajskim. Biblia hebrajska.
Wydanie z 1928
roku. Biblioteka Jagiellońska.
III |
1928 Druk. Sikora i Mylner |
I | |
(Biblia) |
כְּתוּבִים
עִס בֵּאוּר חָדָשׁ, מַפות וְצִיּוּרים מאת שׁ. ל. גרדון (Kethūbhim) Hagiographa
z nowym komentarzem ... przez Sz.L.Gordona I. סֵפֶר תְהִלִּים מְבאָר עַל־יְדֵי שׁ. ל. גרדון (Sēfer thillim.) [Księga Psalmów] str. CXII str. 320. -1928 |
ob.
1928. |
|
lekt
vol. 1 |
Rysunek 29. Opis w językach: polskim, greckim i łacińskim: Iliada po
grecku. Wydanie z 1803
roku. Biblioteka Jagiellońska.
Numerus currens |
Litera H. |
Auctores
Gracci 807 |
Ενετιησιν Νικολάου Γλυκύ 1803 |
Forma | Armarium | Forulus | Series |
Homeros dar Ł. Bromirskiego 1872 |
Ομήρου Ιλιας
σύν τοίς σχολίοις ψευδεπιγραφοις Διδύμου. Δαπάνη άδρᾶ̩ τν͂ς τῶν
Ζωσιμάδων γενναίας αΰταδελφότητος. Tomów dwa. |
8 |
Rysunek
30. Opis w językach: polskim, greckim i francuskim: Biuletyn
statystyczny Tytuł wpisano po
grecku. Alternatywny tytuł czasopisma podano po francusku. Wpisano
roczniki od 1929 do 1939. Centralna Biblioteka Statystyczna.
Nr. inw.
............................. Nr. bib. 17099 |
||||||||||||
ΜΗΝΙΑΙΟΝ ΣΤΑΤΙΣΤΙΚΟΝ ΔΕΛΤΙΟΝ
ΤΗΣ ΓΕΝΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΥΠΗΡΕΣΙΑΣ ΤΗΣ ΕΛΛΑΔΟΣ. |
||||||||||||
Bulletin mensuel de
statistique publié par la Statistique Générale de la Grèce |
||||||||||||
Wychodzi od 1929 Przest.
wych. |
Znak według klasyfikacji- dziesiętnej 31 (495) (95) |
|||||||||||
Miejsce wyd. Athènes |
||||||||||||
Wydawca |
||||||||||||
Rok.wyd. Rok.wyd.
Rok.wyd. |
||||||||||||
1929 |
1934 |
1939 |
||||||||||
1930 |
1935 |
|||||||||||
1931 |
1936 |
|||||||||||
1932 |
1937 |
|||||||||||
1933 |
1938 |
Rysunek 31. Opis w językach: polskim i rosyjskim. Spółdzielcze spichlerze zbożowe. Tytuł i instytucja sprawcza wpisane w języku rosyjskim. Miejsce wydania podane w transliteracji. Centralna Biblioteka Statystyczna. (opis dla niewidomych)
|
[Magaziny] - [Магазины] No
2799 2049 |
|||||||||||
[Obš
estvennye] Общественные сельские хлѣбозапасные <агазины въ 46 губерніах Европейской Россіи ихъ в<ѣсти><ость и стои<ость. Составлено Центральны<ъ Статистически<ъ Ко<итето<ъ по данны<ъ Хозяйственнаго Департа<ента М.В.Д. къ 1892 г. <Вре<енникъ Центральнаго Статистическаго Ко<итета Министерства Внутреннихъ Дѣлъ N 31.> |
316/1918 | Format | ||||||||||
Miejsce wydania S.-Pietierburg |
||||||||||||
Wydawca Cientralny Statisticzeskij Komitet Ministierstwa Wnutriennych Dieł |
||||||||||||
Drukarnia W.Biezobrazow i Komp. |
||||||||||||
[
31:[72:633] (41) |
||||||||||||
Tom |
Rok wyd. |
Stron |
Tabl. |
Tom |
Rok wyd. |
Stron |
Tabl. |
Tom |
Rok wyd. |
Stron |
Tabl. |
|
1 |
1894 |
XVIII+177 |
- |
|||||||||
Z
przytoczonych przykładów widać, że dawniej polski bibliotekarz uważał
za swój honor wiernie zapisać tytuł wydawnictwa w języku oryginału, bez
żadnej transliteracji, czy transkrypcji. Podobnie postępowano z
nazwiskami autorów i niektórymi innymi detalami opisu
bibliograficznego. Oczywiście, pozostała część opisu bibliograficznego
wykonywana była w lokalnym języku narodowym. Powyższe przykłady nie są
u nas czymś wyjątkowym. Nawet sprawdzając poprzez sieć dotychczasowe
zasoby znajdującego się w trakcie retrokonwersji alfabetycznego
katalogu Biblioteki Jagiellońskiej, a dotyczące np. Arystotelesa, można
znaleźć znacznie więcej takich przykładów. To nie były pojedyncze
przypadki – to była reguła. Nie inaczej było za granicą. Maja Žumer
[1999] charakteryzując liczący 95 tys. kart i obejmujący okres 1774 –
1947 narodowy katalog Słowenii, wśród języków katalogowania wymienia
łaciński, niemiecki, grecki, hebrajski, - obecne są też pozycje
katalogowane cyrylicą.
Najbardziej restryktywne przepisy katalogowania ma pod tym względem
Rosja. Odziedziczona po czasach ZSRR norma GOST 7.1-84, p.1.6 wyraźnie
nakazuje „Opis bibliograficzny tworzony jest w języku tekstu dokumentu”
[Pastukhova 2000]. Tu nie ma opcji – tu jest nakaz. Widać to najlepiej
na załączonych kopiach oryginalnych kart katalogowych udostępnionych
przez Bibliotekę Rosyjskiej Akademii Nauk w St. Petersburgu, a
obejmujących wydawnictwa współczesne.
Rysunek 32. Opis w językach: rosyjskim i arabskim. Tytuł (Zasady tworzenia indeksu i klasyfikacji) w języku arabskim, w transkrypcji na cyrylicę i w tłumaczeniu rosyjskim. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg. Karta prosta bez podziału na rubryki.
8 |
مبادئ
لفهرسة والتصنيف. – الموصل: – Мосул, 1980 Принципы составления указателяи и классификаци. Т.2. 1980 220с. |
ОЛСАА 339-82 | 5602 |
W lewej części karty umieszczony jest symbol oznaczający język: „Ар” (arabski). Po tytule w języku oryginału umieszczono transkrypcję tytułu w języku rosyjskim. Skrót: ОЛСАА oznacza Dział literatury krajów Afryki i Azji.
Rysunek
33. Opis w językach: rosyjskim i perskim. Autor (K. Marks) i
tytuł (Praca
najemna i kapitał) w języku
perskim i w tłumaczeniu na rosyjski bez transkrypcji.
Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg.
МЭ
перс-47
3- 1 |
ماركص. نشرياتبروكرس ، ١٩٨١. 48 – ص. ؛ 20 سم. Маркс, Карл.
Нае<ный труд и
капитал. – М.:
Прогресс, 1981.
|
ОЛСАА 386-83 |
72764 |
Rysunek 34. Opis w językach: rosyjskim i japońskim.
Katalog
dokumentów o byłym Premierze Japonii Katsura Taro. Tytuł w języku
japońskim, transkrypcji i tłumaczeniu. Biblioteka Rosyjskiej Akademii
Nauk. St. Petersburg.
З
В-спр.
Яп. 246 |
桂太郎関係文書目録 「東京 、 国立国会図書館、 1965 (憲政資料目録第三) Кейтаро канкей бунсё <окуроку, [Токио], Кокурицу коккай тосёкан, 1965 (Кэнсэй сирё <окуроку № 3). [Каталог доку<ентов из собрания Кэйтаро] <РПМ Б-ки Ак. наук СССР |
ОЛСАА 211-68 65300
|
Rysunek 35. Opis w językach: rosyjskim i chińskim. Tytuł (Japońsko – chińskie terminy meteorologiczne) w języku chińskim, transkrypcji i tłumaczeniu na rosyjski. Biblioteka Rosyjskiej Akademii Nauk. St. Petersburg. Karta prosta bez podziału na rubryki.
З
В-спр.
Кит 570 |
日 漢気象学詞匯:日中気 象学用語集 「北京 : 科学 出版社、 1981. - У,288 с; 19 с<. Жи хань цисянсюе цыхуй: Жи чжун цисянсюе юнъюй цзи. - 「Пекин , 1981. Японско-китайские <етеорологические тер<ины, РПМ Б-ки Ак. наук СССР |
ОЛСАА
670-82 |
5026
|
A zatem Rosjanie na
bieżąco katalogują tradycyjnie na kartach, posługując się równolegle
zapisem w języku oryginału i transkrypcją, lub transliteracją
(cyrylizacja).
W miarę tak zwanego rozwoju, zamożnych i wykształconych właścicieli
bibliotek zaczęli zastępować wynajęci ludzie - bibliotekarze i stopień
znajomości języków obcych u osób opracowujących opis zasobów gwałtownie
zaczął się pogarszać. Postępująca deprecjacja zawodu doprowadziła w
efekcie do wprowadzenia takich przepisów katalogowania, które pozwoliły
by uniknąć jakiegokolwiek strapienia z tytułu kontaktu z jakimś
egzotycznym przypadkiem. Sposoby tłumaczenia się bibliotekarzy z tego
powodu są niekiedy osobliwe. Padziński [2000:20] pisze co następuje: „Polskie Normy” i w ślad za nimi
„Przepisy katalogowania książek” dopuszczają podawanie elementów
zapisanych w alfabetach niełacińskich w formie oryginalnej. Jednakże w
praktyce jest to rzadko stosowane, głównie z powodów technicznych.
Uwaga ta dotyczy zarówno katalogów kartkowych, jak i komputerowych. W
przypadku zautomatyzowanych katalogów bibliotecznych duże nadzieje na
zmianę tej sytuacji wiąże się z pracami nad wdrożeniem ISO 10646 [147]
i UNICODE [55]. Jednakże droga od
projektów i eksperymentów do rzeczywistego zastosowania jest daleka.
Polscy bibliotekarze dawno przestali stosować katalogowanie w języku
oryginału, na długo przed wprowadzeniem komputerów osobistych i
katalogów on-line. Żadne więc względy techniczne nie są w stanie
usprawiedliwić takiego postępowania. Po dzień dzisiejszy robią to
Rosjanie – więc mogli by to robić również Polacy. Jeśli współpracujący
z biblioteką orientalista może wpisać na karcie katalogowej fragment
opisu posługując się transkrypcją, to może to zrobić również w języku
oryginału. Chyba, że kierująca się względami „politycznymi” biblioteka
nie chce mu na to pozwolić.
Dla uświadomienia bibliotekarzom jak niewiele potrzeba, by katalogować
w języku oryginału dodamy tu, że autor niniejszej książki nie jest
orientalistą, nie zna hebrajskiego, arabskiego, perskiego, japońskiego
ani chińskiego i mieszka w mieście, gdzie nie ma na uniwersytecie ani
jednego zakładu filologii orientalnej. Tym niemniej nie ruszając się z
Gdańska był w stanie zorganizować w krótkim czasie przygotowanie w
unikodzie kilku dość egzotycznych opisów w języku oryginału, będących
wiernymi odpowiednikami oryginalnych kart katalogowych i nie płacąc za
to nawet przysłowiowej złotówki. Prawdziwości opinii o możliwości
sporządzenia opisów bibliograficznych w unikodzie nie byłby w stanie
Czytelnik sprawdzić korzystając z drukowanej wersji tej książki,
natomiast może to sprawdzić korzystając z niniejszej wersji online.
Wszystkie powyższe oryginalne skrypty można przenieść do innego
dokumentu oznaczając je blokiem a następnie stosując mechanizm
„kopiuj-wklej” , co ambitny bibliotekarz może niniejszym potraktować
jako zlecone „zadanie domowe”.
Droga, jaką trzeba przebyć od projektów do katalogowania w języku
oryginału w ramach współczesnych systemów komputerowych nie musi być
długa. Z pewnością można już na nią wchodzić, bo właściwie wszystko już
jest do dyspozycji. Ci którzy chcą - po prostu już katalogują.
Szanujące się biblioteki świata starają się od długiego czasu honorować
oryginalny język opisu pozycji wydawniczej - już w nowej, cyfrowej
technologii - nie ograniczając się do transliteracji, czy też
transkrypcji. Aliprand [1992] podaje kilka dat: "...niełacińskie dane urzeczywistniły
się (w formacie USMARC - przyp. JBC)
z implementacją zapisów wschodnioazjatyckich w RLIN w roku 1983.
Kolejnymi amerykańskimi implementacjami języków niełacińskich były:
implementacja zapisów wschodnioazjatyckich w OCLC (1986), zaś w RLIN
cyrylicy (1986), hebrajskiego (1988) i arabskiego (1991)".
Znaczne też już są skatalogowane zasoby, choć z pewnie wiele gorzkich
słów można by wypowiedzieć o ich jakości i poziomie unifikacji. Zhang i
Zeng [1998] podają: Na przykład pliki bibliograficzne RLIN i OCLC
zawierają ponad 30 milionów tytułów w ponad 360 językach. Ponad 1,5
miliona rekordów w bazie RLIN zawiera zapisy dalekowschodnie, cyrylicę,
hebrajski i arabski. W katalogu centralnym OCLC OLUC (Online Library
Union Catalog) ponad 14.000 pozycji ma rekordy w 45 językach.
Przykład katalogowania wydawnictw niełacińskich (pełen opis w USMARCu)
można znaleźć w publikacji Aliprand [1992]. Dzięki uprzejmości firmy
Aurora podajemy ładny, acz niekompletny (brak Etykiety Rekordu),
przykład katalogowania wydanej w Korei książki pt. : "Główne
zagadnienia koreańskiej ekonomii w roku 1993 i zagadnienia pokrewne".
Rysunek 36. Alternatywny opis bibliograficzny w języku oryginału. MARC
21. Opracowanie własne na podstawie materiału firmy Aurora.
245 |
0 |
0 |
$6880-01$a1993-
nyon Hanguk
kyongje ui chuyo hyonan gwa chongch'æk tæung |
246 |
3 |
$aCh'on-kubæk-kusipsamnyon Hanguk kyongje ui chuyo hyonan gwa chongch'æk tæung |
|
260 |
$6880-02$aSeoul T'ukpyolsi:$bHanguk Kæbal Yonguwon,$c1994. |
||
300 |
$a315 p.:$bill.;$c26 cm. |
||
500 |
$a"1994.2." |
||
651 |
0 |
$aKorea (South)$xEconomic policy$y1960- |
|
650 |
0 |
$aPlanning$zKorea (South) |
|
651 |
0 |
$aKorea (North)$xEconomic conditions |
|
710 |
2 |
$6880-03$aHanguk Kæbal Yonguwon. |
|
880 |
0 |
0 |
$6245-01/$1$a1993년 한국 경제의 주요 현안과 정책 대응:$b연구속보 모음집 |
880 |
$6260-02/$1$a서울특별시:$b한국개발연구원 |
||
880 |
2 |
$6710-03/$1$a한국개발연구원 |
Tradycyjnie możliwości operowania zapisami różnojęzycznymi w środowisku komputerowym ograniczał repertuar znaków objęty jednolitym kodowaniem. Jeśli dwa języki należały do dwóch różnych repertuarów znaków (a więc np. przypisujących ten sam kod do różnych znaków), to aplikacja mogła odmówić usługi. Tak np. wczesne wersje węgierskiego oprogramowania do rozpoznawania znaków Recognita na pozwalały na rozpoznawanie tekstu zawierającego mieszaninę słów polskich i szwedzkich. Te dwa języki nie mogły obok siebie być rozpoznawane. Zagadnienia te były omówione wyżej przy normach ISO 8859-x. Jednak w wielu przypadkach istniała możliwość posłużenia się mechanizmem przełączania repertuarów znaków zdefiniowanym przez normę ISO 2022. W szczególności dotyczyło to bibliograficznych baz danych. USMARC zarezerwował pole zmiennej długości 066 na umieszczenie informacji o stosowanych repertuarach znaków. Powtarzalne pole 880 przeznaczone jest na przechowywanie alternatywnej reprezentacji graficznej opisu podanego w innym polu. Niestety, mechanizm przełączania repertuarów znaków z konieczności musi posługiwać się kodami kontrolnymi. Przeto bez specjalnego oprogramowania taka informacja bibliograficzna jest bardziej zniechęcająca niż zachęcająca. Zhang i Zeng [1998] piszą wprost: W podsumowaniu, bez Unicode'u użytkownicy mogą potrzebować różnego oprogramowania i różnych terminali aby wyświetlić czy wprowadzić dane w różnych językach, szczególnie wtedy gdy ma się do czynienia z więcej niż kilkoma zapisami, zwłaszcza zapisami niełacińskimi. To może być do przyjęcia dla pewnych aplikacji komputerowych, ale z pewnością nie jest do zaakceptowania dla czytelników biblioteki. Najbardziej właściwym rozwiązaniem jest tu przejście na kodowanie w ISO 10646 (Unicode). Aliprand [1999] gorąco zachęca narodowych redaktorów przepisów katalogowania do rewizji aktualnie ich używanych wersji pod kątem widzenia dostosowania się do możliwości nowych technologii. Dobrze jest oczywiście mieć na względzie fakt, że MARBI już szczegółowo przedyskutowało wszystkie "za" i "przeciw" migracji do Unicode w ramach USMARCa ( http://lcweb.loc.gov./marc/marbi/1998/98-18.html).Szczegóły ustaleń podane są w cytowanym dokumencie MARBI. Z ustaleń komisji wiemy, że uzgodniono następujące zasady zmian:
W wyniku podjętych
decyzji w formacie MARC 21 schemat kodowania znaków został przeniesiony
do Etykiety Rekordu pozycja 09 (
http://www.loc.gov/marc/bibliographic/ecbdldrd.html).Z punktu widzenia zarówno bibliotekarza, jak i użytkownika należy
jeszcze zreferować stan propozycji w zakresie szeregowania
wielobajtowych łańcuchów kodowanych w UTF-8. Wkrótce po opublikowaniu
specyfikacji UNICODE 3, Davies i Whistler [2001] opublikowali algorytm
porównywania łańcuchów unikodowych. Algorytm ten rozwiązuje wielką
liczbę problemów w skali wszystkich języków. W szczególności zapewnia
porządkowanie alfabetyczne, diakrytyki (wszystkich poziomów) oraz
dużych i małych liter. Ma on jednak pewne cechy, które będą wymagały
rozwiązania. W szczególności:
O tym, że to
wszystko jest do zrobienia już dziś, świadczy unikodowa bibliograficzna
baza danych, oraz unikodowe konwersje oferowane przez Research Library
Group swoim członkom (http://www.rlg.org/r-focus/i47eureka.html).
Dobrze, że do oglądania tej bazy nie jest już potrzebne specjalne
oprogramowanie, by ujrzeć ją w całej urodzie malowniczego Orientu. Po
prostu wystarczy dobra przeglądarka WWW.
Jednak posługiwanie się standardem Unicode do reprezentacji
alternatywnego opisu w języku oryginału – choć ze wszech miar pożądane
– często nie jest konieczne. Świadczą o tym katalogi zbiorów
orientalnych udostępnione sieciowo przez biblioteki użytkujące system
Allegro. W charakterze przykładów wymienimy tu Bodleian Library z
Oxfordu (
http://www.bodley.ox.ac.uk/dept/oriental/allegro.htm)oraz Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (
http://ead.sbb.spk-berlin.de:8080/cat.html).Mimo operowania narodowymi repertuarami znaków dalekowschodnich
(kodowanie Big-5 dla chińskiego oraz EUC dla japońskiego) ideogramy są
znakomicie dekodowane przez współczesne przeglądarki internetowe, a co
ważne – dopuszczają wykorzystanie 7-bitowych kodów ASCII cennie
uzupełniających opis bibliograficzny.
Z powyższego widać, że funkcjonująca w bibliotekach wielojęzyczność
zasobów podzieliła społeczność bibliotekarzy na dwie grupy, stosujące
odmienne podejścia w opisie bibliograficznym. W przebadanych
rozwiązaniach zarysowały się kolejne podpodziały wyznaczone przez
zaimplementowane standardy (japoński: EUC, JIS, Shift-JIS, Unicode;
polski: ISO 8859-2, CP 1250, Mazovia, Unicode; rosyjski: KOI-8,
ISO-8859-5, CP1251, Unicode).
Próby zaagitowania środowiska bibliotekarzy do katalogowania w języku
oryginału często sprowadzają się do werbalizacji problemu, bez
praktycznej demonstracji własnych lub choćby cudzych dokonań. Ostatnio
Chachra [2001] w swoim wystąpieniu na temat globalizacji i standardu
Unicode, na 5 ilustracji (zrzuty ekranu z klienta VTLS Virtua oraz
przeglądarki internetowej korzystającej z Virtua Web Gateway) nie podał
ani jednego przykładu demonstrującego współegzystencję zapisów
orientalnych i europejskich w jednym rekordzie bibliograficznym, czy
dokumencie pełnotekstowej bazy dostępnej przez Z39.50. Można mieć
nadzieję, że prezentowana w niniejszej książce egzemplifikacja
aktualnych możliwości stosowania unikodu w systemach cyfrowych zachęci
i ośmieli polskich bibliotekarzy do odważniejszego i czynnego wdrożenia
tego standardu.
Powyżej zostało
pokazane, że elektroniczny dokument cyfrowy ma dwie podstawowe postaci:
źródłową i prezentacyjną. Czytelnik spostrzegł, że w dokumencie
żródłowym umieszczona jest znaczna ilość informacji, niewidocznej w
postaci prezentacyjnej dokumentu. W głównej mierze jest to informacja
związana z formatowaniem dokumentu. Jednak fakt podziału zawartej w
dokumencie informacji na ujawnianą i ukrywaną można wykorzystać dla
dodatkowego opisu dokumentu. Tego rodzaju opis to w uproszczeniu
mówiąc, dane o danych. Posługując się terminem wprowadzonym przez
Tarskiego [1936] będziemy mówili o wprowadzaniu do dokumentu metadanych
(ang. metadata). Nie ma jakiejś specjalnej potrzeby szczegółowego
przybliżania polskim bibliotekarzom celów tworzenia metainformacji.
Zagadnienie to zostało obszernie zreferowane przez Bożennę Bojar
[1976], a dekadę później przywołane przez Annę Sitarską [1987] – ze
szczególną intencją promocji idei wzbogacenia informacji o tekstach w
danych bibliograficznych. Krótki komunikat na ten temat przedstawił
ostatnio Marek Nahotko [2001].
Duch metadanych ożywa w szczególny sposób w czasach żywiołowego rozwoju
cyfrowych publikacji elektronicznych. W stosunku do znakomitej
większości tych dokumentów dość łatwo jest określić autora i tytuł. Na
ogół są ogromne trudności z ustaleniem daty powstania dokumentu, niemal
kompletnie brak informacji o czasie i zakresie wprowadzonych do
pierwotnego dokumentu zmian. Nie ma najmniejszych szans na pełne
uzupełnienie tych danych w Internecie (ponad 2 miliardy dokumentów
indeksowanych w 2002 roku ). Warto jednak zachęcać autorów nowych
dokumentów do wprowadzania metainformacji.
W poniższym przykładzie wykorzystane zostaną zalecenia The Dublin Core
Metadata Initiative oraz Nordic Metadata Project (
http://www.lub.lu.se/cgi-bin/nmdc.pl). Dużą liczbę użytecznych hiperłączy do stron oferujących formularze do
generacji metadanych można znaleźć pod adresem: http://dublincore.org/tools.
Rysunek 37. Wypełnianie formularza Nordic Metadata Project
Wybrany formularz
nie obsługuje standardu Unicode, ale jest wystarczająco użyteczny, by
przy drobnych modyfikacjach móc się nim posłużyć. Przy okazji warto
odnotować fakt niedoceniania przez twórców formularzy potrzeby obsługi
standardu Unicode przy generacji metadanych. Można przypuszczać, że
jedną z przyczyn braku takiego zainteresowania jest brak tej obsługi w
systemach wyszukujących wszystkich dawnych systemów (Lycos, yahoo,
AltaVista). Dopiero Google zaoferował pełne indeksowanie i wyszukiwanie
metadanych kodowanych w tym standardzie. Ta sytuacja może się zmienić
za jakiś czas, ale na razie oferta jest bardzo ograniczona.
Końcowym produktem pracy systemu formularza są metadane, które
użytkownik zamierza wbudować do swego dokumentu. Na potrzeby
uzupełnianego tu artykułu Łatyszewa konieczne jest wprowadzenie w
wygenerowanych wyżej metadanych kodowania zgodnego z dokumentem
(Unicode), a dodatkowo na potrzeby niniejszego opracowania wprowadzony
zostaje kolor fontu ułatwiający semantyczną analizę metadanych. Oto
uzyskane metadane:
<META NAME="DC.Title" CONTENT="САХАЛИН В СУДЬБЕ
БРОНИСЛАВА ПИЛСУДСКОГО">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#title">
<META NAME="DC.Creator.PersonalName"
CONTENT="ЛАТЫШЕВ Владислав Михайлович">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#creator">
<META NAME="DC.Creator.PersonalName.Address"
CONTENT="sakhmus@snc.ru">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#creator">
<META NAME="DC.Subject" CONTENT="Bronislaw
Pilsudski">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Бронислав Пилсудский">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Сахалин">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Subject" CONTENT="Sakhalin">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#subject">
<META NAME="DC.Type"
CONTENT="Text.Article">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#type">
<META NAME="DC.Identifier"
CONTENT="http://panda.bg.univ.gda.pl/ICRAP/ru/latyshev.html">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#identifier">
<META NAME="DC.Identifier"
CONTENT="(SCHEME=ISBN) 5-900334-02-3 (Т. 1)">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#identifier">
<META NAME="DC.Language"
CONTENT="(SCHEME=ISO639-1) ru">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#language">
<META NAME="DC.Date.X-MetadataLastModified"
CONTENT="(SCHEME=ISO8601) 2002-07-03">
<LINK REL=SCHEMA.dc
HREF="http://purl.org/metadata/dublin_core_elements#date">
W niniejszej pracy
podjęta została próba uściślenia zakresu posługiwania się pewnymi
terminami. W niniejszym rozdziale szczególna uwaga zostanie poświęcona
możliwym zakresom znaczeniowym terminu ‘dokument’ i sprecyzowaniu w
jakim sensie termin ten będzie rozumiany na łamach niniejszej książki.
Przed rozpoczęciem omawiania dokumentów cyfrowych, przedyskutowane
zostanie kilka spraw związanych z dokumentami tradycyjnymi. Zwrócona
przy tym będzie uwaga na trudności występujące zarówno przy
definiowaniu dokumentu tradycyjnego, jak i całego szeregu jego form
przejściowych do świata cyfrowego. Przy okazji podjęte zostaną pewne
próby przedyskutowania zakresów znaczeniowych kilku używanych obecnie
terminów. Należy powątpiewać w szansę znalezienia zadawalającego
rozwiązania na łamach tej książki. Raczej należałoby przyjąć, że
poniższe rozważania mogą skłonić kilka osób do rezygnacji z nadużywania
w publikacjach pewnych terminów. Chodzi tu głównie o terminy
współczesne, związane z zastosowaniem nowoczesnych technologii w
bibliotekach. Nowe, wpadające łatwo w ucho i stylizowane na
nowoczesność terminy (e-mail, e-business, e-conference, e-book,
e-document, e-signature, virtual library, electronic library, digital
library) tworzono na Zachodzie z wielką łatwością, lecz bez starań o
precyzyjne ich zdefiniowanie. Okazuje się, że dopisanie drobnych dwóch
znaków ‘e-’ do znanej od stuleci nazwy dramatycznie zmieniło dobrze
ustaloną sferę opisową pierwowzoru, wprowadzając dezorientację, a nawet
wstrząsając podstawami poczucia bezpieczeństwa szerokich mas
społecznych, wychowanych i wykształconych na pożywce tradycyjnych
technologi. Nie ma w tym nic zaskakującego. Przełomy rewolucyjne –
zarówno wojskowe, jak i technologiczne – wywierają wielki wpływ na
funkcjonowanie społeczeństw i używane przez nie języki. Jakże
skrupulatnie, a zarazem obrazowo zreferował Victor Klemperer [1983]
deformacje utartych znaczeń języka niemieckiego, jakie ujawniły się w
ciągu kilku zaledwie lat istnienia Trzeciej Rzeszy. Podobnie ciągle
jeszcze odczuwamy w naszym kraju obecność śladów komunistycznej
‘nowomowy’ w życiu codziennym. Uważne prześledzenie i analiza zmian
terminologii staje się ważnym zadaniem w obecnym okresie
ponadnarodowych integracji. Ostatnio ukazała się u nas wartościowa
rozprawa Dariusza Grygrowskiego Dokumenty nieksiążkowe w bibliotece
(Grygrowski [2001]), obszernie dyskutująca liczne nieścisłości i
niekonsekwencje terminologiczne odnotowane przez niego zarówno w
literaturze krajowej, jak i zagranicznej. Badania Grygrowskiego
zmierzały jednak nieco innym kierunku, niż podjęte w ramach niniejszego
opracowania. Niebywałe możliwości dnia dzisiejszego zaczynają nasuwać
wątpliwości co do tego, jak długo możemy używać dobrze znanego terminu
w procesie migracji technologicznej. Terminologia prawnicza nie nadąża
za rozwojem technologii nie tylko u nas, ale również w USA. Rozwój ten
nieustannie stawia prawników w dwuznacznej sytuacji.
Rozważmy następujący przypadek. Pod nazwą książka mówiona rozumiano
przez długie lata nagranie magnetofonowe głosu lektora czytającego
książkę na użytek inwalidów wzroku. Z biegiem czasu pojawiła się
technologia zapisu dźwięku na dyskach CD o jakości nieporównywalnie
wyższej, niż zapewniała to taśma magnetofonowa. Wydaje się, że bez
specjalnych oporów termin książka mówiona można przenieść i na tą
platformę technologiczną. Jednak już od jakiegoś czasu potrafimy taki
głos skonwertować do wersji cyfrowej, usunąć szumy i skażenia
oryginalnego nagrania i wreszcie skompresować, by wyjściowy plik
zajmował możliwie mało miejsca na dysku. Taki plik, np. w formacie MP3,
możemy odsłuchać na domowym komputerze przy pomocy jakiejś przeglądarki
(a właściwie przesłuchiwarki) plików audio, powiedzmy popularnego
WinAmp’a. Tu już sytuacja zaczyna być bardziej skomplikowana. W
zasadzie wyjściowy plik został utworzony z jakiegoś oryginalnego
nagrania książki mówionej - wiec niby wszystko jest OK! Właściwie można
pogodzić się i z cyfrowym czyszczeniem oryginalnego nagrania. Ale
problemy zaczynają się z formatem MP3. Ta technologia kompresji -
jakkolwiek świetna - nie jest bezstratna! Bowiem w delikatny, nawet
formalnie niezauważalny sposób usuwamy pewne elementy oryginalnego
nagrania. Cechy funkcjonalne utworu zostają, choć tym razem re-edycja
utworu może pociągnąć za sobą chęć czytającego aktora do uważnej
inspekcji całego nagrania. Wykonawca utworu (lektor) może nie godzić
się na taką maniulację jej/jego głosem. I to prawo trzeba respektować.
Jednak prawdziwy problem zaczyna się, gdy przechodzimy do najbardziej
nowoczesnej technologii książki mówionej - syntezy mowy. Współczesne
metody syntezy mowy, których najlepszym przykładem jest konkatenacja
difonów opracowana w ramach projektu MBROLA, do skonstruowania
syntezatora potrzebują tylko jednokrotnego odczytania standardowego
tekstu przez lektora. Mówiąc w uproszczeniu, przetworzony wzorcowy głos
z jednej strony zostaje ‘zużyty’ na wykonanie bazy difonów oraz
informacji prozodycznej, z drugiej zaś - posłuży do rozpoznania cech
intonacyjnych lektora. Końcowy produkt jest pakietem oprogramowania,
pozwalającego w niezwykle wiernym stopniu przekształcić wybrany ‘spod
dużego palca’ tekst w znajomy głos, czytający ten tekst całkowicie bez
świadomości i fizycznego udziału właściciela głosu! W takich warunkach
dowolny plik tekstowy staje się książką mówioną przez tego aktora,
którego wybierzemy sobie z puli dostępnych głosów syntezatora. Więc
może dziś wieczorem Ogniem i mieczem poczyta nam Andrzej Łapicki a
zaraz potem córka posłucha sobie do poduszki Ani z Zielonego Wzgórza w
wykonaniu Krystyny Czubówny.
Z jednej strony jest to fakt fascynujący, odkrywający wspaniałe
możliwości uczestnictwa niewidomych w życiu publicznym. Z drugiej
strony zauważamy tu jednak kolejną komplikację w definiowaniu kolejnej
wersji książki mówionej. W związku z technologią budowy syntezatorów
mowy i sposobem ich użytkowania, automatycznie nasuwa się nam bowiem
nieodparta konieczność przyjęcia koncepcji dokumentu rodzicielskiego i
dokumentów potomnych - zupełnie identycznie, jak to ma miejsce np. z
procesami w systemie operacyjnym UNIX. W powyższym przypadku dokumentem
rodzicielskim jest próbka głosu lektora użyta do skonstruowania
syntezatora mowy [58], zaś dokumentami
potomnymi są wszystkie zarejestrowane odczytania plików tekstowych przy
pomocy danego syntezatora. W kategoriach produkcji mamy tu:
<plik tekstowy 1> + <syntezator mowy> => <utwór 1>
==> <dokument 1>
<plik tekstowy 2> + < syntezator mowy > => <utwór
2> ==> <dokument 2>
Oznaczenie <utwór> nie oznacza tu jeszcze dokumentu potomnego,
ponieważ symbol ‘=>‘ określa zaledwie akt interpretacji tekstu przez
syntezator. Tego rodzaju interpretacja może być przedmiotem dochodzenia
praw autora tekstu (lub jego spadkobiercy) oraz lektora (wykonawcy),
który użyczył lub odsprzedał swój głos na potrzeby konstrukcji
syntezatora. Jednak aby sądowe dochodzenie czy interpretacja miała
miejsce, musi być udokumentowane - zatem dopiero zarejestrowany utwór
dźwiękowy staje się dokumentem, i dopiero ten może stanowić podstawę do
roszczeń autorskich/wykonawczych. Sam fakt istnienia na jakimś
komputerze obojga dokumentów rodzicielskich (tzn <pliku
tekstowego> oraz < syntezatora mowy >) jeszcze nie implikuje,
że kiedykolwiek miała miejsce interpretacja tekstu - czyli odtworzenie
utworu. W tym myślowym eksperymencie należy rozdzielić okoliczność
uzyskania pliku tekstowego od okoliczności jego interpretacji za pomocą
syntezatora mowy. Ta pierwsza może być wynikiem zarówno ‘dozwolonego
użytku’, jak i ‘nielegalnego naruszenia praw przedruku’ i dotyczy
wyłącznie praw właściciela praw przedruku (wydawca, autor). Ta druga
natomiast rozszerza obszar roszczeniowy o interesy ‘dawcy głosu’. Na
polimorfizm dokumentu zaczyna nakładać się mozaika podmiotów prawnych,
roszczących sobie prawa udziału w zysku z tytułu wniesionej przez nie
wartości dodanej.
Z drugiej jednak strony - wobec pleniącej się na świecie zarazy nadużyć
i przestępstw - technologia syntezy mowy może grozić ‘dawcy głosu do
syntezatora’ nieobliczalnymi w skutkach konsekwencjami. Czy doczekamy
się tego, że w tym niemoralnym świecie głos będzie zapisywany na cele
publiczne wyłącznie w spadku, z zastrzeżeniem „do użytku wyłącznie po
śmierci ofiarodawcy”? Czy zatem, oprócz agencji i stowarzyszeń
autorskich: syntetycznym głosem poważniej interesować się będą również
służby kryminalne?
Czy należy oczekiwać próby kontrolowania użycia i odpłatności każdego
pojedynczego wykorzystania syntetycznego głosu danego lektora? Jak to
nadzorować? Dziś jeszcze nie sposób przewidzieć rozwoju wypadków na tej
scenie.
Podejmując się
zadania prześledzenia losów nowych technologii, które coraz żwawiej
wkraczają do bibliotek, wypada nam jakoś odróżnić ‘nowe’ technologie od
‘starych’. By uniknąć pejoratywnych konotacji, zwrot ‘stary’ zastąpimy
zwrotem ‘tradycyjny’ i będziemy zmierzali do przyjrzenia się
gromadzonym w bibliotekach zasobom z punktu widzenia kategorii
dokumentu. Znacznie łatwiej podjąć decyzję, dotyczącą tego, co
bylibyśmy skłonni uważać za dokument, niż określić co wpada w przedział
czasowy, sugerowany terminem: tradycyjny. Dla odbiorcy tych słów
tradycją jest to, co zostaje mu przedstawione w procesie wychowania
jako fakt istniejący i zakotwiczony gdzieś w przeszłości. Dla polskiego
czytelnika w wieku przedemerytalnym telewizja nie może być tradycyjną
metodą przekazu, ponieważ nie istniała, gdy w latach pięćdziesiątych
kończył obowiązkową szkolną edukację. Ale dla dzisiejszego absolwenta
uniwersytetu telewizja jest już rzeczywistością, w której wyrósł i
wykształcił się. Nie przyjmiemy jednak tej kuszącej skądinąd możliwości
tworzenia dychotomii w oparciu o kryterium pokoleniowe, np. uznając, że
głównym adresatem książki jest obecne pokolenie studenckie. Zamiast
tego uznamy, że prawdziwą rewolucję technologiczną zamkniętego już
tysiąclecia wyznaczył Internet. Nie ulegniemy przy tym pokusie
przesunięcia początku skali do daty publikacji protokołu Hyper Text
Transfer Protocol (HTTP) przez konsorcjum W3C, czy też udostępnienia za
darmo światu przez NCSA pierwszej graficznej przeglądarki Mosaic -
dwóch kamieni milowych dzisiejszego sukcesu Internetu. Zbyt wiele
ważnych projektów zostało jednak wcześniej zainicjowanych przez Projekt
DARPA i dlatego ta data (1968) będzie w dalszej części tego wykładu
uważana za punkt podziału technologicznego. Tak więc do technologii
tradycyjnych zaliczymy wszystkie technologie, które zostały opracowane
(nie zaś zaadoptowane) przed rokiem 1968. W tym na przykład sensie,
technologia odkwaszania papieru [59]
jest technologią tradycyjną, ponieważ sam proces odkwaszania jest znany
w chemii już od bardzo dawna.
Z kolei zajmijmy
się samym dokumentem. Definicja terminu dokument - podobnie jak
terminów dzieło czy utwór – od wielu lat podlega najróżniejszym
rewizjom. Gdyby ta terminologia wraz z jej semantyką była łatwa do
zdefiniowania, to ustawy o prawach autorskich nie były by tak trudne do
sformułowania i nie musiały by być często nowelizowane. Trudno się temu
dziwić. Przypomnijmy jak słynąca ze swej precyzji matematyka zgrabnie
unika definicji: Badania matematyczne opierają się na pojęciu zbioru.
Nie będziemy zbioru definiowali, podajemy jedynie kilka przykładów.
[Mostowski, Stark 1958: 7]. W obszarze terminologicznym najbliższym
polskim bibliotekarzom w podobny sposób pisze Barbara Sordylowa
[1987:37]: Dokumenty są przedmiotem zabiegów typologicznych i
klasyfikacyjnych. To prawda, jednak propozycja ta nie daje możliwości
rozróżnienia co jest dokumentem, a co nim nie jest. Bardziej
szczegółowej definicji można oczekiwać tam, gdzie pojęcie to ma
znacznie lepiej wykrystalizowany zakres znaczeniowy: u dokumentalistów
i prawników.
Pojęcie dokumentu funkcjonujące w dzisiejszej dobie ma zakresy
znaczeniowe uzależnione od środowiska, które się nim posługuje. W
wydawnictwach encyklopedycznych dominuje orientacja prawnicza.
Przyjrzyjmy się takiemu opisowi. W Dictionary of Contemporary English
znajdujemy co następuje: ‘dokument
/.../ kawałek papieru który daje oficjalną pisemną informację o czymś’
[Longman 1995:397]. Nie trudno zrozumieć, że w sferze kultury definicja
taka jest zdecydowanie za wąska. Jak widać ogranicza się ona do pisanej
dokumentacji na papierze. Tak to mniej więcej ujmuje indyjski teoretyk
Ranganathan [1963], ale jego argumenty są miejscami tak naiwne, że nie
trudno je od razu odrzucić. Uzależnianie faktu bycia dokumentem lub
nie, od płaskości nośnika, na którym zapisana jest informacja, jest
argumentem nie do przyjęcia. Szelakowa płyta gramofonowa z początku
tego wieku (żeby nie wspomnieć o współczesnym nam hologramie) jest
bardziej płaska, niż zapisane na ręcznie czerpanym papierze nadanie
królewskie z XV wieku.
Są jednak definicje traktujące dokument na znacznie szerszej
płaszczyźnie. Świetny przegląd podejść do tego tematu dał ostatnio
Michael Buckland [1997]. Autor ten dyskutuje szereg prac, które już 70
lat temu wychodziły poza tekstową definicję dokumentu. Wśród nich
godnymi uwagi są opracowania Paula Otlet [1934], Suzanne Briet [1951]
oraz Waltera Schürmeyera [1935]. W tym miejscu autor niniejszej książki
pragnie dać wyraz swojego szczególnego zauroczenia fundamentalnym
dziełem Paula Otlet Traité de documentation i wyrazić żal, że nigdy nie
zostało ono przetłumaczone na język polski – z wielką szkodą dla
polskich bibliotekarzy.
Przechodząc do meritum sprawy warto odnotować, że w swym analitycznym
artykule Buckland jeden jedyny raz kursywą wyróżnia podsuniętą przez
Briet prowokującą definicję: Antylopa jako dokument. Może zatem i warto
przytoczyć tu sześciowierszową tabelkę będącą syntezą przemyśleń Briet:
Tabela 16. Relacja pomiędzy obiektem i dokumentem wg. Briet. Źródło:
Briet [1951:7].
OBIEKT
|
DOKUMENT
? |
Gwiazda na
niebie |
nie |
Fotografia
gwiazdy |
tak |
Kamień w rzece |
nie |
Kamień w muzeum |
tak |
Zwierzę na
wolności |
nie |
Zwierzę w ZOO |
tak |
Zatem w sensie
Briet kamyk z plaży w Hawrze ofiarowany ponoć przez Mickiewicza pani
Klustin jest dokumentem: Nie zostal przeze mnie podniesiony z ziemi. To
muzealny eksponat, a więc kamień już przez kogoś „wybrany”, kamień
któremu z jakichś powodów przypisano niezwykłą rangę. (Rosiek [1998]).
Wydaje się, że do terminu ‘dokument’ można zastosować bardziej
elastyczne ujęcia, niż to prezentuje Briet. Nie wydaję się być
sensowne, by uznanie świątyni Abu Simbel za zabytek - a więc swojego
rodzaju dokument epoki faraonów - było uzależnione od przeniesienia go
do muzeum w Kairze.
Do dokumentów należałoby więc również zaliczyć obiekty pozostawione w
miejscu ich odkrycia, ale celowo wyodrębnione przez człowieka przez
nadane im rangi dokumentu czy zabytku. W myśl powyższego dokumentem
staje się również szkielet dinozaura pozostawiony na terenie wykopalisk
(jak w miejscowości Dinosaur w stanie Utah), ale przecież także i
świątynia Hatszepsut, i zabytkowy uschły dąb w Chełmnie oznaczony
tabliczką Pomnik przyrody. I równie dobrze dokumentem jest kamień
przeniesiony z Rosetty do British Museum, jak i petroglify pozostawione
na miejscu odkrycia w pobliżu Carschenna (Szwajcaria).
Do tej definicji znacznie bardziej ogólnie podszedł wcześniej
Schürmeyer [1935:389]. Już w 1935 r. pisał on: Pod nazwą Dokument
człowiek dzisiejszy rozumie każdą materialną podstawę do rozszerzenia
naszej wiedzy, dostępną do badań lub porównań. Definicja ta wydaje się
bardzo dobrze obejmować wszystko, co w dalszym ciągu będziemy określać
mianem dokumentu tradycyjnego, nadto wydaje się, że stanowi ciekawy
punkt wyjścia do definicji dokumentu elektronicznego, a następnie
dokumentu cyfrowego.
Przyjrzyjmy się policyjnej ekipie dochodzeniowej na miejscu
przestępstwa. Kilku specjalistów od różnych profili dokumentów
przeprowadza inspekcję gruntu, budynków, ogrodzeń, roślinności. Od ich
doświadczenia w zakresie gromadzenia dokumentów zależy skuteczność
dalszego przebiegu dochodzenia. Odcisk palca na klamce, kilka włókien
zaczepionych na sztachecie płotu, popiół strząśnięty z papierosa,
zwykły kamień leżący na skraju drogi - wszystko to może stać się
dokumentem na skutek decyzji jednego specjalisty (choć jeszcze nie
dowodem w inkryminowanej sprawie). A czyż inaczej jest w archeologii,
paleontologii czy epidemiologii? Warto to podsumować.
Można by przyjąć bez większego ryzyka, że dokumentem (w klasycznym, tradycyjnym rozumieniu tego słowa) staje się pewien obiekt, pozwalający na powtarzalne badanie, i uznany za takowy przez pewną grupę opiniotwórczą, zdolną nadać bieg prawny swojemu osądowi, a często również wesprzeć od strony gospodarczej legislacyjny aspekt swej opinii.
Gwiazda na
nieboskłonie w sensie definicji Briet nie jest dokumentem, w sensie
definicji Schürmeyera jest dokumentem (z pewnością jest to obiekt
materialny dostępny do badań i porównań), w sensie powyższej definicji
może być dokumentem – pod warunkiem, że uzna go za takowy jakaś grupa
opiniotwórcza.
Dokument nie musi mieć charakteru unikalnego. Jeśli np. jakaś umowa,
czy porozumienie sporządzane jest w dwóch czy więcej, jednobrzmiących
egzemplarzach, to wszystkie te egzemplarze zachowują w równej mierze
atrybut bycia dokumentem. W identycznym stopniu zasada ta dotyczy
dokumentów o innym charakterze.
Dokument tradycyjny wykonany z określonego materiału ma swoje wymiary
fizyczne, choć nie musi mieć regularnego kształtu. Niekiedy możliwa
jest jego replikacja/falsyfikacja, choć w przypadku odpowiednio dużego
meteorytu jest to raczej niemożliwe. W przypadku niewielkich obiektów
obecne technologie pozwalają często nawet na bardzo wierne odtworzenie
fizycznego wyglądu oryginałów. Możliwa (choć bardzo kosztowna) jest
również precyzyjna identyfikacja specyficznych cech dokumentu
tradycyjnego na poziomie molekularnym, a nawet (w przypadku metalowych
dokumentów) - atomowym. Tego rodzaju identyfikacja jest uzasadniona w
stosunku do niezwykle cennych, rzadko spotykanych na rynku
antykwarycznym, dokumentów.
Od tysiącleci
człowiek pozostawia po sobie materialne obrazy wytworów swego
intelektu. Zwłokom zmarłych, składowanym najpierw w pieczarach, potem w
prymitywnych grobach, wreszcie w kunsztownych grobowcach, towarzyszą
stroje, malowidła, przedmioty codziennego użytku, testamenty. Można
przy tym śmiało powiedzieć, że już starożytni Egipcjanie osiągnęli
wysoki poziom sztuki konserwatorskiej dla zapewnienia trwałości
składowanych obiektów.
Wiele antycznych przedmiotów, które doczekały do naszych czasów,
wytyczone miało cele transcendentne. Miasta czy zespoły świątynne
projektowane na planie gwiazdozbiorów, kalendarze wykuwane w kamieniu,
sylwetki rzeźbione w marmurze, alabastrze czy odlewane z brązu,
wizerunki malowane na drzewie, szkle czy haftowane złotą nicią na
płótnie, teksty zapisywane na papirusie, papierze i pergaminie, melodie
wbijane młotkiem w bębny pozytywek - najczęściej pozerkiwały w niebo.
Ale z wolna, niejednokrotnie jeszcze za życia ich twórców, stawały się
wielkopańskimi darami a niezadługo potem przedzierżgały się w obiekty
szerszego pożądania, rabunku, wymiany. Z postępującą sekularyzacją
społeczeństw i wzrostu siły i znaczenia władzy cywilnej przyspieszał
się proces komercjalizacji dóbr kultury i zmiany ich właścicieli.
Znakomita większość tego, co oglądamy dziś na własne oczy w muzeach i
bibliotekach, jest obrazem przetworzonym przy zmieniającym się udziale
osobowości i wyszkolenia dokumentalisty zwanego niekiedy
rzemieślnikiem, niekiedy zaś twórcą lub artystą. Nasze bezcenne
eksponaty niejednokrotnie bardziej stanowią obraz, jaki artysta lub
zamawiający chciał widzieć, niż oddają to, jak coś naprawdę wyglądało,
czy brzmiało.
Jeszcze zbyt słabo zbadane są starożytne źródła historyczne, by
autorytatywnie orzec, na ile w przeszłości udało się w miarę wiernie
udokumentować obrazy natury w postaci jakiegoś zdjęcia, czy też zapisać
w jakiejś formie dźwięk. Wiadomo, że już przy dokumentacji rysunkowej
miejskich zespołów Majów na półwyspie Jukatan rysownik posługiwał się
urządzeniem optycznym (camera lucida), pozwalającym uzyskać wielką
zgodność rysunku z oglądanym widokiem przy zachowanie dużej szybkości
rysowania. Czy historia barwnej dokumentacji fotograficznej
rzeczywiście ma swój początek w wynalazku płyt rastrowych Autochrome
przez braci Lumière [Dubiel 1966:15], czy może zaczęła się wcześniej?
O tym, że winniśmy z pokorą podchodzić do naszej wiedzy o przeszłości,
przypomina nam nie tylko pełna majestatu trwałość piramid egipskich,
ale i niezwykła wzmianka we wstępie do bardzo sumiennie zredagowanej
pracy rosyjskich klinicystów z zakresu irydodiagnostyki [Velhover,
1988] o przechowanych do dnia dzisiejszego kolorowych zdjęciach (!)
tęczówki Tutanthamona wykonanych na aktywowanych metalowych płytkach
przez nadwornego kapłana tego młodo zmarłego faraona. Ta bulwersująca
wszystkich znawców współczesnych technologii wiadomość o opanowaniu
przez starożytnych Egipcjan technologii otrzymywania barwnych
fotografii z pewnością wymaga szczegółowych badań. Mając dodatkowo na
względzie fakt, że współcześnie najskuteczniejszy środek
przeciwmalaryczny został ostatnio wyodrębniony z rośliny rekomendowanej
do leczenia malarii w starożytnych księgach medycyny chińskiej, nie
można wykluczyć i tego, że nasi praojcowie uporali się również z
zapisem dźwięku na długie stulecia przed narodzeniem Edisona i
Berlinera.
Zachowała się też, w zmienionej upływem czasu formie, pewna liczba
naturalnych dokumentów - milczących świadków przeszłości. Zmumifikowane
przez suchy piasek, czy gorący popiół wulkaniczny szczątki ludzi i
zwierząt, prehistoryczne gady w bitumicznym jeziorze, mamuty w lodach
wiecznej zmarzliny. Mamy piękne okazy amonitów w skałach kredowych i
niezwykle wiernie utrwalone w bursztynie owady oraz fragmenty roślin.
Ale jest i Całun Turyński: płótno grobowe z zarejestrowanym niezwykłym
wizerunkiem Męki. Mówiąc językiem technologicznym - jest to negatywowa
odbitka stykowa z polimerycznym utrwaleniem Wizerunku, której analiza
przeprowadzona przy pomocy elektronowego mikroskopu skaningowego
ujawnia niezwykłą, trójwymiarową strukturę obrazu przypominającą
dzisiejsze hologramy.
W barwnej palecie różnych gatunków tradycyjnego dokumentu warto
wyróżnić specjalną ich klasę - zapisy muzyki mechanicznej. Heron z
Aleksandrii (angielskie tłumaczenie [1851] ) nie pozostawił nam,
niestety, zbyt wiele szczegółów w opisie konstrukcji swoich organów
ołtarzowych. Chociaż nie zachował się żaden egzemplarz tych organów, to
wiele wskazuje na to, że oprócz wykorzystywania siły wiatru do
sprężania powietrza, realizował również jakiś zapis muzyki i
mechaniczną automatykę; że to nie były jakieś asemantyczne dźwięki, ale
odpowiednio skomponowana melodia. Być może był to jeden z pierwszych
modeli sterownika z pamięcią Tylko-Czytaj (ROM - Read Only Memory),
prawzór późniejszej pozytywki. Można powiedzieć, że heronowska
inżynieria zapisu melodii (tzn. ułożenia piszczałek, ich geometrii i
systemu przełączania strumienia powietrza) realizowała funkcje
dokumentu muzycznego.
Urządzenia wykorzystujące zapis muzyki mechanicznej na bębnach, a potem
na dyskach z pewnością stają się powszechne jakieś 15 stuleci później.
Jest rzeczą zdumiewającą, jak wspaniałym modelem współczesnej maszyny
cyfrowej z pamięcią ROM jest pozytywka. Wyprzedzając to, co godzi się
być może powiedzieć przy dokumentach cyfrowych, przyjrzyjmy się temu
prawdziwemu prototypowi dzisiejszych komputerów. Bęben pozytywki jest
pamięcią maszyny wypełnioną wierszami sekwencyjnie zapisanych słów
maszynowych. Są one zbudowne z dwuwartościowych jednostek informacji (w
danej pozycji albo jest wbity kołek, albo go nie ma). Zatem ta maszyna
ma arytmetykę binarną. Programowanie polega albo na wbijaniu kołka.
albo na wyrywaniu go. Dekoderem instrukcji, arytmometrem oraz
urządzeniem wejścia - wyjścia jest system sprężyn wydających dźwięk,
czyli tak zwany grzebień W najprostszym wykonaniu pozytywki w tej
pamięci mogą być tylko same dane (kod muzyki). Jeśli natomiast
pozytywka ma realizować utwór o strukturze złożonej z optymalizacją
pamięci (np. trzy zwrotki piosenki z refrenem zapisanym jeden raz po
trzeciej zwrotce) wówczas dotychczasowa struktura bez mechanizmu skoków
do procedury refrenu i identyfikacji miejsca skoku powrotnego po
zakończeniu odtwarzania refrenu staje się niewystarczająca. W
mechanizmach zegarowych z jednym kierunkiem obrotu bębna (jak w
pozytywkach) nie zachodzi potrzeba adresowania każdego wiersza
programu. Pożądany efekt osiąga się przy pomocy systemu kołków
blokujących obrót bębna na początku każdej zwrotki i dźwigni
odłączającej grzebień wygrywający melodię na czas cyklu szukania kołka
wskazujacego początek nowej zwrotki. Widać z tego, że do rozszerzenia
funkcjonalności takiej pozytywki trzeba wydłużyć słowo maszynowe o
pozycje bitowe, wykorzystywane do sterowania mechanizmu.
W przypadku pozytywki dokumentem jest bęben z zaprogramowaną muzyką.
Bęben ten, nasz tradycyjny dokument - zrazu niewymienny - staje się
elementem wymienialnym. To co naprawdę w idei pozytywki wyprzedza epokę
to fakt, że do odtworzenia zapisu na bębnie potrzebne jest osobne
urządzenie, które w epoce Internetu nazwalibyśmy przeglądarką. Ale
wymienialność bębnów - dokumentów jest ograniczona do danego
egzemplarza pozytywki; a co najwyżej do danego producenta
(manufaktury). Do standardów jeszcze daleko. Dla uzupełnienia dodamy,
że pozytywka syntezuje muzykę w klasie instrumentów strunowych
szarpanych, gdzie programowanie i odtwarzanie muzyki jest skwantowane.
Zbliżająca się szybkimi krokami rewolucja przemysłowa doby wczesnego
kapitalizmu rzucała nowe wyzwania, które pociągnęły za sobą, jak byśmy
to współcześnie powiedzieli, publikację dokumentów o nowej formie
zapisu: perforacji. Motorem wymuszającym pospieszne zmiany była chęć
podwyższenia zysków z produkcji i handlu. W automatyzacji rutynowych
czynności upatrywano źródła szybkiej obniżki kosztów osobowych
(zmniejszenie zatrudnienia) i podwyżki jakości produkcji (mniejszy
procent braków produkcyjnych wywoływanych zmęczeniem robotników). W 1801
[60] roku Jacquard wprowadzasterowanie warsztatem tkackim przy pomocy kart perforowanych. Ciekawym
jest, że na sterowanie grą pianina czy fortepianu przy pomocy rolki
perforowanego papieru (pianola) ludzkość będzie musiała czekać jeszcze
prawie sto lat. Za to po tak długim czasie jakby się otworzył worek
przepełniony nowymi wynalazkami zwłaszcza w dziedzinie bezpośredniego
zapisu dźwięku i na rynku pojawiają się nowe rodzaje dokumentów:
fonograficzne wałki woskowe i celuloidowe, miedziane wałki negatywowe
(galvanos), wreszcie płyty gramofonowe. W tym samym mniej więcej czasie
udało się bezprzewodowo przesłać telegram radiowy - pierwszy
prymitywny, niematerialny dokument kodowany
[61] -za to od razu na tysiące kilometrów. Zrazu można go było odebrać przez
słuchawki i konwertując w pamięci z alfabetu Morse 'na nasze', dyktować
stenografowi. Po odkryciu sposobu wzmacniania sygnału elektrycznego,
obrazem telegramu u odbiorcy stała się wąska taśma papierowa
zawierająca wyłącznie kreski i kropki. A w fonografii inna sensacja: w
przypadku negatywów wałków fonograficznych inwersja sygnału okazała się
być niełatwym orzechem do zgryzienia dla ówczesnych inżynierów.
Galvanos były używane do tworzenia celuloidowych replik wałków, ale na
bezpośrednie odtworzenie dźwięku utrwalonego na negatywowych wałkach
fonograficznych znowu przyjdzie ludzkości poczekać kolejne sto lat.
Udało się to dopiero w roku 1999 zarówno w wersji mechanicznej jak i
optycznej. Jak widać, czasem łatwiej jest zapisać jakiś dokument, niż
go odtworzyć. Ta smutna prawda jeszcze nie raz da o sobie znać - i to w
dość bolesnej formie.
Na zakończenie tej listy przykładów godzi się jeszcze wspomnieć o
dokumencie mutimedialnym, a więc integrującym minimum trzy platformy
oddziaływania na odbiorcę. W obszarze dokumentu klasycznego prym
wiedzie tu film i jego formy potomne, jak telewizja. Cechą
charakterystyczną dokumentu multimedialnego jest wydzielenie osobnych
sekcji nośnika na rejestrację poszczególnych mediów (obrazu, dźwięku,
tekstu). Widać to znakomicie na powiększeniu wycinka starej taśmy
filmowej z zapisaną na jej skraju ścieżką dźwiękową. Już na pierwszy
rzut oka każdy rozumie, że do odczytu ścieżki dźwiękowej potrzebny jest
osobny system odsłuchu, zupełnie różny od systemu projekcji obrazu.
A więc otrzymaliśmy w dziedzictwie pewną dokumentację przeszłości:
zbiór obiektów (dzieł, utworów) transcendentnego lub materialnego
autorstwa, zwanych dokumentami. Spróbujmy zestawić kilka cech dokumentu
tradycyjnego.
Tabela 17. Dokument tradycyjny i jego cechy (opracowanie autora)
Materiał podłożai jego trwałość |
Rodzaj zapisywanej informacji |
Sposób zapisu |
Sposób odczytu |
Uwagi |
kamień lawa wulkaniczna bardzo duża trwałość skał krystalicznych średnia skał osadowych cienkie płyty kamienne wykazują znaczną łamliwość(np. tablice Dekalogu),znaczna wrażliwość skał kredowych i marmurów na kwaśne deszcze (dymy wulkaniczne, spaliny, pożary, wyładowania atmosferyczne,) |
kształt (rzeźba, konstrukcja skamielina) |
rzeźbienie ciosanie, depozyt naturalny |
wizualny dotykowy |
znaczna wrażliwość budowli antycznych na
trzęsienia ziemi, |
grafika (relief) |
rzeźbienie |
wizualny dotykowy |
||
grafika (malowidło) |
malowanie |
wizualny |
||
tekst |
rzeźbienie |
wizualny |
przykładowe zapisy: Kamień z Rosetty, inskrypcje nagrobne |
|
ceramika kryształy szkło na ogół mała wytrzymałość na udar wysoka odporność na warunki atmosferyczne i zanieczyszczenie środowiska |
kształt |
modelowanie ręczne i maszynowe wytapianie wydmuchiwanie szlifowanie |
wizualny dotykowy |
utrwalanie wilgotnego modelu przez suszenie i
wypalanie (glinki).przykład realizacji:: „Armia terakotowa”naczynia z kryształu górskiegoceramika budowlana , użytkowa i artystyczna |
grafika (relief i malowidło) |
modelowanie wytłaczanie malowanie emaliowanie wypalana kalkomania fotografia napylanie fotolitografia trawienie |
wizualny |
kafle piecowe selektywne trawienie fluorowodorem (mat) szkła i luster w sztuce secesyjnej fotografia nagrobna na porcelanie |
|
tekst |
wytłaczanie malowanie wypalana kalkomania fotografia napylanie |
Wizualny |
Przykładowy zapis: Kodeks Hammurabiego |
|
metal bardzo duża trwałość kształtu tytanu, żelazowców i platynowców, niska złota, srebra, miedzi oraz metali lekkich (glin, magnez) Znane są procesy pasożytnicze: korozja żelaza trąd cynowy” - niskotemperaturowa przemiana alotropowa cyny prowadząca do rozsypania się metalu w szary proszek bardzo duża wrażliwość glinu na zanieczyszczenie rtęcią. |
kształt |
odlewanie, kucie wytłaczanie wyciąganie elektroliza zgrzewanie spawanie |
wizualny dotykowy |
odlewane pomniki:(np. „Wilczyca karmiąca
Romulusa i Remusa”)maski trumienne (złoto) kute zbroje i oręż elektroliza stosowana jest do tworzenia negatywowych metalowych matryc obiektów trójwymiarowych (np. wałków fonograficznych) |
grafika (relief) |
rzeźbienie elektroliza napylanie fotolitografia trawienie |
wizualny dotykowy |
elektroliza stosowana jest do tworzenia tekstur
(np. na powierzchni cyferblatów) oraz barwnych warstw ochronnych
(anodyzacja) |
|
grafika (malowidło) |
malowanie emaliowanie elektroliza sitodruk |
wizualny |
Złącze metal-emalia jest wrażliwe na duże skoki
temperatury |
|
tekst prosty i kodowany |
malowanie emaliowanie fotolitografia trawienie sitodruk wytłaczanie |
wizualny dotykowy detekcja optyczna, mechaniczna, elektryczna |
alternatywna technologia pisma brajlowskiego
oferuje wytłaczanie tekstu na cienkich foliach aluminiowych |
|
dźwięk |
magnesowanie |
detekcja pola magnetycznego |
wrażliwość zapisu na zewnętrzne pola magnetyczne |
|
zapis muzyki mechanicznej |
wbijanie kołków w tarczę lub bęben |
poprzez urządzenie odtwarzające |
||
drewno skorupy owoców Duża wrażliwość na ogień. średnia odporność na wilgoć, grzyby, pleśń i szkodniki. Wymaga dobrych warunków przechowywania oraz okresowej konserwacji |
kształt |
rzeźbienie ciosanie montaż |
wizualny dotykowy |
budynki oraz stolarka użytkowa (ozdobne klatki schodowe, meble) rzeźba artystyczna |
grafika |
malowanie rysowanie inkrustacja intarsja rzeźbienie |
wizualny |
ikony bizantyjskie plany miejskie Gdańska (rysunek na deskach, Bushe 1667) stolarstwo artystyczne |
|
tekst |
rzeźbienie malowanie pisanie wypalanie |
wizualny |
matryce drukarskie Gutenberga (obraz lustrzany
tekstu) sztuka ludowa |
|
skóra |
kształt |
modelowanie na mokro garbowanie i napalanie |
wizualny dotykowy |
siodła końskie, obuwie |
grafika |
malowanie rysowanie wycinanie wyplatanie wytłaczanie |
wizualny dotykowy |
odzież, ozdoby |
|
tekst prosty i kodowany |
malowanie pisanie wiązanie |
wizualny dotykowy |
Pergamin jest w Europie powszechnie stosowym
materiałem do pisania we wczesnym średniowieczu Inkowie przesyłali
sobie komunikaty w postaci wiązki rzemieni z powiązanymi węzłami (kipu) |
|
papier celuloza nitroceluloza acetyloceluloza (włókna roślinne mielone, naturalne i modyfikowane, materiał amorficzny na ogół o słabej anizotropii) Niekiedy występuje dodatkowa warstwa z innego materiału (jak żelatyna namateriałach fotograficznych). Duża wrażliwość na ogień, a w przypadku materiałów niemodyfikowanych chemicznie również na wilgoć, grzyby i rozdarcie; znaczny udział czynnika technologicznego produkcji (kwaśny papier) |
grafika artystyczna i użytkowa |
malowanie rysowanie wycinanie naklejanie wytłaczanie drukowanie film fotografia puchnięcie |
wizualny dotykowy |
klisze cięte, filmy i papiery fotograficzne są
materiałami zawierającymi jedną lub więcej dodatkowych warstw
żelatynowych w których jest zdyspergowany materiał światłoczuły
(halogenki srebra) i, ewentualnie, komponenty sprzęgające do tworzenia
obrazu barwnikowegopuchnięcie realizuje się pod wpływem wysokiej
temperatury na specjalnym gatunku papieru,technologia ta jest stosowana
do przygotowywania grafiki dotykowej dla osób niewidzących |
tekst prosty i kodowany(Braille,BCD, Morse) |
malowanie pisanie perforowanie wytłaczanie |
wizualny dotykowy za pomocą sprzętu do detekcji otworów lub wypukłości połączona z dekodowaniem |
podstawowa technologia druku brajlowskiego
przewiduje wytłaczanie kodów Braille’a na papierze o podwyższonej
gramaturze (pół-karton)stare typy komputerów wykorzystywały taśmy
perforowane do wprowadzania zarówno tekstów programów w wersji
źródłowej (do kompilacji), jak i danych do przetwarzania. |
|
zapis muzyki mechanicznej |
perforowanie |
j.w. | rolki papierowe do pianoli |
|
sterowanie urządzeniami przemysłowymi |
perforowanie |
j.w. |
karty jacquardowskie do krosien taśmy perforowane do sterowania numerycznego obrabiarek |
|
tkanina, sznury, filc,papirus (sierść. włókna roślinne przeplatane lub wiązane) materiały średniej trwałości, wrażliwe na wilgoć, grzyby i gryzonie |
kształt |
szycie, tkanie haftowanie wiązanie |
wizualny dotykowy |
głównie ubiory i elementy wystroju mieszkań Balony, spadochrony, sieci |
grafika |
szycie, tkanie, haftowanie odbicia naturalne malowanie fotografia sitodruk druk |
wizualny dotykowy |
||
tekst |
szycie, tkanie, haftowanie, fotografia,
sitodruk, druk, pisanie ręczne |
wizualny dotykowy |
papirusy egipskie |
|
Wosk, bursztyn, żywice, laki Wysoka odporność na warunki atmosferyczne Niska odporność na wysoką temperaturę |
kształt |
odlew z natury lub z formy, rzeźbienie,
prasowanie, klejenie |
wizualny dotykowy |
woskowe maski trumienne (negatyw), figury woskowe, rzeźba artystyczna |
grafika |
barwienie inkrustacja intarsja |
|||
tekst |
rylec |
|||
dźwięk |
rylec sprzężony z membranąwypraska z matrycy |
fonograf gramofon |
||
Poliester Na podłoże poliestrowe może być naniesiona dodatkowa warstwa.. Materiał wodoodporny, palny, łatwo topliwy, wrażliwy na kwasy i zasady (hydroliza) |
dźwięk obraz |
magnesowanie |
magnetofon magnetowid |
materiał rejestrujący ma postać taśmy z
naniesioną warstwą zawierającą zdyspergowany materiał ferromagnetyczny.
|
Powyższe
zestawienie ma stanowić pomoc w zrozumieniu proponowanych niżej
definicji dokumentu elektronicznego i dokumentu cyfrowego. Niestety,
nawet w obszarze klasycznego dokumentu rękopiśmiennego, czy
drukowanego, zdarzają się zaskakująco błędne definicje. Dla ilustracji
można tu przytoczyć proponowaną przez Bucklanda [1991:71] definicję
charakterystyk zapisu informacji na papierze, mikroformach oraz w
bazach danych. Dyskutując cechy zasobów
[62]informacyjnych na nośniku papierowym (podkr. JBC) Buckland pisze m.in.:
"Do ich odczytania nie jest
potrzebne żadne specjalne oprzyrządowanie". Z dwóch względów
trudno zgodzić się z taką charakterystyką: z jednej strony szansa
odczytania zapisu na papierze zależy od człowieka - adresata
informacji, z drugiej strony - również od sposobu zapisu (zapis może
być zorientowany na odczyt sprzętowy).
Z jednej strony zaciążyła na tej definicji przynależność jej twórcy do
kręgu osób widzących. Znakomita większość zbiorów bibliotecznych to
teksty pisane i/lub drukowane z leksykograficznym uporządkowaniem
znaków oraz ilustracje, nie dające rozpoznać się poprzez dotyk. Osoby
niewidzące nie mogą odczytać tych materiałów bez pomocy do datkowych
urządzeń. Niewidomi to około 0.5 % populacji ludzkiej, jednak osób z
mniej poważnymi wadami wzroku jest znacznie więcej. Piszącemu te słowa
nie jest znany stan wzroku Bucklanda. Być może już w chwili tworzenia
swej klasyfikacji nosił on okulary nie spostrzegając, że właśnie używa
specjalnego sprzętu do odczytywania informacji z tradycyjnych zasobów
bibliotecznych, zapisanych na papierze. Nietrudno zauważyć, że w
przeciętnej czytelni jest znaczna liczba osób noszących okulary.
Znakomita ich większość tak jest oswojona z faktem używania okularów,
że na ogół nie odnosi wrażenia posługiwania się "sprzętem
wspomagającym". Jak na ironię, pisząc o technologiach informacyjnych
opartych na papierze Buckland napisał, że cechy ich "/.../ są tak znane, że zarysowują się
tendencje do przeoczania ich". To twierdzenie można zastosować
do niego samego. W szczególności posługiwanie się sprzętem
rehabilitacyjnym, zwłaszcza tak drobnym jak okulary, może pociągać za
sobą niedostrzeganie faktu jego istnienia. W tym sensie nawet tak
doświadczony teoretyk i praktyk, jak Buckland, sam padł ofiarą swoich
ogólników, zalecając uważne przyglądanie się temu co się ma przed
nosem, a nie temu, co się ma na nosie.
Z drugiej strony, we wspomnianej definicji brak jest precyzyjnego
spostrzeżenia, że być może nie chodzi jej autorowi o samo podłoże
(nośnik) informacji, ale o technologię zapisu. Gdy Buckland przed 10
laty pisał swą książkę, w każdym sklepie USA masami wyłożone były
towary z nadrukowanym kodem paskowym. Ciekawe, że patrząc na pracę
kasjerek w sklepach nigdy nie zauważył, że do odczytu zapisanego na
papierze symbolu towarowego używany jest specjalny sprzęt, bo do zapisu
posłużono się specjalną czcionką, składającą się z czarnych pasków.
Podobne przypadki błędnego rozumowania spotyka się w licznych
artykułach i książkach.
W ramach
arbitralnie tu przyjętego przedziału czasowego, w którym dokumenty
nazywamy tradycyjnymi, już od stu lat wykorzystywane są różne
technologie zapisu i odczytu informacji (mechaniczna, magnetyczna i
optyczna). Ponad 110 laty liczy edisonowski zapis dźwięku (mechaniczne
nacięcie ścieżki dźwiękowej na powierzchni woskowego walca), 100 lat
magnetyczny zapis dźwięku (pierwotnie zrealizowany na drucie jako
nośniku), 75 lat optyczny zapis ścieżki dźwiękowej na taśmie filmowej.
Te dwie ostatnie, stare technologie realizowały praktycznie już około
wiek temu jakąś formę dokumentu elektronicznego. Już wiek temu
przesyłano wiadomości drogą radiową przez ocean. W zakresie rejestracji
sygnału optycznego od stu lat praktycznie też nie wymyślono nic
specjalnie nowego. Wszystko co dziś mamy, to w zasadzie znakomite
poprawki wnoszone do znanego modelu znanych od dawna zjawisk.
Najlepszym przykładem ilustrującym udoskonalenie starej fotograficznej
metody rejestracji fal stojących w światłoczułych warstwach płyt
lippmanowskich jest rejestracja hologramu. Wprowadzone poprawki
dotyczyły głównie zmiany elementu oświetlającego przez wprowadzenia
spójnych i monochromatycznych wiązek światła (lasery). Skąd zatem teraz
tyle szumu w sprawie dokumentu elektronicznego?
W miarę doskonalenia narzędzi i metod badawczych udało się dość
precyzyjnie poznać naturę takich zjawisk jak elektryczność, magnetyzm,
światło i dźwięk i ich wzajemne relacje. Od początku też badano
możliwości trwałego zapisu informacji z wykorzystaniem tych zjawisk. Od
wieków znany i wykorzystywany był magnetyzm. Początek XIX wieku
przyniósł nam ogniwo galwaniczne Volty, którego potomek - akumulator
ołowiowy - dał się już odwracalnie naładować i rozładować, dysponował
już zatem formą pamięci chemicznej. Niestety - procesy chemiczne są z
natury powolne i pewną nadzieję można było pokładać w butelce
lejdejskiej i jej następcy kondensatorze. Jakoż na efektywną
materializację tej idei pamiętania ładunku elektrycznego trzeba było
czekać aż do lat siedemdziesiątych XX wieku, gdy firma Intel opracowała
pierwszą programowalną i wymazywalną pamięć półprzewodnikową EPROM.
Prawdziwą rewelacją było tu odkrycie, że w zawieszonej w dielektrycznym
medium bramce krzemowej tranzystora polowego można zmagazynować
elektrony wstrzyknięte w trakcie kontrolowanego przebicia lawinowego i
system ten cechuje tak minimalna upływność ładunku, że z pełnym
zaufaniem można było to zjawisko wykorzystać do konstruowania
reprogramowalnych pamięci stałych do komputerów (por. Kalisz
[1977]:537). Model kondensatora okazał się skuteczny do pamiętania
informacji cyfrowej dopiero w zminiaturyzowanej technologii scalonej,
natomiast nieużyteczny do pamiętania informacji analogowej.
Technologia elektroniczna w jej odmianie analogowej szybko została
zastosowana w praktyce, mianowicie już na początku tego wieku jako
urządzenia komunikacyjne: w postaci telegrafu, potem telefonu, a
później - radia i telewizji. Ale też zauważalnie szybko technologia ta
została wprzęgnięta do zapisu informacji na nośniku magnetycznym (drut
stalowy). To już był element umożliwiający tworzenie dokumentacji.
Prawdziwą rewolucję wprowadza jednak dopiero wynalezienie tranzystora,
a wkrótce i kolejnych generacji układów scalonych. Bardzo szybko
miniaturyzuje się świat analogowej elektroniki użytkowej: najpierw
pojawiają się kieszonkowe radia tranzystorowe, potem przenośne
telewizory turystyczne, potem amatorskie magnetowidy i kamery video. Od
samego początku jasnym było, że choć ważna jest sama przekazywana
wiadomość, to skuteczność komunikacji krytycznie zależy od możliwości
akumulacji przez odbiorcę dużej ilości informacji. Pojawiła się więc
konieczność zapisu komunikatów. Telegraf pozwalał zarejestrować to na
taśmie w kodzie Morse’a, jego syn - dalekopis - w postaci gotowego do
odczytu tekstu drukowanego, jego wnuk - fax - był w stanie już przesłać
grafikę.
Trudno jest jednak precyzyjnie zdefiniować to, co moglibyśmy uznać za
dokument elektroniczny. O trudnościach towarzyszącym próbom nadania
jednoznacznej interpretacji temu terminowi pisał stosunkowo niedawno
Daniłowicz [1998]. Przyjrzyjmy się, jak w obszarze swych zainteresowań
podchodzi do tego zagadnienia Sprague proponując krótkie definicje:
Użyty przez
Sprague'a termin „elektroniczny” nie wydaje się być przekonywujący.
Zachowajmy się bardziej energicznie: zajrzymy do tekstu Internet Growth
and Development Act, wprowadzonego do Izby Reprezentantów Kongresu USA
w 1999 r i zarejestrowanego pod numerem H.R.1685. W sekcji 101
Definicje znajdziemy pewien obszar interesujących nas terminów:
(2) ŚRODKI ELEKTRONICZNE - Termin 'środki elektroniczne' zawiera w
sobie wszystkie formy komunikacji elektronicznej za pośrednictwem
komputera, włączając w to komunikację telefoniczną, facsimile, pocztę
elektroniczną, wymianę danych elektronicznych, łączność satelitarną,
kablową i światłowodową.
.....................
(4) PODPIS ELEKTRONICZNY - Termin 'podpis elektroniczny' oznacza każdy
symbol elektroniczny, lub ciąg symboli, utworzony lub przetworzony
przez komputer, który w intencji strony używającej go (lub upoważnionej
do jego użycia) ma mieć tą samą siłę sprawczą oraz efekt, co i ręczny
podpis.
Prawie wszystkie definicje pojęć obdarzonych przymiotnikiem
'elektroniczny' odwołują się do komunikacji. Jednak nie wydaje się to
konieczne. Mało tego - w pewnych przypadkach może to prowadzić do
fałszywej interpretacji. Tak na przykład próba definicji postaci:
Dokumentem elektronicznym nazywamy każdy obiekt dający się przesłać w
wyniku komunikacji pomiędzy komputerami mogła by prowadzić do
zakwalifikowania zwykłego klucza do zamka wejściowego do drzwi jako
dokumentu elektronicznego - co wydaje się być zupełnym
nieporozumieniem. Bowiem w myśl przytoczonej, roboczej definicji można
zaprojektować system replikowania na odległość kluczy przy pomocy
frezarek numerycznych. W ramach tego hipotetycznego żartu dwoje
małżonków - naukowców opuszcza dom i wyjeżdża na dwie różne konferencje
międzynarodowe. Żona ma wrócić pierwsza, ale spostrzega w dzień odlotu,
że przed wyjazdem nie zabrała kluczy do mieszkania, bo wyjeżdżający
później mąż odwoził ją samochodem na lotnisko. Dzwoni więc do męża na
komórkę: 'Skocz do United Replication Service i skopiuj mi swój klucz
na oddział w Nowym Yorku. Tylko pospiesz się, bo mam samolot za 3
godziny'. Jakoż w okienku URS na lotnisku odbiera replikę mężowskiego
klucza typu YALE - ale przecież to uczciwa, metalowa replika klucza, a
nie żaden dokument elektroniczny, chociaż całą cyfrową transakcję
załatwiły między sobą dwa komputery sterujące serwomechanizmami.
Replika ta praktycznie nie posiada takiej samej struktury
krystalograficznej jak oryginał, ale to nie jest ważne. W oryginale
zawarta była informacja o kształcie. Tu nie jest też ważne, jaka
kombinacja technologii (mechanicznej, optycznej, sonometrycznej itp.)
była użyta do rozpoznania kształtu oryginalnego klucza i czym posłużono
się do przesłania tej informacji. Istotne jest to, jak uzyskaną replikę
bada urządzenie końcowe użytkownika - zamek w jego drzwiach. W
przypadku tradycyjnego zamka YALE rozpoznaje on kształt wycięć na
kluczu metodą mechaniczną, nie korzystając z rozpoznawania wzbudzonych
stanów materii klucza, jakakolwiek byłaby natura tego wzbudzenia.
Koniecznością wydaje się więc oderwanie pojęcia dokument elektroniczny
od pojęcia komunikacja i skupieniu się na aspekcie zapisu i odczytu
informacji. Takie podejście powinno objąć to, co realizuje się w ramach
wszystkich najpopularniejszych obecnie form zapisu: magnetycznej i
optycznej i elektrycznej, i odwołujące się zarazem do możliwie ogólnej
definicji dokumentu. W bardzo wielu punktach trafnie rozwiązuje ten
temat propozycja ustawy amerykańskiej H.R. 2626 (patrz Załączniki),
która przymiotnik „elektroniczny” definiuje jako: „odnoszący się do
technologii mającej cechy elektryczne, cyfrowe, magnetyczne, optyczne,
elektromagnetyczne, lub inne bez względu na nośnik. Autor tej
propozycji niepotrzebnie wymienił osobno cechy magnetyczne i
elektryczne, dalej wymieniając elektromagnetyczne, oraz niesłusznie
skojarzył elektronikę z każdym rozwiązaniem cyfrowym. Tu należy
przypomnieć, że stosunkowo niedawno w Wielkiej Brytanii zrekonstruowano
i uruchomiono całkowicie mechaniczny komputer Charlesa Babbage’a, bez
najmniejszego śladu elektroniki.
Potrzebą chwili staje się też pewna dywersyfikacja dokumentów w
zależności od natury zapisu, a to z uwagi na zabiegi technologiczne
mające na celu uzyskanie możliwie wysokiej trwałości zapisu. Oto
propozycja klasyfikacji, którą można wyprowadzić z powyższych rozważań:
Definicja 1.
Dokumentem elektronicznym pierwotnym nazwiemy nie przetworzony, trwały zapis informacji naniesionej na dowolny nośnik przy pomocy fal elektromagnetycznych, a stanowiący obiekt poznania. Przykłady: utajony (nie wywołany) obraz w klasycznej fotografii na materiałach halogeno-srebrowych, nagrania na taśmach magnetycznych, dyskach optycznych wypalanych laserem i magnetooptycznych, zapis informacji w strukturach półprzewodnikowych pamięci cyfrowych programowanych elektrycznie (PROM, EPROM, EEPROM)
Definicja 2.
Dokumentem elektronicznym wtórnym nazwiemy produkt technologicznego (np. fizycznego lub chemicznego) utrwalenia niestabilnego zapisu zrealizowanego przy pomocy fal elektromagnetycznych, bez zmiany podłoża. Przykłady: klasyczna fotografia otrzymana na materiałach srebrowych po procesie wywoływania i utrwalania, fotolitografia po wypłukaniu nienaświetlonego fotorezystu, obraz na bębnach drukarek laserowych i kserografów po przeniesieniu tonera na bęben.
Definicja 3.
Dokumentem elektronicznym pochodnym nazwiemy produkt technologicznego przeniesienia pierwotnego dokumentu elektronicznego na inne podłoże z zachowaniem technologii zapisu przy pomocy fal elektromagnetycznych. Przykłady: produkt przeniesienia stanu matrycy CCD kamery cyfrowej do pamięci Flash, fotograficzna odbitka pozytywowa uzyskana z negatywu w procesie wykorzystującym naświetlanie materiału pozytywowego. Kontrprzykład: dokumentem elektronicznym pochodnym nie jest odbitka wytworzona w dyfuzyjnym fotograficznym procesie stykowym prowadzonym bez udziału światła (jak np. w starej technologii DOKUFO).
Trudno tu ocenić,
czy te definicje przyjmą się, czy też nie. Podobnie jak niemal każda
inna definicja, z biegiem czasu będą one odkrywać swoje wątpliwe
strony.
W powyższym zestawieniu mamy zarówno przykłady zapisu analogowego, jak
i cyfrowego - tu istotnym elementem jest technologia zapisu
(rejestracji). W definicjach tych nie jest ważny nawet sposób odczytu:
klasyczna fotografia jest rejestrowana przy pomocy fal
elektromagnetycznych, jej odczyt tradycyjnie jest wizualny - a więc
przez analizę odbitych od fotografii fal elektromagnetycznych. Jednak,
w innym eksperymencie, można wytworzyć w warstwie fotorezystu
niewidoczny dla oka obraz przy pomocy naświetlania podobnego jak w
klasycznej fotografii, a następnie wypłukać nie naświetlony fotorezyst
i poddać podłoże procesowi trawienia chemicznego. W wyniku tego
powstanie relief, który może być badany dotykowo i to zarówno przez
osoby widzące, jak i niewidzące. A więc w tym drugim przypadku, obraz
pewnej rzeczywistości naniesiony w pomocą fal elektromagnetycznych po
przetworzeniu (trawienie) może być dalej badany bez udziału fal
elektromagnetycznych, np. mechanicznie. Jeżeli w wyniku kolejnych
operacji technologicznych zachowana zostaje oryginalna warstwa, w
której został wytworzony przy pomocy fal elektromagnetycznych pierwotny
obraz, to nadal dokumentowi winien przysługiwać przymiotnik
"elektroniczny". Nie będą natomiast dokumentami elektronicznym takie
produkty. jak wydruk z drukarki laserowej, czy kserokopia. Będą to
zwykłe dokumenty pochodne, ale nie dokumenty elektroniczne pochodne.
Z przytoczonych przykładów widać, że powyższe definicje są
wystarczająco szerokie i można traktować je jako roboczy punkt wyjścia
do szukania nowych, być może bardziej szczęśliwych definicji dokumentu
elektronicznego.
Definicja 4.
Dokument cyfrowy jest to dowolny dokument zakodowany przy pomocy dowolnego systemu liczbowego i dostępny do wszelkich transformacji cyfrowych. Przykłady: program w notacji RPN dla kalkulatora HP-41C zapisany kodem paskowym w podręczniku programowania, plik w formacie MS Word 2000 (*.doc) zapisany na dysku komputera osobistego, zdjęcie cyfrowe zapisane w pamięci Flash.
Utożsamianie
dokumentów cyfrowych z dokumentami elektronicznymi stało się swego
rodzaju obsesją obecnej epoki. Przytoczona wyżej definicja dokumentu
cyfrowego nie czyni żadnej aluzji do technologii zapisu czy też odczytu
informacji. Pierwszy podany w niej przykład (zapisany kodem paskowym
program w notacji RPN) - to dokument sporządzony zwykłą techniką
drukarską na papierze - dokument o treści widocznej nieuzbrojonym
okiem. Producent HP-41C wyposażył kalkulator w piórowy skaner optyczny
do czytania kodu paskowego - ale jest to opcjonalna metoda wpisywania,
pośrednicząca pomiędzy tradycyjną, fizyczną postacią dokumentu
cyfrowego, a elektroniczną naturą kalkulatora.
Innym przykładem dokumentu cyfrowego, nie będącego dokumentem
elektronicznym, jest tak popularna jeszcze niedawno papierowa taśma
perforowana (rysunek 38)
Rysunek 38. Dokument cyfrowy nie będący dokumentem elektronicznym.
Papierowa taśma perforowana. Obraz tego dokumentu zaaranżowano w
postaci tabelki.
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
o |
|||
|
|
|
|
|
|
o |
||||||
|
|
|
|
|
|
|
|
|
|
|
. | . |
|
|
|
|
|
|
|
o |
|||||
|
|
|
|
|
|
o |
||||||
|
|
|
|
|
|
|
|
o |
Obydwa wyżej
wymienione przykładowe dokumenty zostały sporządzone na papierze,
odmiennymi technikami, nie muszącymi mieć jakiegokolwiek kontaktu z
elektroniką i mogą być zdekodowanc nawet „na piechotę", bez żadnych
środków technicznych.
Perforowana taśma oferuje niską gęstość zapisu. Współczesne
oprogramowanie PaperDisc™ (http://www.paperdisk.com/aboutpd6.htm)
oferuje dużą gęstość zapisu na papierze w oparciu o dwuwymiarowy kod
plamkowy, pozwalającą zmieścić 900 stron tekstu na pojedynczej kartce o
wymiarach 8,5x11" (Bajty o przedłużonej trwałości, Teleinfo Nr
36/2001:29).
Nieco inaczej przedstawia się sprawa zapisanego na dysku pliku
tekstowego zredagowanego pod wybranym edytorem. Miniaturyzacja zapisu
odbywa się przez precyzyjne ogniskowanie silnego pola
elektromagnetycznego na małej powierzchni. Towarzyszy temu
strukturalizacja rozkładu informacji na fizycznym nośniku.
Miniaturyzacja i strukturalizacja narzucają konieczność posłużenia się
miniaturowymi detektorami o nienagannie wystandaryzowanych parametrach,
obudowanymi mechaniką, precyzyjną! elektroniką oraz dodatkowo wspartymi
odpowiednim oprogramowaniem. Taki plik zapisany na dysku nazwiemy
elektronicznym dokumentem cyfrowym. Ma on wszystkie cechy obydwu
zdefiniowanych wcześniej dokumentów: elektronicznego i cyfrowego. To
właśnie ten typ dokumentu ma na myśli większość ludzi, posługujących
się terminami „dokument elektroniczny" i „dokument cyfrowy".
Nie należy przypuszczać, że jedyną technologią, w ramach której można
zbudować komputer, jest technologia elektroniczna. W roku 1991 w
Wielkiej Brytanii zrekonstruowano, dokładnie według planów wynalazcy,
„napędzany" korbą, całkowicie mechaniczny komputer, Dijference Engine
No. 2, zaprojektowany pod koniec ubiegłego wieku przez sławnego
Charlesa Babbage'a. Ku sporemu zaskoczeniu realizującego zespołu,
mechaniczny komputer wyposażony w mechaniczny procesor i mechaniczną
pamięć działał nienagannie. W dwa lata po zbudowaniu go postanowiono
przeprowadzić zawody pomiędzy tym genetycznie odtworzonym dinozaurem
wczesnej epoki informatyki oraz notebookiem Cannon BN22 (i486, 25 MHz).
Dla pobudzenia ciekawości Czytelnika nie omówimy tu wyników tego
fascynującego projektu. Więcej szczegółów na ten temat można znaleźć na
sieci pod URL:
http://www.sciencemuseum.org.uk/collections/exhiblets/babbage/start.asp.
Uwagi godne jest także to, że komputer mechaniczny nie powinien się
kojarzyć wyłącznie z archaiczną technologią. Problematyka ta jest
bardzo aktualna w związku z rozwojem nanotechnologii i wiele
interesujących informacji na ten temat można znaleźć w artykule Raipha
Merkle [1993]. Dostępna jest też wersja sieciowa tego tytułu:
http://www.zyvex.com/nanotech/mechano.html.
Kopernik, ucząc się
geometrii sferycznej, nie miał pojęcia o elektronice i nie miał nawet
kalkulatora. A jednak obiekty, którymi się zajmował, były
reprezentowane przez liczby, a jego instrumenty astronomiczne były
swojego rodzaju przetwornikami ana-logowo-cyfrowymi. Mówiąc jeszcze
inaczej, Kopernik poddał digitalizacji nieboskłon i zapisał swe wyniki
we wspaniałym dokumencie. De revolutionibus jest jednak dokumentem
hybrydowym: jedna część obrazu zapisanej rzeczywistości ma postać
cyfrową (tekstową), druga część - np. rysunki - postać analogową.
Autor niniejszego opracowania jest zdecydowanym przeciwnikiem
powszechnie dziś odczuwalnego chaosu terminologicznego. Oryginalność
autorska coraz częściej przejawia się radosnym entuzjazmem w zakresie
tworzenia nowych nazw lub przypisywaniem nowych znaczeń nazwom już
istniejącym a posiadającym dobrze zdefiniowaną semantykę. Ta żonglerka
słowami najczęściej odbywa się bez większej dbałości zarówno o wiedzę
technologiczną, jak i historyczną. Z natury rzeczy na pokusę łatwizny
interpretacyjnej znacznie bardziej narażeni są w tym zakresie humaniści
niż technicy. Z zamiarem wyjaśnienia zakresów stosowania kilku
popularnych terminów zestawiona została poniższa tabela.
Tabela 18. Przykłady realizacji dokumentów analogowych i cyfrowych w różnych technologiach zapisu. Opracowanie własne
Technologia zapisu |
Natura dokumentu |
|
analogowa |
cyfrowa |
|
mechaniczna
|
fonogram
edisonowski |
taśma
perforowana |
magnetyczna
|
taśma
magnetofonowa |
taśma
DAT |
optyczna
|
ścieżka
dźwiękowa na taśmie filmowej |
CD-RW |
elektryczna/elektroniczna |
relief
litofotografii elektronowej |
BIOS
zapisany w pamięci PROM |
Na podobieństwo
fizyki podstawowy podział dokumentów wykreślimy ze względu na ich
naturę. Jak wiadomo, fenomen światła może się manifestować ujawniając
swą korpuskularną (w efekcie fotoelektrycznym) lub falową (w
interferencji) naturę. W pierwszym przypadku światło zachowuje się tak,
jak gdyby stanowiło strumień rozpędzonych cząstek materii,
dysponujących masą i pędem. W drugim - zachowuje się tak, jakby
wypełniało przestrzeń ciągłym polem, z okresowo - ale w sposób ciągły -
zmieniającymi się jego charakterystykami. Tak więc przyjmiemy, że
dokumenty mogą mieć naturę cyfrową lub naturę analogową.
Należy unikać sformułowań „nośnik cyfrowy" czy też „nośnik analogowy".
Na danym nośniku na ogół zawsze można zapisać zarówno sygnał cyfrowy,
jak i analogowy. Czyste, nieperforowane karty do dawnych komputerów
klasy mainframe często używane były przez humanistów w charakterze
fiszek. Fakt, że producent wyprodukował karty pod kątem widzenia
tworzenia w trybie mechanicznym dokumentu cyfrowego, kodowanego w
kodzie Holleritha, nie miał tu żadnego znaczenia. Osoba wypełniająca
treścią te niestandardowe fiszki dokonywała wpisu ręcznie, lub na
maszynie do pisania.
Atrybut "elektroniczny" winien być kojarzony ze sposobem (technologią)
odczytu lub zapisu. Niejednokrotnie ten sam dokument (np. taśmę
perforowaną) można odczytać różnymi sposobami.
[35]Pierce nie podaje tytułu książki, ale najwyraźniej ma na myśli Gadsby wydaną przez Wetzel Publ,Co.Inc . w Los Angeles. Próbkę tekstu z dwóch stron pierwszego rozdziału tej książki można znaleźć na sieci pod URL: http://www.lhup.edu/~dsimanek/gadsby.htm
[36]Nie należy uznawać tego sformułowania za definicję typu prostego. Trzeba pamiętać, że już od dawna komputery dzielono na skalarne oraz wektorowe, w zależności od tego, na jaki rodzaj przetwarzania była optymalizowana ich architektura. Obecnie żyjemy w epoce bardzo szybkich zmian technologicznych i współczesne procesory komputerów osobistych mają już wbudowane elementy obsługi artytmetyki wektorowej.
[37]W tekście przeznaczonej dla bibliotekarzy pracy "Struktura danych bibliograficznych w zintegrowanych systemach bibliotecznych" (Paluszkiewicz [1997] na stronie 9 wkradła się nieścisłość. Sformułowanie "Podstawowym elementem pliku jest rekord" tylko niekiedy jest prawdziwe.
[38]Dyskietka o pojemności 1,44 MB zawierająca pliki unixowe nie da się „zwyczajnie” odczytać pod DOSem, czy pod MS Windows. W przypadku zaistnienia takiej potrzeby należy się posłużyć funkcją eksportu plików do określonego systemu operacyjnego, lub importu ich z określonego systemu operacyjnego. Pod tym względem znacznie dogodniejsze jest posłużenie się protokołem FTP i transferem plików poprzez sieć.
[39]Pragniemy przypomnieć, że w odniesieniu do znaków zapisanych na klawiaturze komputera niekiedy błędnie stosuje się pojęcie „alfabetu łacińskiego”. Godzi się tu przypomnieć, że klasyczna łacina miała alfabet oparty na 21 literach, zapożyczając od Greków z biegiem czasu litery B, D, O, X, a w I wieku n.e. dodano litery Y i Z. Litery V i U nie były rozróżniane, a litery J oraz W w ogóle w łacinie nie występowały.
[40]Jest ona opisana w podręczniku MS DOS pod hasłem ANSI.SYS
[42]Europejski system numeracji towarów (EAN) został wprowadzony w 1978 r. Jego popularne wersje to kodowanie 8-mio cyfrowe (EAN 8) oraz kodowanie 13-to cyfrowe (EAN 13). Specjalna wersja kodu EAN 13 z 5-cio cyfrowym kodem uzupełniającym używana jest do kodowania numerów ISBN na wszystkich książkach (ta wersja kodu znana jest pod nazwą Bookland).
[44]System ten nazwany został przez Ramana na cześć jego psa-przewodnika: stąd tytułowa nazwa książki.
[45]Przystępując do transkrypcji przytoczonych w książce Ramana fragmentów interpretacji wzoru de Bruno spostrzegłem błąd w złamaniu tekstu. Po sprawdzeniu zarówno źródłowego zapisu w książce Knutha, jak i przesłuchaniu udostępnionych na Sieci przez Ramana (1994) plików cyfrowych w formacie AU okazało się, że system poprawnie odtwarza wzór na kanale dźwiękowym a przekłamanie nastąpiło w wersji drukarskiej (prawdopodobnie przy konwersji z Postscriptu do TEX-a). W związku z tym powyżej przytaczany jest transkrypt z pliku audio dla wzoru, który w niniejszej książce ma numer 4.1, a u Ramana 4.5. Autor wyraża swą wdzięczność Jean Ward za uważną korektę transkryptu na podstawie pliku audio.
[46]Ten wiersz transkrypcji jest błędnie wydrukowany w książce Ramana
[47]Ostrzegamy przed przykrymi konsekwencjami nieostrożnego przypisania znaków do następujących kombinacji klawiszy: Ctrl C, Ctrl S, Ctrl X, Ctrl V.
[48]Firma była głównym wykonawcą projektu CHASE, w ramach którego opracowano szereg narzędzi do ułatwienia bibliotekom migracji do Unicode'u (Fisk 1998]) i obecnie zajmuje się promocją uzupełniania opisu bibliograficznego o alternatywne skrypty w języku oryginału.
[49]Wierne tłumaczenie z oryginału. Poprawnie należałoby użyć zwrotu 'alfabet angielski'
[50]W dalszym ciągu na użytek tej książki będziemy stosować konwencję: Unicode - standard, unikod - kod znaku spełniający wymagania standardu.
[51]Jest to wierne tłumaczenie zapisu definicji [Unicode 1998]. Na użytek tej książki przyjmiemy jednak jednolitą konwencję opisu, zgodną składniowo z zapisem rekomendowanym przez Unicode dla znaków łacińskich/angielskich, tj. U+nnn CJK UNIFIED IDEOGRAPH X, gdzie X - jest ideogramem
[53] Институт наследия Бронислава Пилсудского при Сахалинско<государственно< областно< краеведческо< <узее, Южно-Сахалинск
[54]Ekonomiczne problemy związane z publikacją czasopism w Internecie dyskutowane były m.in. przez Okerson [1998], Garson [1998] oraz O'Donnella [1998]
[55]Autor niefortunnie użył spójnika"i". Obydwa standardy połączyły się w jeden. Cytuję książkę referencyjną: "Cel, jakim było połączenie Unicode Standard oraz ISO/IEC 10646 UCS-2 (to jest ISO/IEC 10646 UCS-2 BMP) został zrealizowany. Programiści i użytkownicy systemów powinni traktować wartości kodów znaków zapisanych w Unicode Standard, UCS-2 oraz BMP jako identyczne, szczególnie w zakresie transmisji surowych zbiorów danych przez granice systemów" (Unicode 1998, Załącznik C-4 The Unicode Standard and ISO/IEC 10646, str. C-3). Tak więc terminami ISO/IEC 10646 oraz Unicode należy posługiwać się w praktyce jako synonimami. Pewne różnice pomiędzy standardami nie dotyczą kodowania, ale implementacji dotyczących transmisji wielobajtowej (patrz także Załączniki: C.5 The Unicode Standard as a Profile of 10646, C.6 Character Names, C.7 Character Functional Specifications).
[58]Dokładnie mówiąc‘dokumentem rodzicielskim’ staje się dopiero produkt przetworzenia głosu lektora w pakiet oprogramowania znany jako TTS (ang. Text-To-Speech converter : konwerter tekstu do mowy). W dalszym ciągu będzie on zbiorczo reprezentowany przez termin ‘syntezator mowy’
[59]por. Dąbrowski [1998], Barański [1999], Zyska [1999].
[60]datacytowana za Ledley[1962].
[61]materialne dokumenty kodowane znane były już od dawna.
[62]wznaczeniu angielskiego terminu "resources"