Aktualności
2010-06-23
OAI-ORE
Interoperacyjność bibliotek cyfrowych.
Bibliotekę cyfrową możemy postrzegać jako kolekcję obiektów informacyjnych oraz kolekcję powiązanych z tymi
obiektami usług. Celem biblioteki cyfrowej jest w tym kontekście wsparcie użytkowników w wykorzystaniu
dostępnych bezpośrednio lub pośrednio obiektów informacyjnych.


Intensywny rozwój bibliotek cyfrowych, który nastąpił w ostatnich latach zarówno w Polsce jak i na całym świecie,
stał się podstawą do tworzenia coraz bardziej zaawansowanych usług opartych na bibliotekach cyfrowych. Największe
inicjatywy wspierane w ramach kolejnych programów Komisji Europejskiej, takie jak Europeana czy DRIVER kierunkują
swoje działania na budowę paneuropejskiej infrastruktury danych naukowych. Infrastruktura taka u podstaw ma
setki czy tysiące rozproszonych geograficznie bibliotek cyfrowych gromadzących i udostępniających dziesiątki
milionów zróżnicowanych obiektów cyfrowych. Praktyczna realizacja integracji tak wielu zróżnicowanych usług sieciowych
i udostępnianych w nich zasobów wymaga wysokiej interoperacyjności na wielu płaszczyznach.

W tym kontekście podstawowym poziomem interoperacyjności jest zgodność systemów informacyjnych w warstwie
protokołów komunikacyjnych. Przykładem specyfikacji, której użycie może zapewnić taką interoperacyjność jest
specyfikacja OAI-PMH. Jest to uznany na świecie, otwarty protokół umożliwiający przesyłanie metadanych obiektów cyfrowych w wielu różnych schematach. W celu zapewnienia podstawowej interoperacyjności na poziomie struktury metadanych protokół OAI-PMH narzuca obowiązek udostępniania opisu każdego obiektu przynajmniej w schemacie Dublin Core. Takie wymaganie odpowiada pierwszemu z czterech poziomów interoperacyjności opisanych w dokumencie
„Interoperability Levels for Dublin Core Metadata”. Kolejne poziomy odnoszą się do interoperacyjności semantycznej i syntaktycznej.

Interoperacyjność złożonych obiektów cyfrowych

Poza interoperacyjnością na poziomie metadanych odnoszących się do pojedynczego obiektu, istotnym problemem jest wyrażanie zależności i powiązań pomiędzy rozproszonymi heterogenicznymi obiektami informacyjnymi, a w szczególności prezentacja struktury złożonych czy zagregowanych obiektów. Aby ułatwić maszynom precyzyjne rozpoznawanie zagregowanych zasobów, a co za tym idzie ich wykorzystywanie, powstała specyfikacja OAI-ORE (ang. Open Archive Initiative – Object Reuse and Exchange). Definiuje ona zasady identyfikacji oraz opisu zbioru zasobów internetowych, jak i metody udostępniania tego opisu. Specyfikacja ta opiera się na już istniejących, dojrzałych koncepcjach i wyodrębnia z nich elementy potrzebne do jak najpełniejszego przedstawienia agregacji w sieci. Wykorzystane koncepcje to przede wszystkim: architektura sieci WWW (ang. Architecture of the World Wide Web), sieć semantyczna (ang. Semantic Web) oraz RDF (ang. Resource Description Framework).

Architektura sieci wprowadza następujące, powiązane pojęcia:

• zasób - element zainteresowania,
• URI (ang. Uniform Resource Identifier)
- identyfikator zasobu,
• reprezentacja – aktualna postać zasobu,
pobierana na podstawie URI przy
pomocy znanego protokołu (np.:
protokołu HTTP),
• odnośnik - skierowane połączenie
między dwoma zasobami.

Pojęcia te stanowią podłoże do budowy innych, bardziej złożonych koncepcji. Następną ważną dla OAI-ORE ideą jest sieć semantyczna. W tej koncepcji zasób reprezentuje nie tylko dowolną jednostkę ze świata rzeczywistego, np.:
konkretną osobę czy budynek, ale także idee abstrakcyjne, takie jak demokracja czy państwo. Takie zasoby sieci semantycznej, będące elementem świata rzeczywistego, nie posiadają swojej postaci w sieci. Dlatego zasoby te posiadają swoje URI, jednak nie posiadają swojej reprezentacji. URI zasobów sieci semantycznej powinno być rozwijane na odrębne URI dokumentu opisującego wspomniany element świata rzeczwistego.

Trzecią, ostatnią koncepcją zaanektowaną przez OAI-ORE jest RDF. Jest to model opisujący zasoby sieci semantycznej przy pomocy następujących trójek: podmiot – predykat – obiekt.

Podmiot jest zasobem sieci semantycznej posiadającym swoje URI. Obiekt może być konkretną wartością, jak i nowym podmiotem. Predykat wskazuje na rodzaj relacji łączącej podmiot z obiektem.

Konkretne trójki mogą współdzielić podmioty, jak i obiekty, w ten sposób tworząc połączenia między sobą. W wyniku
otrzymujemy graf powiązań, gdzie wierzchołkami są zasoby lub konkretne wartości, a łukami łączące je relacje.

Specyfikacja OAI-ORE wprowadza nowy typ zasobu – agregację (ang. aggregation), która identyfikuje oraz
reprezentuje koncepcję zbioru powiązanych obiektów. Jak każdy zasób w sieci, posiada ona swoje URI. Jednak zgodnie z postulatami sieci semantycznej, jako koncepcja (element świata rzeczywistego), nie posiada swojej reprezentacji. Aby móc w standardowy sposób opisywać agregacje w sieci wprowadzono kolejny typ zasobu - mapę zasobu (ang. resource map). Jest to dokument opisujący agregację przy pomocy modelu RDF, który jest wygodny do przetwarzania maszynowego. Właśnie na URI mapy zasobu powinny być przekierowywane odwołania do URI agregacji.

Podstawowa wersja mapy zasobu (rys. 1) powinna składać się z informacji o opisywanej agregacji oraz jej elementach
składowych. Z technicznego punktu widzenia powinny być wykorzystane do tego następujące bazowe predykaty wprowadzone przez OAI-ORE:

• ore:aggregates - opisuje relacje przynależności
dokumentu do agregacji,
• ore:describes - opisuje relacje między
mapą zasobu, a agregacją.

W bardziej rozbudowanej wersji mapy zasobu (rys. 2) można zawrzeć:

• opis relacji między
obiektami,
• informacje o własnościach
konkretnych
zasobów,
• informacje o własnościach
samej mapy
zasobu (np.: kto
i kiedy ją opublikował).

Mapy zasobów mogą być wyrażane w różnych formatach takich jak Atom XML, czy RDF/DML.

Dynamiczny rozwój rozproszonych bibliotek i repozytoriów cyfrowych staje się podstawą do budowy zaawansowanych
narzędzi ułatwiających korzystanie z infrastruktury danych naukowych. Jednym z kluczowych aspektów tworzenia takich
narzędzi jest wieloaspektowa interoperacyjność bibliotek i obiektów cyfrowych. Podstawowy i stosunkowo łatwy
do rozwiązania problem to interoperacyjność techniczna – na poziomie protokołu komunikacyjnego. Bardziej
skomplikowane jest osiągnięcie interoperacyjności semantycznej. Inny problem to wyrażanie zależności i powiązań
pomiędzy złożonymi obiektami informacyjnymi. W tym obszarze rozwiązaniem może być standard OAIORE,
wprowadzający unikalny identyfikator (URI) oraz czytelny dla maszyn opis agregacji zasobów. Dodatkowym
atutem specyfikacji OAI-ORE jest wykorzystanie już istniejących koncepcji, dzięki czemu przyswojenie oraz wdrożenie
tej specyfikacji jest łatwiejsze. Przedstawienie w jasny sposób relacji między powiązanymi obiektami informacyjnymi
znacznie ułatwia korzystanie z nich, a także budowanie dodatkowych usług opartych o wniesioną wiedzę.

Agnieszka Lewandowska, PCSS
Marcin Werla, PCSS