KORZYSTANIE Z „META INFORMACJI”

Jak dotąd omawiane przykłady koncentrowały się na temacie tekstu, a nie na otaczających go dodatkowych „metainformacjach”. Często jest to niepotrzebnie trudny problem do rozwiązania; rzeczywiście, w przypadku własnych danych strategią powinno być uniknięcie konieczności stosowania sztucznej inteligencji, jeśli to możliwe, poprzez zapewnienie kompletnej i dobrze zdefiniowanej struktury metadanych, w którą dane będą opakowywać. Oczywistym tego przykładem jest XML, o którym wspomnieliśmy wcześniej. Jeśli wszystkie zarządzane elementy w firmowym zbiorze danych są zawarte w zdefiniowanych znacznikach, będzie oczywiste, że wszystko pomiędzy ,org. i ,/org. to na przykład organizacja, a nie kod pocztowy. (Pod warunkiem, że tagi zostały zdefiniowane w DTD.) Często jednak musimy analizować dane stare lub dane, nad którymi nie mamy pełnej kontroli. Dane te mogą nadal zawierać pewne informacje strukturalne, chociaż nie pasują do naszego modelu informacyjnego. Załóżmy na przykład, że chcemy wyodrębnić nazwy organizacji z „zagranicznej” bazy danych. Jest oczywiste, że jeśli znajdziemy nagłówek kolumny z nagłówkiem „organizacja”, „firma” itp., to dane, które następują po niej, są prawdopodobnie zbiorem nazw. Być może mniej oczywisty jest fakt, że tę samą strategię możemy zastosować do stron internetowych

Poniże kod HTML

Tagowanie w dokumencie jednoznacznie dzieli wiersze w tabeli na dwa, używając ,td. (dane tabeli) i ,tr. znaczniki wierszy i można również zauważyć, że nazwy „ABC” i „DEF” znajdują się pod nagłówkiem „NAZWA ORGANIZACJI”. Stosunkowo nieinteligentny program, napisany prawdopodobnie w języku takim jak PERL, mógłby zostać użyty do sprawdzenia stron internetowych pod kątem tabel zawierających nagłówki, takie jak „ORGANIZACJA” itp., i wyodrębnienia wszystkich wpisów, które mieszczą się w tych nagłówkach. Opracowania tego podejścia można wykorzystać jako sposób na przekształcenie danych on-line tymczasowego partnera na format, który można przetwarzać w ramach architektury danych innej organizacji. Może być również używany jako sposób na gromadzenie informacji marketingowych

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *