PODSUMOWANIE TEKSTU

Często problem nie polega na znalezieniu dokumentu, ale na przejrzeniu go w celu sprawdzenia, czy zawiera coś wartościowego. Chcielibyśmy prostego sposobu na stworzenie automatycznego streszczenia, które uchwyci istotę tekstu, w znacznie mniejszej ilości słów, formę automatycznej, precyzyjnej maszyny, która mogłaby wybrać dla nas tylko „kluczowe” zdania. Co rozumiemy przez „klucz”? Oczywiście istnieje wiele możliwych definicji, niektóre wymagają głębokiej interpretacji znaczenia, inne po prostu badają statystyczne relacje między fragmentami tekstu. Spójrzmy na przykład tego ostatniego:

† Załóżmy, że mamy tekst składający się z kilku zdań.

† Weź kolejno każde zdanie i porównaj je z każdym innym zdaniem w tekście.

† Zdania są „podobne” do siebie, gdy mają (powiedzmy) dwa wspólne słowa. (Słowa takie jak „the”, „a” itp. są ignorowane.)

† Za zdania „kluczowe” uznaje się zdania o największej liczbie podobieństw.

Rozważmy na przykład tekst składający się z dziewięciu zdań .

Następnie możemy uszeregować zdania pod względem liczby „podobieństwa”, czyli powiązań, które mają ze sobą:

† Zdanie szóste przypomina jeden, dwa, trzy, cztery, siedem (pięć linków).

† Zdanie czwarte przypomina jeden, sześć, siedem, osiem (cztery linki).

† Zdanie ósme przypomina trzy, cztery, dziewięć (trzy linki).

† Zdania pierwszy, trzeci, siódmy i dziewiąty mają dwa linki.

† Zdanie drugie ma tylko jeden link.

† Zdanie piąte nie ma żadnych podobieństw.

Proces ten tworzy tabelę rankingową zdań pod względem ich typowości do tekstu. Dla dowolnego stopnia podsumowania, po prostu wybieramy od góry te, które mają najwięcej podobieństw, aż osiągniemy pożądaną ilość tekstu. Ta technika podsumowania może być wykorzystana albo do wyświetlenia podsumowania każdego z wielu fragmentów, które chcieliśmy przeszukać, na ograniczonej przestrzeni ekranu, albo do działania jako filtr wstępny do wyszukiwania słów kluczowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *