581257-8 Tiedonhakumenetelmät - Harjoitus 6/2001 (14.3.)

Merkillä (**) varustettu tehtävä lasketaan kahden tavallisen tehtävän veroiseksi.

1. Dokumentti on jaettu lukuihin ja alilukuihin (5 lukua, jokaisessa 5 alilukua). Varsinainen sisältö (teksti) on käytännössä aliluvuissa; dokumentin pääsolmussa on vain sisällysluettelo (linkkeinä) ja lukuja vastaavalla välitasolla olevissa solmuissa ko. luvun sisällysluettelo (linkit alilukuihin).

Alilukujen solmujen Aij sisäiset painot tiettyyn kyselyyn verrattuna ovat järjestyksessä (10, 30, 30, 50, 50; 20, 20, 20, 20, 20; 10, 80, 10, 10, 10; 100, 0, 0, 0, 0; 10, 0, 0, 0, 0).

a) Laske dokumentin solmujen kokonaispainot käyttäen solmun ulkoisena painona sen 1) jälkeläisten painojen summan puolikasta, 2) sen jälkeläisten painojen keskiarvoa. Tarkastellaan vain rakennetta ylläpitäviä linkkejä (jälkeläissuhteet).

Arvioi myös kummankin laskutavan ominaisuuksia ja ongelmia. Olisiko jokin parempi laskutapa kehitettävissä?

2. a) Tehtävän 1 esimerkissä linkit ovat rakennetta ylläpitäviä. Kuinka tehtävässä 1 tehdyt laskelmat muuttuvat, jos solmujen välillä on lisäksi seuraavat viittauslinkit: A1i -> A32 (i = 1,...,5); A2i -> A41 (i = 1,...,5); A3i -> A3j (i, j = 1,...,5; i<>j).

Jälkeläisyydeksi lasketaan siis tässä myös viittauslinkin ilmaisema suhde.

b) Arvioi vielä (yleisesti, ei varsinaisesti esimerkkiin liittyen) seuraavia solmun kokonaispainon laskentaan vaikuttavia asioita:

- solmujen etäisyys (linkkeinä); olisiko se syytä/mahdollista ottaa eksplisiittisesti huomioon?
- solmun ympäristö linkkien suunnasta riipppumatta
- painojen normeeraus solmun koolla (tekstin pituudella) tai ympäristön solmujen yhteenlasketulla koolla.

3. Mitä erityyppisiä linkkejä löytyy käytännössä WWW-sivuilta? Tarkastele esim. laitoksen sivustoa, vaikkapa sen osaa .../opiskelu, tai W3C:n HTML-määritystä, osaa Links.

Tarkastele linkkejä niiden tarkoituksen eikä niinkään teknisen tyypityksen kannalta.

4. (**) Tutustu artikkeliin [1] ja selvitä siinä esitellyn tutkimuksen pääpiirteet.

Lähteet: 1. Bharat, K. & Henzinger, M.R., Improved algorithms for topic distillation in a hyperlinked environment. ACM SIGIR'98 Conference, 104-111. http://www.acm.org/pubs/contents/proceedings/ir/290941/



Hannu.Erkio@cs.Helsinki.FI