2 Het spatialisatieproces

 

In dit hoofdstuk zal het spatialisatieproces worden beschreven. Dit zal worden gedaan door zowel de theoretische kant te belichten, alsook door het geven van een praktijkvoorbeeld van een spatialisatie in een case study. Telkens zal per paragraaf eerst de theorie worden besproken, waarna de case study zal worden uitgewerkt (dit wordt ter onderscheiding met een ander lettertype gedaan).

 

Het Spatialisatieproces, dat in figuur 7 met de rode pijl is aangegeven, kan worden opgesplitst in de volgende vier opeenvolgende stappen:

 

 

Het spatialisatieproces begint logischerwijs met het inwinnen van data om te spatialiseren. Vanaf de volgende alinea zal worden beschreven welke data er zijn gebruikt voor de case study. De verdere stappen van het proces zullen in dit hoofdstuk per paragraaf worden toegelicht. In §2.1 zal worden besproken op wat voor manieren data geanalyseerd en bewerkt kan en/of moet worden, voordat het gespatialiseerd kan worden. Hoe de data vervolgens in een conceptuele ruimte kan worden weergegeven, het eigenlijke spatialiseren, wordt in §2.2 uitgelegd. De laatste stap van het spatialisatieproces, het bewerken van de data met kartografische methoden en technieken, zal in hoofdstuk 3 worden behandeld.

 

De data voor de case study: ‘Mapping the 21st Century’

 

Als case study zullen een aantal kartografische artikelen gespatialiseerd worden. De artikelen (papers) zijn afkomstig van het congres ‘Mapping the 21st Century’ (www.sbsm.gov.cn/icc2001) van de International Cartographic Association (ICA, www.icaci.org) dat in augustus 2001 gehouden is in Beijing, China.

 

Zoals al eerder is aangegeven is een heleboel niet-ruimtelijke data in principe geschikt om te worden gespatialiseerd. De keuze voor het gebruik van juist deze data is dan ook relatief willekeurig. Relatief, omdat deze data makkelijk beschikbaar waren en het natuurlijk vrij voor de hand ligt om bij een kartografisch onderzoek ook kartografische data te gebruiken: misschien komen er nog conclusies uit de data naar voren, waar kartografen wat aan kunnen hebben.

 

Op het congres kwamen, naast twee plenaire sessies, 28 kartografische onderwerpen aan bod. Hierover zijn in totaal meer dan 500 artikelen geschreven, die op het congres mondeling of via een poster, zijn gepresenteerd.

In deze case study zullen 250 van die artikelen worden gespatialiseerd, zodat kan worden gekeken in hoeverre de verschillende artikelen op elkaar lijken. In bijlage 2 staat een verdere uitleg over de verschillende onderwerpen, het aantal papers dat van elk onderwerp gespatialiseerd zal worden en de selectiecriteria die daarbij gehanteerd zijn.

 

Ook wordt hier meteen verwezen naar bijlage 3 voor een stroomschema van de verschillende bewerkingen die bij het spatialiseren van de conferentiepapers moeten worden uitgevoerd, voordat er van een spatialisatie kan worden gesproken. Deze stappen zullen uitgebreid worden besproken in het praktijkgedeelte van dit hoofdstuk, om het geheel echter wat overzichtelijker te maken is bijlage 3 toegevoegd.

 

2.1 Het analyseren en bewerken van de data

 

Om de informatie een plek op de spatialisatie te kunnen geven, moet de locatie van de gegevens op het coördinatenstelsel bepaald worden. Dit wordt gedaan door de onderlinge afstand van alle verschillende objecten tot elkaar te bepalen, op basis van de informatie. Het begrip afstand heeft bij spatialisaties echter een andere betekenis dan het meestal heeft. Omdat het bij spatialisaties niet om ruimtelijke informatie gaat, kan de afstand van het ene object tot het andere niet in ruimtelijke eenheden, zoals kilometers, worden gemeten. Een veelgebruikte afstandsmaat in spatialisaties is de mate van gelijkheid van de verschillende objecten (zie §1.2).

 

Er kan een onderscheid worden gemaakt tussen twee vormen van spatialisatie: semantische en geometrische (Fabrikant & Buttenfield, 2001). Bij semantische spatialisaties wordt de afstand tussen verschillende objecten berekend op basis van de tekstuele inhoud van de informatie, bij geometrische spatialisaties wordt dat gedaan op basis van numerieke gegevens. Bij semantische spatialisaties (waar in deze scriptie meer de nadruk op zal worden gelegd) kan worden gedacht aan spatialisaties van een database met tekstbestanden of een spatialisatie van (een deel van) het Internet. Bij een geometrische spatialisatie moet meer aan een visualisatie van bijvoorbeeld sociale netwerken of klantenbestanden worden gedacht.

 

Voordat de afstand tussen verschillende objecten op het coördinatenstelsel bepaald kan worden moeten de gegevens numeriek zijn. Bij informatie die op basis van semantiek gespatialiseerd gaat worden, moet de tekstuele informatie dus worden omgezet in numerieke informatie om te kunnen worden gespatialiseerd. Dit wordt gedaan door teksten te analyseren op semantische similariteit. Dit proces zal in de volgende paragraaf worden besproken.

 

2.1.1 Tekstanalyse

 

Bij semantische spatialisaties bestaat de te spatialiseren informatie vaak uit tekstdocumenten. Te denken valt bijvoorbeeld aan boeken in een bibliotheek, een database van tijdschriftartikelen of html-documenten op Internet. Om dit soort documenten op basis van inhoud te visualiseren in een spatialisatie, moeten de semantische verschillen en overeenkomsten tussen verschillende documenten eerst worden bepaald. Dit gebeurt door de teksten te analyseren.

 

Aan de hand van deze analyse kan de (numerieke) afstand tussen verschillende documenten bepaald worden. Op basis van deze afstand kunnen de documenten worden gespatialiseerd en in een conceptuele ruimte worden geplaatst. In deze paragraaf zullen verschillende tekstanalysemogelijkheden en de daaruit volgende semantische afstandsbepaling worden besproken.

 

Er wordt van uitgegaan dat in documenten die inhoudelijk erg veel op elkaar lijken, veel overeenkomstige (sleutel-)woorden te vinden zijn. Het is de bedoeling dat teksten die veel overeenkomsten vertonen, op de uiteindelijke spatialisatie dichter bij elkaar liggen, dan teksten die minder met elkaar gemeen hebben.

 

Om teksten op basis van deze aanname met elkaar te vergelijken moet de hele inhoud van de tekst worden geanalyseerd. Een andere manier zou bijvoorbeeld kunnen zijn om slechts aan de hand van sleutelwoorden die, bijvoorbeeld in een bibliotheek, aan documenten zijn toegekend, teksten met elkaar te vergelijken (Fabrikant, 2000a). Het voordeel van deze methode is dat de teksten niet eerst in het geheel geanalyseerd hoeven te worden om de belangrijkste woorden er uit te halen, omdat er van uit gegaan wordt dat de opgegeven sleutelwoorden een goede representatie van de tekst vormen. De vraag is echter of die, meestal maar enkele, sleutelwoorden, de inhoud van de tekst wel goed weergeven. Wat dat betreft zou beter een samenvatting van een tekst gebruikt kunnen worden voor tekstanalyse. Jammer genoeg is er echter niet van elke tekst een samenvatting voorhanden. Bij wetenschappelijke artikelen is een samenvatting wel vaak aanwezig, maar bij documenten op Internet die geanalyseerd moeten worden meestal niet. Daarom is besloten om in de case study van deze scriptie de totale tekst van elk document te analyseren, omdat de verwachting is dat zo uiteindelijk de beste sleutelwoorden uit de tekst kunnen worden gedestilleerd (hierover meer in het onderstaande stuk over de tekstanalyse van de conferentiepapers).

 

Overigens zijn er nog andere manieren om de similariteit van teksten te bepalen (Davidson et al., 1998). Behalve de tekstuele inhoud van teksten kan er namelijk, afhankelijk van de soort tekst, bijvoorbeeld gekeken worden naar overeenkomende referenties in wetenschappelijke artikelen, of naar hyperlinks in Internetdocumenten. Hierbij wordt uitgegaan van het feit dat een referentie of een link van de ene naar de andere tekst betekent dat die twee teksten iets met elkaar gemeen hebben. Vooral door deze methode te combineren met tekstanalyses van hele conferentiepapers kunnen goede resultaten worden behaald. Voor deze scriptie is het echter veel te ingewikkeld om dit soort methodes in de case study te implementeren. Er zal dan ook alleen een similariteitsanalyse worden uitgevoerd door alle teksten in het geheel met elkaar te vergelijken.

 

Het bepalen van de onderlinge afstand van documenten op basis van de tekst is niet makkelijk. Er zijn verschillende methoden om teksten te analyseren[6], op deze plek worden echter alleen methoden behandeld die de similariteit tussen verschillende teksten bepalen.

Er kan een onderscheid worden gemaakt tussen methoden die teksten ‘begrijpend’ analyseren en methoden die teksten analyseren zonder daadwerkelijk te begrijpen wat er staat, maar alleen het gebruik van woorden in de ene  tekst vergelijken met de andere teksten.

 

Een methode om de afstand tussen teksten te bepalen is door mensen de teksten te laten analyseren op semantische overeenkomsten (Cribbin & Westerman, 1999). Mensen kunnen immers goed teksten overzien en ze indelen naar onderwerp en categorie. Mensen kunnen ook, (op dit moment) beter dan computers, bepalen wat voor betekenis een bepaald woord in een bepaalde context heeft. Veel woorden hebben namelijk verschillende betekenissen, dit zijn de zogenaamde polysemantische woorden (waar er erg veel van bestaan, aangezien er veel woorden in het woordenboek staan met meerdere definities). Ook synoniemen, verschillende woorden met dezelfde betekenis, kunnen voor computers lastiger te begrijpen zijn dan voor mensen.

 

Desalniettemin worden de meeste tekstanalyses uitgevoerd door computers.Er worden bijvoorbeeld tekstanalytische computerprogramma’s geschreven die de menselijke analytische eigenschappen proberen te imiteren. Het programma WordNet, een knowledge base, is een voorbeeld van automatische tekstanalyse (automatic text analysis; ATA) software. Het programma ordent teksten op een hiërarchische manier en bepaalt de relaties tussen woorden, om zo een goede tekstanalyse te maken (Smeaton & Quigley, 1996). Deze analyses zijn weliswaar waarschijnlijk niet zo goed als menselijke analyses, maar wel relatief sneller en minder kostbaar. Ook zijn ze, vergeleken met menselijke analyses, niet subjectief, wat een voordeel kan zijn.

 

Het nadeel van dit soort, al dan niet automatische, ‘begrijpende’ tekstanalysemethoden is de geringe flexibiliteit en het feit dat het ondoenlijk is om grote databases op zo’n manier te analyseren (Westerman & Cribbin, 2000). Het analyseren van het Internet bijvoorbeeld, een gigantische tekstdatabase, met dit soort analysemethoden is ondoenlijk. Niet alleen omdat het zo’n grote database is, maar ook omdat het een erg dynamische database is: dagelijks worden internetpagina’s toegevoegd, verplaatst of verwijderd.

 

Voor het analyseren van grote en/of dynamische tekstuele databases bestaan andere automatische tekstanalyseprogramma’s die niet kijken naar hiërarchische relaties tussen woorden, maar hoofdzakelijk tellen hoeveel keer elk woord in een tekst voorkomt.

 

Dit soort methodes analyseren elk document in een database en het aantal keer dat elk woord voorkomt in dat document wordt genoteerd in een zogenaamde woord*documentmatrix. Dit principe is te zien in figuur 10. De matrix kan gezien worden als een soort vingerafdruk van een document.  De documenten die de meeste woorden met elkaar gemeen hebben komen uiteindelijk in de spatialisatie het dichtst bij elkaar te staan.

 

Figuur 10: Voorbeeld van een Woord * Documentmatrix

 

Door het maken van een woord*documentmatrix is de tekstuele informatie uit de documenten omgezet in numerieke informatie. Nu kunnen de documenten gezien worden als objecten met bepaalde eigenschappen[7]. Een eigenschap van Document2 in figuur 10 is bijvoorbeeld dat Woord1 2 keer voorkomt.

 

Het maken van een woord*documentmatrix is bij tekstanalyses meestal de eerste stap. In zo’n matrix kan elk document gezien worden als een vector in een meerdimensionale ruimte. Elk woord staat voor een dimensie en de frequentie van elk woord staat voor de locatie in de betreffende dimensie. Zo is de locatie in die ruimte van Document3 in figuur 10 bijvoorbeeld te omschrijven als de vector D3(0,3,1,..,0). Elk document heeft hiermee een specifieke locatie in het zogenaamde vector space model (VSM, Salton et al., 1975). Een probleem met het werken met de matrix en het VSM is echter de hoge dimensionaliteit, wat berekeningen erg lastig en langdurig maakt (Kohonen, 2000). 

 

Dit probleem kan worden verlicht door het weglaten van insignificante woorden, waardoor het aantal dimensies van de verschillende vectoren aanzienlijk kleiner wordt. Insignificante zijn woorden die niet bepalend zijn voor de inhoud van de documenten en als zodanig weinig tot niets bijdragen aan ‘de vingerafdruk’ van het document. Het grootste deel van de woorden in een tekst is insignificant. Vooral de werkwoorden en de zelfstandige naamwoorden in een tekst zijn nuttig voor gebruik bij tekstanalyse, de overige woorden zijn zo algemeen dat ze geen enkel onderscheidend vermogen hebben. Een woord als ‘kartografie’ zegt natuurlijk veel meer over een tekst dan een woord als ‘zoals’. Behalve het verkleinen van het aantal dimensies van de woord*documentmatrix heeft het weglaten van insignificante woorden als bijkomend voordeel dat de kwaliteit van de matrix beter wordt.

 

Een methode om te berekenen welke woorden belangrijk zijn in de documenten en welke minder, is latent semantic indexing (LSI) (Deerwester et al., 1990). Bij LSI wordt de woord*document matrix ontleed in factoren met behulp van een matrixberekeningsmethode die singular-value decomposition (SVD) heet. De matrices die uit deze berekening komen hebben als eigenschap dat de factoren (woorden) die de minste invloed op de teksten hebben onderaan staan. Als die factoren worden weggelaten hebben de vectoren een stuk minder dimensies (en is de woord*document matrix een stuk kleiner). Voor meer informatie over LSI wordt verwezen naar Hong (2000).

 

Er zijn ook andere methodes om het aantal dimensies van de vectoren te verkleinen, bijvoorbeeld de randomly projected histograms-methode, die wordt besproken in Kohonen et al. (2000). Het voordeel daarvan boven LSI is de sterk verminderde rekentijd die nodig is, hiervoor wordt echter maar een klein percentage in nauwkeurigheid ingeleverd.

Het vinden van betere algoritmes die de rekentijd verkorten is belangrijk, omdat het uitrekenen van locaties van documenten op een spatialisatie van een grote database (denk bijvoorbeeld aan het Internet) enorm veel rekenkracht vraagt.

 

In de case study in deze scriptie wordt geen gebruik gemaakt van bovenstaande methoden om het aantal dimensies van de woord*documentmatrix te verkleinen en de matrix meer betekenis te geven. De woorden die niet bijdragen aan de semantiek van een tekst worden er namelijk meteen al uitgefilterd door het programma TextAnalyst (zie de paragraaf over tekstanalyse van de conferentiepapers).

 

Een andere mogelijke bewerking van de woord*documentmatrix is, dat woorden die juist alleen in bepaalde teksten voorkomen extra gewicht krijgen (Salton & Buckley, 1990). Op die manier komen belangrijke eigenschappen van de documenten meer naar voren. Dat is in de case study niet gebeurd: alle woorden die in de uiteindelijke matrix worden opgenomen krijgen hetzelfde gewicht.

 

Tekstanalyse van de conferentiepapers

 

Om de teksten van de verschillende conferentiepapers te analyseren is gebruik gemaakt van het programma TextAnalyst[8]. Er is in deze case study gebruik gemaakt van het programma TextAnalyst omdat de bovenstaande manier om teksten te analyseren een goede samenvatting van die teksten lijkt te geven. Teksten worden op de volgende manier geanalyseerd:

-         Ten eerste worden insignificante woorden niet meegenomen in de analyse. Woorden als ‘a’, ‘and’, ‘the’ en ‘however’ (het zijn Engelse teksten) hebben voor teksten geen enkele semantische waarde en worden er dus meteen uitgefilterd. Het programma gebruikt hiervoor een woordenboek waarin woorden staan die weggelaten mogen worden in de analyse. Het weglaten van insignificante woorden is noodzakelijk voor een goede analyse, omdat anders teksten met elkaar vergeleken worden op woorden die niks over de semantiek van de tekst zeggen. Dit maakt erg veel uit omdat het grootste deel van de woorden insignificant is.

-         Ten tweede worden zogenaamde stammorfemen geïdentificeerd en worden woorden daartoe teruggebracht, om zo meegenomen te worden in de analyse. De stammorfeem is de basisvorm van een woord. Het woord ‘mens’ bijvoorbeeld is de stammorfeem van de woorden ‘mensen’, ‘mensje’, ‘menselijk’, ‘mensdom’ en ‘mensheid’ (Van Dale Lexicografie, 1995). Omdat deze woorden allemaal ongeveer dezelfde betekenis hebben, worden ze in de analyse samengevoegd tot hun basisvorm. Om dit te kunnen doen gebruikt het programma ook een woordenlijst, die helaas niet zo uitgebreid is. Het gevolg is dat er in de uiteindelijke woordenlijst nog een heleboel woorden staan die niet tot hun stammorfeem zijn teruggebracht. In de uiteindelijke woordenlijst staat bijvoorbeeld zowel het woord ‘map’ als ‘maps’. Deze woorden moeten later in de uiteindelijke woordenlijst nog handmatig worden samengevoegd. Hier wordt later op teruggekomen.

-         Tenslotte maakt het programma een woordenlijst van begrippen die in de tekst van belang zijn, met hun frequentie (zie de linkertabel in figuur 10). Er wordt uitgegaan van de vrij arbitraire regel dat een woord minstens vier keer in de tekst moet voorkomen om te worden opgenomen in de woordfrequentielijst. 

 

Figuur 11: Links: Een deel van een woordfrequentielijst verkregen met het

programma TextAnalyst na het analyseren van een tekstbestand.

Rechts: Dezelfde woordenlijst maar nu geïmporteerd in Access.

 

De woordfrequentielijst die het programma maakt kan worden geëxporteerd als html-bestand. Dit bestand moet vervolgens weer in Word worden opgeslagen als tekstbestand om te kunnen worden geïmporteerd in Access (zie de rechtertabel in figuur 11). Access is een databaseprogramma in het Officepakket van Microsoft waarmee (relationele) databases kunnen worden gemaakt.

Er is, in het belang van de latere similariteitsanalyse[9], voor gekozen om van elk document de 25 meest voorkomende (significante) woorden in de uiteindelijke analyse op te nemen. Er wordt van uitgegaan deze woorden een goed beeld van de inhoud van een document geven. Deze woorden moeten uit de woordfrequentielijsten worden geselecteerd.

 

Om een woord*documentmatrix te maken moeten de afzonderlijke documenten gekoppeld worden aan een woordenlijst. In die woordenlijst moeten alle woorden zitten die in de documenten voorkomen. In Access is zo’n lijst te maken door de woordenlijsten van alle documenten achter elkaar te plakken en de dubbele woorden eruit te laten. Dit kan gedaan worden door het maken van een zogenaamde samenvoegquery. Het resultaat is een lijst met zo’n 2100 woorden, waarin alle top-25 woorden van alle documenten zitten.

 

Vervolgens moeten de woordenlijsten van alle afzonderlijke documenten gekoppeld worden aan de totale woordenlijst. Dit kan in Access gedaan worden door relaties aan te leggen tussen de tabel met de totale woordenlijst en de afzonderlijke tabellen met woordfrequentielijsten. Dit is in figuur 12 te zien: elk venster staat voor een tabel. Het veld ‘woorden’ is gekoppeld aan het veld ‘keyword’ in de woordfrequentietabellen. De tabellen zijn op zo’n manier aan elkaar gerelateerd dat alle records (woorden) uit de totale woordenlijst worden opgenomen in een tabel die met deze koppeling wordt gemaakt. Als de tabellen namelijk op een andere manier aan elkaar gekoppeld zouden worden dan zou niet de hele woordenlijst worden opgenomen en zouden de zogenaamde nulwaarden niet in de tabel terug te vinden zijn.

 

Figuur 12: De koppelingen in Access tussen de verschillende tabellen. Voor uitleg zie tekst.

 

          

Figuur 13: Een deel van de uiteindelijke woord*documentmatrix.

 

 Als uiteindelijk alle documenten zijn gekoppeld aan de woordenlijst is de woord*documentmatrix af. Een deel daarvan is te zien in figuur 13 (matrix 1). In de kolommen de verschillende documenten (201: onderwerp 2, document 1), in de rijen de woorden. Het woord historic komt bijvoorbeeld 9 keer voor in document 204.

 

De woordenlijst is echter nog niet af omdat een heleboel woorden, zoals eerder opgemerkt, nog niet tot hun stammorfeem zijn teruggebracht. Dit moet, voor een betere vergelijking tussen de documenten, nog wel handmatig gebeuren in Excel. Als deze woordenlijst namelijk zou worden gebruikt om een similariteitsmatrix mee te maken dan zouden de woorden ‘historic’ en ‘history’ als woorden met een verschillende betekenis worden gezien, met als gevolg dat het lijkt of document 203 en 204 geen overeenkomst met elkaar hebben, terwijl dit wel zo is. In de tweede matrix in figuur 13 is te zien hoe een aantal woorden met dezelfde betekenis zijn samengevoegd. In de totale woordenlijst is het totale aantal woorden op deze manier teruggebracht van ongeveer 2100 tot 1550 woorden. Deze bewerking is erg belangrijk voor de uiteindelijke spatialisatie, omdat niet alleen woorden waarvan er zowel een enkelvoud als een meervoud van in de woordenlijst staat worden samengevoegd (‘city’-cities’), maar ook woorden die ongeveer dezelfde betekenis hebben (‘neighbour’- ‘neighbourhood’) en woorden die op verschillende manieren gespeld worden (‘visualisation’-‘visualization’). Dit is een bewerking die moeilijk door een computer kan worden uitgevoerd, omdat bij veel woorden niet duidelijk is dat ze iets met elkaar te maken hebben. Het gevolg van deze bewerking is dat documenten die écht op elkaar lijken, op de spatialisatie dichter bij elkaar komen te liggen.

 

Wat een nadelig gevolg is van de samenvoeging van verschillende woorden is dat niet elk document meer uit 25 woorden bestaat. Dit maakt de vergelijking minder eerlijk. In de praktijk blijkt echter dat de meeste documenten nu nog uit 23 woorden bestaan, met een minimum van 21 en een maximum van 25. Dat betekent dat de samenvoeging van verschillende woorden een veel sterkere verbetering dan een verslechtering van de vergelijking is.

 

Om de aangepaste woord*documentmatrix geschikt te maken voor verdere analyse, wordt de matrix binair gemaakt (figuur 13, matrix 3): als een woord niet in een document voorkomt komt er een 0 te staan, als een woord wel voorkomt komt er een 1 te staan. Er wordt dus geen gewicht gegeven aan de verschillende sleutelwoorden.

 

Alhoewel geprobeerd is om een goede manier te vinden om de verschillende teksten te analyseren, is de manier waarop in deze case study teksten worden geanalyseerd niet perfect. Het feit dat hele teksten worden samengevat door het selecteren van de 25 meest voorkomende woorden per document, brengt bijvoorbeeld al een grote foutenmarge met zich mee. Ten eerste omdat bij de tekstanalyse door TextAnalyst niet alle insignificante woorden uit de tekst zijn gehaald. Het feit dat in veel teksten het woord ‘figure’ vaak voorkomt zegt niet veel over een tekst, maar teksten worden wel op dat woord met elkaar vergeleken. Er is overigens wel geprobeerd om dit soort woorden zoveel mogelijk uit de woordenlijst te verwijderen. Ook kan het natuurlijk voorkomen dat een woord in de ene tekst in een hele andere context wordt gebruikt dan in de andere tekst. In de similariteitsanalyse zullen deze woorden echter toch als hetzelfde worden gezien.

 

Het feit dat er geen gewicht aan de verschillende woorden wordt gehangen maakt de analyse ook niet preciezer. Woorden in de titel van een tekst tellen bijvoorbeeld niet zwaarder dan woorden in de tekst zelf, het herkennen van de titel is voor TextAnalyst namelijk niet mogelijk. Het woord ‘map’ kan met een frequentie van 75 keer in document A en met een frequentie van 5 keer in document B, in allebei de gevallen in de lijst met 25 woorden staan. Hoewel het belang van het woord ‘map’ in document A (bij een zelfde documentlengte) veel groter is dan het belang in document B, telt het woord in de vergelijking toch even zwaar, als gevolg van het feit dat er geen gewicht aan de verschillende woorden gekoppeld is.

 

Aangezien het niet het primaire doel van deze scriptie is om een perfecte tekstanalyse te maken, is er aan deze relatief kleine tekortkomingen verder niet gesleuteld. De verwachting is namelijk dat deze analyse een redelijk goed beeld geeft van de similariteit van de verschillende papers. Of dat ook daadwerkelijk zo is zal, in het praktijkgedeelte van de volgende paragraaf, worden getest door middel van een aantal testdocumenten die over een ander onderwerp gaan. Voordat dit gebeurt zal in de volgende paragraaf eerst worden ingegaan op verschillende manieren om meerdimensionale data weer te geven op een spatialisatie.

 

2.2 Het weergeven van meerdimensionale data in een conceptuele ruimte

 

Een spatialisatie wordt weergegeven in een twee- of driedimensionale conceptuele ruimte. Om informatie die gespatialiseerd moet worden een locatie te geven in een tweedimensionale ruimte, worden de gegevens uit de reeds gemaakte woord*documentmatrix gebruikt. Deze matrix kan worden beschouwd als een ruimte met een groot aantal dimensies (evenveel dimensies als er documenten zijn). Om deze ruimte zo te kunnen visualiseren, dat mensen het kunnen bevatten, moet het aantal dimensies van de data worden teruggebracht tot 2 (of 3).

 

Het terugbrengen van het aantal dimensies komt er op neer dat er een ruimte ‘geschapen’ wordt (het eigenlijke spatialiseren) waarin de verschillende data-eenheden, in veel gevallen documenten, op een plaats terechtkomen die logisch voortkomt uit de woord*documentmatrix. De documenten die in die matrix het meest op elkaar lijken, staan dan ook op de spatialisatie het dichtst bij elkaar. Afhankelijk van de data, zullen verschillende groepen documenten die erg op elkaar lijken, en dus clusters vormen, zichtbaar worden. Het voordeel van het spatialiseren van data is dan ook nu al te zien: de structuur van de matrix wordt erdoor in een oogopslag duidelijk.

 

Het coördinatenstelsel van de spatialisatie is afhankelijk van de data, maar dat geldt in principe voor elk coördinatenstelsel op een kaartprojectie (Fabrikant & Buttenfield, 2001). Het gaat hier om het feit dat in het coördinatenstelsel de relaties die er bestaan tussen de verschillende data zo goed mogelijk worden behouden.

 

Het gebruik van een coördinatenstelsel maakt een groot aantal cartometrische taken mogelijk. De locatie van en afstand tussen verschillende stukken informatie is bijvoorbeeld te bepalen. Het coördinatenstelsel maakt, afhankelijk van de informatie, ook het in- en uitzoomen naar verschillende schaalniveaus mogelijk. Objecten kunnen hiërarchisch gegroepeerd en gegeneraliseerd worden (Fabrikant & Buttenfield, 2001).

 

Bij het terugbrengen van het aantal dimensies van de data moet echter wel rekening worden gehouden met het feit dat altijd bepaalde informatie verloren zal gaan. Dit kan bijvoorbeeld worden vergeleken met de foto (2-dimensionaal) van een landschap (3-dimensionaal). Op de foto van het landschap kan geen diepte worden gezien, de informatie over diepte is dus verloren gegaan. Ook kartografen hebben met dit probleem te maken. Bij het in kaart brengen van de aarde wordt driedimensionale informatie vaak op een tweedimensionale vlak afgebeeld. Afhankelijk van de gebruikte projectie gaat (juiste) informatie over afstand, grootte of richting vaak verloren.

 

Het is bij het terugbrengen van het aantal dimensies in de informatie van belang dat juist die aspecten van de informatie worden behouden die voor de toepassing van belang zijn. In dit geval is dat de onderlinge afstand tussen documenten. Er moet dus gebruik gemaakt worden van rekenkundige methoden die dit zo goed mogelijk doen. Hiervoor zijn meerdere technieken bekend[10], waarvan er twee bij uitstek geschikt zijn voor het maken van spatialisaties: meerdimensionale schaalanalyse en Kohonen Self Organising Maps. Beide methoden zullen in de volgende paragrafen worden besproken en zullen vervolgens met elkaar worden vergeleken

 


2.2.1 Meerdimensionale schaalanalyse (MDS)

 

Meerdimensionale schaalanalyse (multidimensional scaling of MDS) is een statistische data-analysetechniek die de structuur van meerdimensionale data (in dit geval een woord*documentmatrix) als een twee- of driedimensionale geometrische figuur kan weergeven. Met behulp van MDS kunnen de te spatialiseren documenten dus daadwerkelijk een locatie krijgen op een Euclidisch (lineair) coördinatenstelsel, waarbij de relatieve afstand tussen de verschillende documenten zo goed mogelijk weergegeven wordt.

 

MDS komt voort uit de psychometrie, waar het, in de jaren ’50 van de twintigste eeuw, voor het eerst werd gebruikt. Tegenwoordig is MDS een algemene data-analyse techniek die gebruikt wordt door een groot aantal disciplines. Er zijn in de afgelopen decennia meerdere vormen van MDS ontwikkeld, ieder met andere rekenmethoden en andere toepassingen[11].

 

Voordat data echter kunnen worden geanalyseerd met MDS moeten de data in de vorm van een similariteitsmatrix[12] worden aangeboden. Een similariteitsmatrix is een matrix waarin de onderlinge ‘gelijkheid’ van de verschillende documenten uit de woord*documentmatrix bepaald wordt.

 

Omdat de documenten uit de woord*documentmatrix als meerdimensionale vectoren kunnen worden gezien (zie §2.1.1, Salton et al., 1975), kunnen die vectoren met elkaar worden vergeleken. Hiervoor zijn meerdere methoden bekend. Een veelgebruikte vergelijkingsmethode, die ook in de case study gebruikt zal worden, is de zogenaamde cosinusmethode[13]. Hierbij wordt de hoek tussen de verschillende vectoren (documenten) berekend. Vervolgens kan de cosinus van die hoek als similariteitsmaat gebruikt worden. Hoe kleiner het verschil tussen twee vectoren, hoe kleiner de hoek, hoe groter de cosinus. Een cosinus van 1 betekent dus dat twee documenten identiek zijn, een cosinus van 0 dat twee documenten helemaal niet op elkaar lijken.

 

In figuur 14 is dit gevisualiseerd: de vector van document X lijkt niet zo erg op de vector van document A, meer op die van document B en het meest op die van document C omdat de hoek tussen die twee vectoren het kleinst is. De verkregen waarden kunnen in de similariteitsmatrix worden ingevuld. Figuur 15 laat een voorbeeld van zo’n similariteitsmatrix zien. Aan de hand van deze matrix kan met MDS de plaats van elk document op de spatialisatie berekend worden.

Figuur 14: De cosinusmethode: de hoekafstand tussen twee vectoren wordt gebruikt als similariteitsmaat.

Figuur 15: Voorbeeld van een similariteitsmatrix. De getallen lopen van 0 tot 1, hoe hoger het getal, hoe meer de documenten op elkaar lijken. Document 3 en 5 hebben bijvoorbeeld veel met elkaar gemeen, document 1 en 2 helemaal niet.

 

Om te laten zien hoe MDS in de praktijk werkt zullen de relatieve afstanden tussen vijf Europese hoofdsteden, met behulp van een van de MDS-technieken, in kaart worden gebracht. In dit voorbeeld wordt met, van oorsprong, ruimtelijke data gewerkt, omdat zo makkelijker gecontroleerd kan worden of de methode werkt, de relatieve locaties van Europese hoofdsteden ten opzichte van elkaar is immers bekend. De afstandstabel (figuur 16) kan echter worden vergeleken met een similariteitsmatrix. In de afstandstabel geldt dat hoe kleiner de afstand tussen twee steden is, hoe dichter ze op een kaart bij elkaar liggen. In een similariteitsmatrix geldt dat als twee documenten meer op elkaar lijken, ze op de spatialisatie ook dichter bij elkaar komen te liggen. De steden in de afstandstabel kunnen dan ook worden gezien als documenten, omdat hier sprake is van hetzelfde principe.

 

Figuur 16: Afstandstabel tussen 5 Europese hoofdsteden (afstanden zijn in kilometers)

Bron: Jetsales.com Airdistance Calculator

 

Met de data in figuur 16 wordt een meerdimensionale schaalanalyse uitgevoerd met behulp van het Proxscal-algoritme. Proxscal[14] is één van de twee MDS-technieken in het SPSS- softwarepakket. Het algoritme brengt het aantal dimensies terug van, in dit geval, 5 naar 2 en rekent de locatie van de verschillende steden op een coördinatenstelsel uit (figuur 17). De verkregen locatie kan vervolgens worden ingevuld op een spatialisatie, zoals te zien is in figuur 18.

 

Zoals gezegd moet er rekening gehouden worden met het feit dat bij het terugbrengen van het aantal dimensies informatie verloren gaat. De locatie van de punten in een meerdimensionale ruimte kan namelijk nooit precies worden weergegeven in een tweedimensionale ruimte. Dit verlies aan informatie wordt uitgedrukt door de zogenaamde ‘stress’. De tweedimensionale locatie van de data op de spatialisatie is afhankelijk van de stress: hoe lager de stress, hoe preciezer de locatie van de data op de spatialisatie is ten opzichte van de oorspronkelijke, meerdimensionale, data[15]. Er geldt hier dat uit hoe meer dimensies de oorspronkelijke data bestaat, hoe minder goed de locatie van de verschillende objecten in een tweedimensionale ruimte kan worden weergegeven.

 

Figuur 17: Locatie van de verschillende steden op een coördinatenstelsel.

Bron: Proxscal, SPSS.

 

Figuur 18: Spatialisatie van de afstanden tussen de verschillende Europese steden met de coördinaten van figuur 17.  Bron: Proxscal, SPSS.

 

Figuur 18 laat duidelijk zien dat de locatieverhoudingen tussen de verschillende steden goed kloppen. Net als in het echt ligt Parijs dichter bij Londen en ligt Rome verder van Oslo dan van Parijs. Wat echter niet uit de spatialisatie is af te leiden is de werkelijke afstand in kilometers tussen de steden. Ook de vraag waar het noorden zich bevindt kan niet aan de hand van figuur 9 beantwoordt worden. De assen waarop de punten liggen zijn, behalve op de spatialisatie, zonder betekenis, evenals de oriëntatie van die assen (Borgatti, 1997).

 

Dat is echter ook niet waar het bij een spatialisatie om gaat. Dat hier ruimtelijke data worden gespatialiseerd was een voorbeeld, normaliter wordt dit natuurlijk met niet-ruimtelijke data gedaan. De afstand van dat soort data is niet in kilometers uit te drukken en ook het noorden van een documentencollectie zal nooit gevonden worden. Waar het wel om gaat is dat in een conceptuele ruimte, zoals een spatialisatie, heel duidelijk de onderlinge verhoudingen van verschillende niet-ruimtelijke data kan worden weergegeven. Figuur 17 bewijst dat MDS daar een goede methode voor is.

2.2.2 Kohonen Self-Organising Map (SOM)

Een andere mogelijkheid om meerdimensionale data te spatialiseren is door gebruik te maken van de Kohonen Self-Organising Map-methode (SOM, Kohonen, 1995). De SOM kan meerdimensionale data op een, van tevoren vastgelegd, tweedimensionaal rasterpatroon weergeven. Net als bij MDS geeft de SOM de relatieve afstanden tussen verschillende data (documenten), zo goed mogelijk weer. SOM is ook geschikt voor het herkennen van patronen en het classificeren van data. De SOM is een methode die steeds meer aan populariteit wint en op allerlei terreinen wordt ingezet om de structuur van grote hoeveelheden meerdimensionale data te visualiseren. SOM heeft bijvoorbeeld toepassingen in de spraakherkenning, leerstrategies voor robots, biomedische applicaties en optische karakterherkenning (Koua, 2002).

 

Figuur 19: Afbeelding van de WEBSOM. Door het aanklikken van een rasterpunt komen de nieuwsgroepberichten die ermee geassocieerd zijn tevoorschijn.

Bron: http://websom.hut.fi/websom/milliondemo/html/root.html

 

Een voorbeeld van het gebruik van de SOM-methode is WEBSOM, een applicatie gemaakt om Internetdocumenten te spatialiseren. In figuur 19 is een gedeelte van een SOM te zien, gemaakt van meer dan een miljoen berichten uit zo’n 80 Usenet Nieuwsgroepen (Kaski et al., 1998). Door op één van de rasterpunten op het raster te klikken komt een lijst van berichten die met dat punt zijn geassocieerd tevoorschijn. Om vervolgens de berichten te lezen kan op de naam ervan in de lijst worden geklikt. Onderwerpen en berichten die veel met elkaar te maken hebben staan op de spatialisatie dicht bij elkaar. Gebieden met rasterpunten waar veel berichten mee zijn geassocieerd zijn in de figuur lichtgeel gekleurd. Gebieden met minder berichten zijn donkerrood gekleurd.

 

De SOM is een zelflerende neurale netwerkmethode (unsupervised learning neural network)[16]. Neurale netwerken zijn door de menselijke hersenen geïnspireerde modellen. Ze bestaan uit een groot aantal zeer eenvoudige elementen die zich in essentie hetzelfde gedragen als de neuronen in de hersenen van een mens (zie figuur 20)(Kohonen, 1995).

Figuur 20: De werking van een enkele neuron

Bron: Technieuws 37/2, Ministerie van Economische Zaken

 

De rasterpunten op de SOM worden dan ook wel neuronen genoemd. Het is de bedoeling dat alle te spatialiseren objecten aan een neuron op de SOM worden toegewezen. Eén neuron kan in principe meerdere objecten bevatten. Welke data welke plek op het raster krijgt toegewezen wordt bepaald door een zich steeds herhalend leerproces. Gedurende het proces worden de waarden van de neuronen steeds beter op de te spatialiseren data afgestemd en uiteindelijk worden aan elke neuron de best passende data-eenheden toegewezen. In de volgende alinea’s zal dit leerproces gedetailleerder worden uitgelegd (zie figuur 21).

 

Bij het spatialiseren van documenten krijgen al de neuronen op het raster om te beginnen een willekeurige gewichtsvector, met evenveel dimensies als de documentvectoren. Een documentvector (de input data in figuur 21) uit de woord*documentmatrix wordt met al deze gewichtsvectoren vergeleken, bijvoorbeeld door de cosinus van de hoek tussen de vectoren te nemen (zie §2.2.1). De neuron met de gewichtsvector die het meest lijkt op de documentvector (de kleinste hoek dus), is de zogenaamde winnaar. Die neuron past zijn gewichtsvector aan de documentvector aan, zodat de twee vectoren meer op elkaar lijken. Ook neuronen in de buurt passen hun gewicht een beetje aan. Neuronen in het raster die een grote afstand hebben tot de winnaar veranderen hun gewicht niet.

Ook alle andere documentvectoren worden met de gewichstvectoren op het raster vergeleken en zorgen ervoor dat de gewichtsvectoren van de verschillende neuronen worden aangepast.

 

Dit hele proces herhaalt zich een aantal keren, waarbij de SOM steeds preciezer overeenkomt met de ingevoerde data, omdat de gewichtsvectoren van de neuronen steeds meer overeenkomen met de documentvectoren. Elke keer dat het proces zich herhaalt worden de gewichtsvectoren beter aangepast aan de documentvectoren. De mate waarin de gewichtsvectoren zich aanpassen aan de documentvectoren wordt echter naarmate het proces zich vaker heeft herhaald steeds kleiner, tot de waarden bijna niet meer veranderen en de SOM geoptimaliseerd is voor de documentvectoren.

 

Documenten die veel op elkaar lijken zullen ook op een SOM dicht bij elkaar in de buurt liggen, omdat ook de neuronen die in de buurt van het winnende neuron liggen hun gewichtsvector aanpassen in de richting van de winnende documentvector. Dit is de zogenaamde neighbourhood function en er geldt dat hoe dichter bij het winnende neuron hoe meer het gewicht van de neuron wordt aangepast. Het gevolg is dat vectoren die op elkaar lijken bij elkaar in de buurt komen te liggen. Elke keer dat het proces zich herhaalt wordt deze neighbourhood function minder sterk: in het begin passen neuronen in een groot gebied rond de winnaar hun gewicht aan, aan het einde alleen nog de direct omliggende of zelfs alleen het winnende neuron[17]. Zo ontstaan clusters van neuronen die ongeveer dezelfde gewichtsvectoren hebben (Allinson, 1997).

 

Figuur 21: De structuur van de Kohonen SOM. De cirkels zijn neuronen met (op het begin) willekeurige gewichtsvectoren, waarbij telkens 1, de winnaar, het beste overeenkomt met de documentvector (de input data). In dit geval het donkergrijze neuron. Deze neuron  past zijn gewicht in een bepaalde mate aan de documentvector aan. Ook de neuronen in de buurt (de neuronen binnen het vierkant) passen zich aan, afhankelijk van de afstand van de winnende neuron en de opgegeven neighbourhoud function.

Bron: Allinson, 1997

 

Het leerproces van de SOM is af als er (bijna) geen optimalisatie meer optreedt tussen de gewichtsvectoren van de neuronen en de documentvectoren. De gewichtsvector die elke neuron nu heeft wordt gebruikt om alle documenten aan een neuron toe te wijzen. Een document wordt geplaatst in het neuron met de gewichtsvector die het meest overeenkomt met de documentvector. Nu is de meerdimensionale data omgezet in twee dimensies. De SOM kan vervolgens nog verder bewerkt worden, bijvoorbeeld zoals in figuur 18 is gebeurd: ‘dichtbevolkte’ gebieden op de spatialisatie krijgen een lichtere kleur (geel) dan ‘dunbevolkte’ gebieden (rood).

 


2.2.3 Verschillen tussen MDS en Kohonen SOM

 

Eén van de belangrijkste verschillen tussen Kohonen SOM en meerdimensionale schaalmethoden (MDS) bij het spatialiseren van data is dat er bij SOM sprake is van een ruimtelijk raster met punten, waarop de data-eenheden een plaats toegewezen krijgen. Bij MDS kunnen data elke willekeurige plaats innemen in een ruimte die aan de hand van de data wordt geschapen.

 

Hieruit volgt het grootste voordeel van het gebruik van de SOM. Er kan namelijk makkelijk informatie aan een SOM kan worden toegevoegd, zonder dat de hele SOM opnieuw berekend hoeft te worden. Aan de gewichtsvectoren van de oorspronkelijke SOM worden de nieuwe documentvectoren toegevoegd en de SOM kan vanaf daar worden herberekend (Kohonen et al.,2000). Dit is bij MDS niet het geval: als er nieuwe data aan een spatialisatie moeten worden toegevoegd, dan moet ook de hele spatialisatie opnieuw worden berekend, omdat de ruimte waarop de data zijn geplaatst wordt bepaald door de data zelf. Bij het toevoegen van nieuwe data veranderen namelijk ook de coördinaten van de data ten opzichte van elkaar, wat bij SOM niet het geval is.

 

Het gebruik van SOM biedt dus vooral bij grote, veranderende, databestanden voordelen ten opzichte van MDS. De rekenkracht die het kost om spatialisaties van dit soort data bij te houden is met SOM namelijk veel minder dan bij MDS. Een applicatie zoals WEBSOM is erg geschikt om hele grote databases te spatialiseren. In de toekomst zou het ook moeten lukken om gigantische documentencollecties zoals het Internet te spatialiseren. Het Internet bestaat echter uit meer dan een miljard documenten en in het meest recente artikel (Kohonen et al.,2000) is het aantal gespatialiseerde documenten ‘pas’ 7 miljoen. Dit aantal loopt echter snel op, door het gebruik van steeds betere algoritmes om de SOM te maken en het gebruik van computers met steeds meer rekenkracht.

 

Een ander verschil tussen MDS  en SOM is dat bij MDS één punt op de spatialisatie per definitie ook één document representeert, terwijl dat bij SOM niet zo hoeft te zijn. Eén punt (een neuron) in het raster van de spatialisatie kan namelijk meerdere documenten representeren. Dit is bijvoorbeeld het geval als er minder neuronen zijn op de spatialisatie dan te spatialiseren documenten (in het artikel van Kohonen et al. bijvoorbeeld 6 840 568 documenten op 1 002 240 neuronen). Dan worden er onvermijdelijk twee of meer documenten toegewezen aan sommige neuronen. De semantische afstand tussen die twee documenten is op de spatialisatie gereduceerd tot 0. Sommige andere documenten echter, waarvan de documentvector net iets meer overeenkomt met de gewichtsvector van neuron A dan met die van neuron B, zitten op een spatialisatie relatief ver af van documenten waarvan de vector wel meer leek op die van neuron B. De semantische afstand tussen die documenten is dus eigenlijk te groot.

 

De maximale afwijking die documenten op een SOM echter kunnen hebben ten opzichte van elkaar is gemiddeld veel kleiner dan de maximaal mogelijke afwijking op een spatialisatie gemaakt met MDS. Het gegeven dat de afwijking bij het gebruik van MDS groter wordt naarmate de databestanden groter zijn (omdat er dan meer dimensies gereduceerd worden), is dan ook een andere reden om te pleiten voor het gebruik van SOM bij het spatialiseren van grote hoeveelheden data. Het verschil tussen de verwachte afstand (op basis van de similariteitswaarde) tussen twee documenten en de werkelijke afstand op een MDS-spatialisatie, kan namelijk heel hoog oplopen als er veel dimensies moeten worden gereduceerd (dit zal uit de praktijkvoorbeelden in de volgende paragraaf blijken).

 

Het spatialiseren van de conferentiepapers

 

Bij het maken van de spatialisaties in de case study is gekozen voor het gebruik van MDS boven dat van de SOM. De belangrijkste reden daarvoor is simpelweg dat er geen software voorhanden was om SOM-spatialisaties mee te maken.

 

Om van de data van de congrespapers die in de woord*documentmatrix staan een spatialisatie te maken met behulp van MDS, moeten die data eerst worden omgezet in een similariteitsmatrix. Om de documentvectoren van de congrespapers uit de woord*documentmatrix met elkaar te vergelijken is gekozen voor de cosinusmethode die is beschreven in §2.2.1. De similariteitsmatrix kan worden berekend met SPSS[18] en een deel ervan is te zien in figuur 22 (eerste matrix). De getallen lopen, omdat het cosinuswaarden zijn, van 0 tot 1. Het komt er op neer dat 2 documenten identiek aan elkaar zijn als ze alle 25 sleutelwoorden met elkaar gemeen hebben. Document 001 lijkt voor 20% op document 002 omdat deze twee documenten 5 woorden gemeen hebben. 

Figuur 22: Deel van de similariteitsmatrix, waarvan uiteindelijk een gekwadrateerde dissimilariteitsmatrix wordt gemaakt.

 

Om een goede MDS-analyse te kunnen uitvoeren moet de similariteitsmatrix worden omgezet in een dissimilariteitsmatrix (figuur 22 tweede matrix). Dit kan in Excel eenvoudig gedaan worden door de volgende omzetting: X=1-X, waarbij X de getallen zijn. In deze dissimilariteitsmatrix geldt dat hoe dichter de similariteitswaarde van twee documenten bij 0 ligt hoe meer ze op elkaar lijken.

 

Tenslotte wordt deze matrix gekwadrateerd (figuur 22 derde matrix). Dit wordt gedaan om de similariteit of dissimilariteit tussen documenten te benadrukken. Door de matrix te kwadrateren zullen documenten die op de spatialisatie al dicht bij elkaar lagen, verhoudingsgewijs nog dichter bij elkaar komen te liggen. Terwijl documenten die al ver van elkaar af lagen niet veel dichter bij elkaar zullen komen. Het kwadrateren van de matrix kan gezien worden als het versterken van de zwaartekracht in de conceptuele ruimte: de aantrekkingskracht die documenten op elkaar hebben wordt groter naarmate de afstand tussen documenten kleiner is. Zo zullen eerder clusters gevormd worden[19].

 

Met deze gekwadrateerde dissimilariteitsmatrix kan vervolgens een MDS-analyse worden uitgevoerd, die de meerdimensionale data terugbrengt tot 2 dimensies.

Voordat echter alle papers worden gespatialiseerd, zal eerst met een deel van de papers getest worden of de Proxscal-MDS methode klopt. Behalve de eerste 5 onderwerpen van de conferentiepapers (circa 65 documenten) zullen hiervoor tevens negen testdocumenten[20] worden gebruikt die niets met het onderwerp te maken hebben. De hypothese is dat de testdocumenten op een andere plek op de spatialisatie van deze documenten zullen staan dan de conferentiepapers, omdat ze minder sleutelwoorden met de andere papers gemeen zullen hebben. De verwachting is ook dat de testdocumenten, die allemaal over hetzelfde onderwerp gaan (verkiezingen, in het tijdschrift Politieke Geografie), dichter bij elkaar zullen staan dan bij andere documenten[21].

 

Het resultaat van de test is te zien in figuur 23. Duidelijk is te zien dat de testpapers (gerepresenteerd door de zwarte punten), op de spatialisatie een aparte groep vormen, rechts van de overige documenten. Ook is te zien dat de testdocumenten gemiddeld dichter bij elkaar staan dan bij de andere documenten, omdat ze meer sleutelwoorden met elkaar gemeen hebben dan met andere documenten. Figuur 23 is dan ook het bewijs dat de MDS analyse klopt.

 

Figuur 23: Resultaat van een MDS-analyse van onderwerp 0-5 met de testpapers. (figuur gemaakt met ArcView)

 

Figuur 23 laat ook zien dat de gekozen methode om teksten te analyseren (het gebruik van de 25 belangrijkste woorden per tekst, zie de tekst over het analyseren van de conferentiepapers), ondanks de gebreken, toch een goed beeld geeft van de similariteit van de verschillende documenten. Anders zouden de testdocumenten namelijk niet zo’n apart cluster vormen aan de rand van de spatialisatie (wat betekent dat ze buiten de groep vallen).

 

Tenslotte is er getest of documenten die centraal staan op de spatialisatie ook werkelijk hoge gemiddelde similariteitswaarden hebben, wat wel de verwachting is. Van documenten die gemiddeld helemaal niet zo op de rest van de groep lijken, wordt verwacht dat ze zich aan de randen van de spatialisatie zullen bevinden. In figuur 24 is te zien dat ook dit klopt. De linkerfiguur toont de tien documenten die gemiddeld het meest op de overigen lijken. Zij staan centraal in de spatialisatie. De rechterfiguur toont de tien documenten met de kleinste gemiddelde similariteitswaarden. Zij bevinden zich, volgens verwachting, aan de rand van de spatialisatie.

 

Figuur 24: De plek van de tien meest gelijkende (linkerfiguur) en de tien minst gelijkende

documenten op de spatialisatie (rechterfiguur).(figuur gemaakt met ArcView)

 

Ook al blijkt uit bovenstaande tests dat de spatialisatie iets zegt over de similariteit van de verschillende documenten, dat wil nog niet zeggen dat de data ook exact kloppen. Zoals al eerder is aangegeven is er bij het reduceren van het aantal dimensies sprake van een informatieverlies dat, bij een groter aantal te reduceren dimensies, steeds sterker wordt. Dit heeft vooral gevolgen voor de positie van individuele documenten ten opzichte van elkaar. Een indicatie hiervan wordt gegeven in figuur 25.

 

Deze figuur, gegenereerd door SPSS, laat het verschil zien tussen de similariteit die verschillende documenten met elkaar hebben en de daadwerkelijke afstand tussen die documenten op de spatialisatie. Elk rode blokje staat voor de similariteitswaarde tussen twee documenten. Idealiter zouden alle rode blokjes op de zwarte lijn moeten liggen, maar dat is duidelijk niet het geval. In de figuur is te zien dat de afstand die twee documenten tot elkaar hebben op de spatialisatie dan ook meestal kleiner is dan op grond van de similariteitswaarde verwacht mag worden. De eerdergenoemde stress geeft het verschil aan tussen de afstand op de spatialisatie en de afstand die verwacht wordt (de waarde op de zwarte lijn). Hoe kleiner de stress is, hoe beter de spatialisatie dan ook ‘klopt’. Maar omdat hier 75 dimensies tot 2 dimensies zijn gereduceerd is een hoge stress onvermijdelijk.

 

Figuur 25: Het verschil tussen de similariteitswaarden van de  data en afstanden op de spatialisatie

 

Dit verlies aan informatie bij het visualiseren van meerdimensionale data is op geen enkele manier te voorkomen en moet dus geaccepteerd worden[22].  Het betekent helaas wel dat de afstand tussen twee documenten op de spatialisatie niet alles zegt over de similariteit van die twee documenten. Zoals in figuur 25 is te zien komt het zelfs voor dat documenten die helemaal niet op elkaar lijken, en dus ver van elkaar af zouden moeten staan, op de spatialisatie een afstand van bijna 0 tot elkaar kunnen hebben! Alhoewel er ook documenten zijn waarvan de afstand tot elkaar wel ongeveer klopt met de verwachting, is de gemiddelde afwijking toch dermate groot dat er eigenlijk op grond van de nabijheid van twee documenten niets over de similariteit kan worden gezegd.

 

Dat de afwijking van de plaats van individuele documenten ten opzichte van elkaar erg groot is wil niet zeggen dat er daarom niets te zeggen is over de structuur van de data als geheel. De plaats van een document op de spatialisatie moet dan ook meer gezien worden als de positie van dat document ten opzichte van alle anderen. Zo bezien kan er bijvoorbeeld wel veel gezegd worden over de centrale positie van bepaalde documenten, er kan gekeken worden of bepaalde onderwerpen veel op elkaar lijken en de structuur van de data als geheel kan onder de loep genomen worden.

 

Aangezien uit bovenstaande tests gebleken is dat de Proxscal MDS-methode klopt, (los van het verlies aan informatie bij datareductie), zal er nu verder worden gegaan met het maken van een spatialisatie van alle conferentiepapers. Uiteindelijk zijn dit er meer dan 250, die zullen worden gespatialiseerd met behulp van Proxscal op de manier zoals hierboven is beschreven[23]. Het resultaat in SPSS is onderstaande figuur 26: de spatialisatie van alle conferentiepapers.

 

Met de spatialisatie in figuur 26 kunnen verder echter geen bewerkingen worden gemaakt. De spatialisatie heeft dan ook weinig waarde als zodanig. Daarom zullen de coördinaten ervan worden ingevoerd in ArcView[24]. Het invoeren van de coördinaten in een GIS zoals ArcView maakt het extraheren van relevante informatie wél mogelijk.

 

Figuur 26: De ‘rauwe’ spatialisatie van alle conferentiepapers

 

Om dit te bereiken zullen de coördinaten uit SPSS eerst nog wat kleine bewerkingen in Excel en Word moeten ondergaan (komma in punt veranderen bijvoorbeeld), voordat ze als tabel kunnen worden ingevoegd in ArcView. Vervolgens moet er een zogenaamde ‘View’ worden gemaakt waarin de spatialisatie kan worden geprojecteerd. De ‘view’ is een interactieve kaart waarmee geografische data kunnen worden weergegeven en geanalyseerd. De eigenschappen van de ‘View’ moeten zo worden ingesteld dat de coördinaten van alle gespatialiseerde documenten juist worden weergegeven. De projectie hoeft niet te worden ingesteld en de ‘map units’ zijn, evenals de ‘distance units’ onbekend: de afstand op een spatialisatie is immers niet in meters of kilometers uit te drukken. De spatialisatie zoals die er nu uitziet in ArcView (figuur 27) is klaar voor verdere bewerking en analyse. Het volgende, derde en tevens laatste, hoofdstuk van deze scriptie is daar aan gewijd.

 

Figuur 27: Dezelfde spatialisatie als in figuur 26, ingevoerd in ArcView

 

 



Noten

 

[6] Er zijn, behalve verschillende methoden om de similariteit tussen verschillende teksten te bepalen, vele andere manieren om teksten te analyseren. Er kan in het algemeen een onderscheid worden gemaakt tussen tekstanalyses die kijken naar het gebruik van taal, bijvoorbeeld zogenaamde linguïstische analyses, en inhoudsanalyses, die op een kwalitatieve of kwantitatieve manier naar teksten kijken. Voor meer informatie over tekstanalyse en een overzicht van verschillende softwarepakketten om teksten mee te analyseren, wordt verwezen naar de Internetpagina van Harald Klein: http://www.intext.de/textanae.htm.

 

[7] Het is belangrijk om te beseffen dat ook veel andere informatie, die oorspronkelijk al numeriek was, kan worden beschouwd als objecten met bepaalde eigenschappen. Denk bijvoorbeeld aan een klantenbestand van een bedrijf. De eigenschappen van verschillende klanten kunnen ook in een matrix worden weergegeven. Alhoewel het hier dus steeds gaat over tekstanalyses en woord*documentmatrices, zouden ook andere data en andere matrices kunnen worden geanalyseerd.

 

[8] TextAnalyst versie 2.01 is een programma van MicroSystems Co. Ltd. en wordt gedistribueerd door Megaputer Intelligence Inc. Een evaluatieversie van het programma kan gratis van de website worden gedownload (http://www.megaputer.com). Het programma kan voor meer doeleinden worden gebruikt dan hier het geval is. Het kan bijvoorbeeld samenvattingen van teksten maken, teksten analyseren op woordcombinaties en een hiërarchie maken van woorden die in de tekst voorkomen. Alhoewel bijvoorbeeld het analyseren van het voorkomen van bepaalde woordcombinaties in plaats van alleen enkele woorden waarschijnlijk zorgt voor een betere analyse van teksten, is er hier voor gekozen om alleen enkele woorden op te nemen in de woordenlijst die het programma maakt. Dit maakt de uiteindelijke analyse van de verschillende teksten met elkaar namelijk makkelijker.

Overigens werkt de evaluatieversie van het programma alleen met tekstbestanden van minder dan 100 kb. (met de extensie ‘txt’). De congrespapers van de case study zijn echter in MS Word formaat (met de extensie ‘doc’) en moeten dus eerst worden geconverteerd.

 

[9] Als het aantal woorden per document teveel zou verschillen kan er later geen eerlijke similariteitsanalyse worden uitgevoerd. Als er van Document A bijvoorbeeld 100 woorden in de analyse worden opgenomen en van Document B 50, dan heeft document A gemiddeld twee keer zoveel kans om overeenkomende woorden te hebben met Document X. Op die manier zou het lijken of document A veel meer op andere documenten lijkt dan document B. Om elk document dus dezelfde kans op similariteit te geven moet het aantal woorden per document ongeveer gelijk zijn.

 

[10] Voor een vollediger overzicht van technieken om meerdimensionale (multivariate) data te visualiseren wordt verwezen naar de dissertatie van Basalaj.

 

[11] Zie voor verdere uitleg en formules bijvoorbeeld Borg, 1997; Kruskal & Wish, 1978; Young, 1985. Voor verdere literatuur wordt verwezen naar de site over MDS (http://www.ncl.ac.uk/mds/) van de University of Newcastle.

 

12 Een matrix is een similariteitsmatrix als grotere getallen staan voor meer gelijkheid tussen objecten. Een matrix is een dissimilariteitsmatrix als grotere getallen minder gelijkheid tussen objecten aangeven.

 

 

[13] De formule die bij de cosinusmethode gebruikt wordt is de volgende (TERM=WOORD):

 

Voor een bespreking van de verschillende statistische methoden om de similariteit te berekenen en de uitkomsten ervan bij het gebruik van meerdimensionale schaling (zie § 2.2), wordt verwezen naar Rorvig (1999). Eén belangrijke conclusie uit Rorvig’s onderzoek moet hier echter wel worden vermeld: verschillende methoden geven vaak hele verschillende uitkomsten in de similariteit tussen documenten. De opmerking in noot 5, dat een spatialisatie een beeld van de data geeft, en niet het beeld, wordt hier dus onderschreven.

 

[14] Proxscal is een MDS-techniek die ontwikkeld is op het departement Psychologie (sectie methoden & technieken) van de Universiteit Leiden. Zie voor een verdere uitleg over en het voordeel van het gebruik van Proxscal de volgende webpagina: http://www.fsw.leidenuniv.nl/www/w3_ment/MEDEWERKERS/BUSING/PROXSCAL.HTM. Voor een uitleg van het specifieke gebruik van Proxscal in de software van SPSS zie

 http://www.spss.com/tech/stat/algorithms/11.0/proxscal.pdf.

 

[15] Het woord STRESS is oorspronkelijk een acroniem voor ‘standardized residual error sum of squares’ (McQuaid et al., 1999) en heeft de volgende formule:

 

 

Waar  de afstand tussen verschillende punten is op de spatialisatie en  de afstand tussen verschillende punten in de oorspronkelijke similariteitsmatrix.

 

[16] Omdat de SOM niet afhankelijk is van al aanwezige kennis van de data en zichzelf organiseert, zonder menselijke tussenkomst, wordt de methode ‘zelflerend’ genoemd  (Girardin, 1995).

 

[17] Neuronen in de hersenen zijn ook geneigd om in groepen te clusteren. Het aantal verbindingen tussen de neuronen in een groep is veel groter dan het aantal verbindingen met neuronen buiten de groep. Kohonen’s netwerk probeert dit op een simpele manier na te bootsen door het gebruik van de neighbourhood function (Orr, 1999).

 

[18] SPSS is een afkorting van Statistical Package for the Social Sciences. Het is waarschijnlijk het meest gebruikte statistische software pakket ter wereld. Voor meer informatie over SPSS wordt verwezen naar de homepage van SPSS Inc.

 

[19] De matrix kan in principe natuurlijk meer dan één keer met zichzelf vermenigvuldigd worden. Het effect daarvan op de spatialisatie is dat er steeds meer sprake is van een kern en een periferie. Documenten die al aan de rand van de spatialisatie lagen zullen relatief steeds verder naar de rand worden bewogen. Het aantal documenten in de kern zal sterk toenemen. 

 

[20] De testdocumenten zijn alle 9 afkomstig uit hetzelfde nummer (Vol. 21 (1), januari 2002) van het wetenschappelijke tijdschrift Political Geography (http://www.sciencedirect.com/science?_ob=JournalURL&_cdi=6026&_auth=y&_acct=C000021878&_version=1&_urlVersion=0&_userid=457046&md5=bfb55c83b3900e09b59eaf1aebb0f949). Alle artikelen hebben iets te maken met verkiezingen, waardoor verwacht wordt dat ze veel op elkaar lijken. Dit zijn de gebruikte artikelen (de nummers corresponderen met de nummers op de spatialisatie):

1 Comments on Ron Johnston's "Manipulating maps and winning elections: measuring the impact of malapportionment and gerrymandering", Toby Moore

2 A Bayesian approach to detecting electoral manipulation, Micah Altman

3 Sources of partisan bias in US congressional elections: an update stimulated by Ron Johnston's essay, Robert S. Erikson

4 If it isn't a gerrymander, what is it?, Ron Johnston
5 The Electoral College and the election of 2000, Fred M. Shelley

6 Florida in the 2000 presidential election: historical precedents and contemporary landscapes, Barney Warf and Cynthia Waddell

7 Florida's residual votes, voting technology, and the 2000 election, Jonathan I. Leib and Jason Dittmer

8 The U.S. presidential election and the Bush v. Gore supreme court decision, Gerald R. Webster

9 The geography of an interminable election: Bush v. Gore, 2000, J. Clark Archer

 

[21] Er moet rekening gehouden worden met het feit dat deze test is uitgevoerd met de onbewerkte woordenlijst. De woordenlijst is dus nog niet zo ‘goed’ als na de samenvoeging van de verschillende woorden met hetzelfde stammorfeem. Een spatialisatie waarin de bewerkte woordenlijst zou zijn gebruikt zou de verschillen tussen de conferentiepapers en de testpapers waarschijnlijk dus nog beter weergeven.

 

[22] Het verlies aan informatie kan niet voorkomen worden, maar wel zo klein mogelijk worden gehouden. De verschillende MDS-methoden proberen dan ook de stress zo laag mogelijk te houden. Proxscal minimaliseert hiervoor de zogenaamde normalised raw stress.  

 

[23] Wat extra statistische informatie over de uiteindelijke spatialisatie:

 

Meetschaal van de variabelen

Ratio

Initiële configuratie

Simplex

Stress convergentie

Minimum stress

Iteraties

0,00001

0,00001

200

Uiteindelijke stress

(Mean Normalized Raw Stress)

0,12923

 

 

[24] ArcView is een van de bekendere GISsen in de wereld. Voor meer informatie over ArcView wordt verwezen naar de homepage van ESRI: www.esri.com