In
dit hoofdstuk zal het spatialisatieproces worden beschreven. Dit zal worden
gedaan door zowel de theoretische kant te belichten, alsook door het geven van
een praktijkvoorbeeld van een spatialisatie in een case study. Telkens
zal per paragraaf eerst de theorie worden besproken, waarna de case study
zal worden uitgewerkt (dit wordt ter onderscheiding met een ander lettertype
gedaan).
Het
Spatialisatieproces, dat in figuur 7 met de rode
pijl is aangegeven, kan worden opgesplitst in de volgende vier opeenvolgende
stappen:
Het spatialisatieproces begint logischerwijs
met het inwinnen van data om te spatialiseren. Vanaf de volgende alinea zal
worden beschreven welke data er zijn gebruikt voor de case study. De
verdere stappen van het proces zullen in dit hoofdstuk per paragraaf worden
toegelicht. In §2.1 zal worden
besproken op wat voor manieren data geanalyseerd en bewerkt kan en/of moet
worden, voordat het gespatialiseerd kan worden. Hoe de data vervolgens in een
conceptuele ruimte kan worden weergegeven, het eigenlijke spatialiseren, wordt
in §2.2 uitgelegd. De
laatste stap van het spatialisatieproces, het bewerken van de data met
kartografische methoden en technieken, zal in hoofdstuk 3
worden behandeld.
De data
voor de case study: ‘Mapping the 21st Century’
Als case study zullen een
aantal kartografische artikelen gespatialiseerd worden. De artikelen (papers)
zijn afkomstig van het congres ‘Mapping the 21st Century’ (www.sbsm.gov.cn/icc2001)
van de International Cartographic Association (ICA, www.icaci.org)
dat in augustus 2001 gehouden is in Beijing, China.
Zoals al eerder is
aangegeven is een heleboel niet-ruimtelijke data in principe geschikt om te
worden gespatialiseerd. De keuze voor het gebruik van juist deze data is dan
ook relatief willekeurig. Relatief, omdat deze data makkelijk beschikbaar waren
en het natuurlijk vrij voor de hand ligt om bij een kartografisch onderzoek ook
kartografische data te gebruiken: misschien komen er nog conclusies uit de data
naar voren, waar kartografen wat aan kunnen hebben.
Op het congres kwamen,
naast twee plenaire sessies, 28 kartografische onderwerpen aan bod. Hierover
zijn in totaal meer dan 500 artikelen geschreven, die op het congres mondeling
of via een poster, zijn gepresenteerd.
In deze case study zullen
250 van die artikelen worden gespatialiseerd, zodat kan worden gekeken in
hoeverre de verschillende artikelen op elkaar lijken. In bijlage 2 staat een verdere uitleg over de
verschillende onderwerpen, het aantal papers dat van elk onderwerp
gespatialiseerd zal worden en de selectiecriteria die daarbij gehanteerd zijn.
Ook wordt hier meteen
verwezen naar bijlage 3 voor een
stroomschema van de verschillende bewerkingen die bij het spatialiseren van de
conferentiepapers moeten worden uitgevoerd, voordat er van een spatialisatie
kan worden gesproken. Deze stappen zullen uitgebreid worden besproken in het
praktijkgedeelte van dit hoofdstuk, om het geheel echter wat overzichtelijker
te maken is bijlage 3 toegevoegd.
Om
de informatie een plek op de spatialisatie te kunnen geven, moet de locatie
van de gegevens op het coördinatenstelsel bepaald worden. Dit wordt gedaan door
de onderlinge afstand van alle verschillende objecten tot elkaar te bepalen, op
basis van de informatie. Het begrip afstand heeft bij spatialisaties echter een
andere betekenis dan het meestal heeft. Omdat het bij spatialisaties niet om
ruimtelijke informatie gaat, kan de afstand van het ene object tot het andere
niet in ruimtelijke eenheden, zoals kilometers, worden gemeten. Een
veelgebruikte afstandsmaat in spatialisaties is de mate van gelijkheid van de
verschillende objecten (zie §1.2).
Er
kan een onderscheid worden gemaakt tussen twee vormen van spatialisatie:
semantische en geometrische (Fabrikant &
Buttenfield, 2001). Bij semantische spatialisaties wordt de afstand tussen
verschillende objecten berekend op basis van de tekstuele inhoud van de
informatie, bij geometrische spatialisaties wordt dat gedaan op basis van
numerieke gegevens. Bij semantische spatialisaties (waar in deze scriptie meer
de nadruk op zal worden gelegd) kan worden gedacht aan spatialisaties van een
database met tekstbestanden of een spatialisatie van (een deel van) het
Internet. Bij een geometrische spatialisatie moet meer aan een visualisatie van
bijvoorbeeld sociale netwerken of klantenbestanden worden gedacht.
Voordat
de afstand tussen verschillende objecten op het coördinatenstelsel bepaald kan
worden moeten de gegevens numeriek zijn. Bij informatie die op basis van
semantiek gespatialiseerd gaat worden, moet de tekstuele informatie dus worden
omgezet in numerieke informatie om te kunnen worden gespatialiseerd. Dit wordt
gedaan door teksten te analyseren op semantische similariteit. Dit proces zal
in de volgende paragraaf worden besproken.
Bij
semantische spatialisaties bestaat de te spatialiseren informatie vaak uit
tekstdocumenten. Te denken valt bijvoorbeeld aan boeken in een bibliotheek, een
database van tijdschriftartikelen of html-documenten op Internet. Om dit soort
documenten op basis van inhoud te visualiseren in een spatialisatie, moeten de
semantische verschillen en overeenkomsten tussen verschillende documenten eerst
worden bepaald. Dit gebeurt door de teksten te analyseren.
Aan
de hand van deze analyse kan de (numerieke) afstand tussen verschillende
documenten bepaald worden. Op basis van deze afstand kunnen de documenten
worden gespatialiseerd en in een conceptuele ruimte worden geplaatst. In deze
paragraaf zullen verschillende tekstanalysemogelijkheden en de daaruit volgende
semantische afstandsbepaling worden besproken.
Er
wordt van uitgegaan dat in documenten die inhoudelijk erg veel op elkaar
lijken, veel overeenkomstige (sleutel-)woorden te vinden zijn. Het is de
bedoeling dat teksten die veel overeenkomsten vertonen, op de uiteindelijke
spatialisatie dichter bij elkaar liggen, dan teksten die minder met elkaar
gemeen hebben.
Om teksten op basis van deze aanname met
elkaar te vergelijken moet de hele inhoud van de tekst worden geanalyseerd. Een
andere manier zou bijvoorbeeld kunnen zijn om slechts aan de hand van
sleutelwoorden die, bijvoorbeeld in een bibliotheek, aan documenten zijn
toegekend, teksten met elkaar te vergelijken (Fabrikant, 2000a). Het voordeel van
deze methode is dat de teksten niet eerst in het geheel geanalyseerd hoeven te
worden om de belangrijkste woorden er uit te halen, omdat er van uit gegaan
wordt dat de opgegeven sleutelwoorden een goede representatie van de tekst
vormen. De vraag is echter of die, meestal maar enkele, sleutelwoorden,
de inhoud van de tekst wel goed weergeven. Wat dat betreft zou beter een
samenvatting van een tekst gebruikt kunnen worden voor tekstanalyse. Jammer
genoeg is er echter niet van elke tekst een samenvatting voorhanden. Bij
wetenschappelijke artikelen is een samenvatting wel vaak aanwezig, maar bij
documenten op Internet die geanalyseerd moeten worden meestal niet. Daarom is
besloten om in de case study van deze scriptie de totale tekst van elk
document te analyseren, omdat de verwachting is dat zo uiteindelijk de beste
sleutelwoorden uit de tekst kunnen worden gedestilleerd (hierover meer in het
onderstaande stuk over de tekstanalyse
van de conferentiepapers).
Overigens zijn er nog andere manieren om de
similariteit van teksten te bepalen (Davidson et al., 1998). Behalve de tekstuele inhoud van teksten
kan er namelijk, afhankelijk van de soort tekst, bijvoorbeeld gekeken worden
naar overeenkomende referenties in wetenschappelijke artikelen, of naar
hyperlinks in Internetdocumenten. Hierbij wordt uitgegaan van het feit dat een
referentie of een link van de ene naar de andere tekst betekent dat die twee
teksten iets met elkaar gemeen hebben. Vooral door deze methode te combineren
met tekstanalyses van hele conferentiepapers kunnen goede resultaten worden
behaald. Voor deze scriptie is het echter veel te ingewikkeld om dit soort
methodes in de case study te implementeren. Er zal dan ook alleen een
similariteitsanalyse worden uitgevoerd door alle teksten in het geheel met
elkaar te vergelijken.
Het
bepalen van de onderlinge afstand van documenten op basis van de tekst is niet
makkelijk. Er zijn verschillende methoden om teksten te analyseren[6],
op deze plek worden echter alleen methoden behandeld die de similariteit tussen
verschillende teksten bepalen.
Er
kan een onderscheid worden gemaakt tussen methoden die teksten ‘begrijpend’
analyseren en methoden die teksten analyseren zonder daadwerkelijk te begrijpen
wat er staat, maar alleen het gebruik van woorden in de ene tekst vergelijken met de andere teksten.
Een
methode om de afstand tussen teksten te bepalen is door mensen de teksten te
laten analyseren op semantische overeenkomsten (Cribbin
& Westerman, 1999). Mensen kunnen immers goed teksten
overzien en ze indelen naar onderwerp en categorie. Mensen kunnen ook, (op dit
moment) beter dan computers, bepalen wat voor betekenis een bepaald woord in
een bepaalde context heeft. Veel woorden hebben namelijk verschillende
betekenissen, dit zijn de zogenaamde polysemantische woorden (waar er erg veel
van bestaan, aangezien er veel woorden in het woordenboek staan met meerdere
definities). Ook synoniemen, verschillende woorden met dezelfde betekenis,
kunnen voor computers lastiger te begrijpen zijn dan voor mensen.
Desalniettemin
worden de meeste tekstanalyses uitgevoerd door computers.Er worden bijvoorbeeld
tekstanalytische computerprogramma’s geschreven die de menselijke analytische
eigenschappen proberen te imiteren. Het programma WordNet, een knowledge base, is een voorbeeld van
automatische tekstanalyse (automatic text analysis; ATA) software. Het
programma ordent teksten op een hiërarchische manier en bepaalt de relaties
tussen woorden, om zo een goede tekstanalyse te maken (Smeaton &
Quigley, 1996).
Deze analyses zijn weliswaar waarschijnlijk niet zo goed als menselijke
analyses, maar wel relatief sneller en minder kostbaar. Ook zijn ze, vergeleken
met menselijke analyses, niet subjectief, wat een voordeel kan zijn.
Het
nadeel van dit soort, al dan niet automatische, ‘begrijpende’
tekstanalysemethoden is de geringe flexibiliteit en het feit dat het ondoenlijk
is om grote databases op zo’n manier te analyseren (Westerman & Cribbin, 2000). Het
analyseren van het Internet bijvoorbeeld, een gigantische tekstdatabase, met
dit soort analysemethoden is ondoenlijk. Niet alleen omdat het zo’n grote
database is, maar ook omdat het een erg dynamische database is: dagelijks
worden internetpagina’s toegevoegd, verplaatst of verwijderd.
Voor
het analyseren van grote en/of dynamische tekstuele databases bestaan andere
automatische tekstanalyseprogramma’s die niet kijken
naar hiërarchische relaties tussen woorden, maar hoofdzakelijk tellen hoeveel
keer elk woord in een tekst voorkomt.
Dit
soort methodes analyseren elk document in een database en het aantal keer dat
elk woord voorkomt in dat document wordt genoteerd in een zogenaamde woord*documentmatrix.
Dit principe is te zien in figuur 10. De matrix kan gezien worden als een soort
vingerafdruk van een document. De
documenten die de meeste woorden met elkaar gemeen hebben komen uiteindelijk in
de spatialisatie het dichtst bij elkaar te staan.

Figuur 10: Voorbeeld
van een Woord * Documentmatrix
Door
het maken van een woord*documentmatrix is de tekstuele informatie uit de
documenten omgezet in numerieke informatie. Nu kunnen de documenten gezien
worden als objecten met bepaalde eigenschappen[7].
Een eigenschap van Document2 in figuur 10 is bijvoorbeeld dat Woord1
2 keer voorkomt.
Het
maken van een woord*documentmatrix is bij tekstanalyses meestal de eerste stap.
In zo’n matrix kan elk document gezien worden als een vector in een
meerdimensionale ruimte. Elk woord staat voor een dimensie en de frequentie van
elk woord staat voor de locatie in de betreffende dimensie. Zo is de locatie in
die ruimte van Document3 in figuur 10 bijvoorbeeld te omschrijven
als de vector D3(0,3,1,..,0). Elk document heeft hiermee een
specifieke locatie in het zogenaamde vector space model (VSM, Salton et al., 1975). Een probleem met het
werken met de matrix en het VSM is echter de hoge dimensionaliteit, wat
berekeningen erg lastig en langdurig maakt (Kohonen,
2000).
Dit
probleem kan worden verlicht door het weglaten van insignificante woorden,
waardoor het aantal dimensies van de verschillende vectoren aanzienlijk kleiner
wordt. Insignificante zijn woorden die niet bepalend zijn voor de inhoud
van de documenten en als zodanig weinig tot niets bijdragen aan ‘de
vingerafdruk’ van het document. Het grootste deel van de woorden in een tekst
is insignificant. Vooral de werkwoorden en de zelfstandige naamwoorden in een
tekst zijn nuttig voor gebruik bij tekstanalyse, de overige woorden zijn zo
algemeen dat ze geen enkel onderscheidend vermogen hebben. Een woord als
‘kartografie’ zegt natuurlijk veel meer over een tekst dan een woord als
‘zoals’. Behalve het verkleinen van het aantal dimensies van de
woord*documentmatrix heeft het weglaten van insignificante woorden als
bijkomend voordeel dat de kwaliteit van de matrix beter wordt.
Een methode om te berekenen welke woorden belangrijk zijn in de documenten en welke minder, is latent semantic indexing (LSI) (Deerwester et al., 1990). Bij LSI wordt de woord*document matrix ontleed in factoren met behulp van een matrixberekeningsmethode die singular-value decomposition (SVD) heet. De matrices die uit deze berekening komen hebben als eigenschap dat de factoren (woorden) die de minste invloed op de teksten hebben onderaan staan. Als die factoren worden weggelaten hebben de vectoren een stuk minder dimensies (en is de woord*document matrix een stuk kleiner). Voor meer informatie over LSI wordt verwezen naar Hong (2000).
Er zijn ook andere methodes om het aantal dimensies van de vectoren te verkleinen, bijvoorbeeld de randomly projected histograms-methode, die wordt besproken in Kohonen et al. (2000). Het voordeel daarvan boven LSI is de sterk verminderde rekentijd die nodig is, hiervoor wordt echter maar een klein percentage in nauwkeurigheid ingeleverd.
Het vinden van betere algoritmes die de rekentijd verkorten is belangrijk, omdat het uitrekenen van locaties van documenten op een spatialisatie van een grote database (denk bijvoorbeeld aan het Internet) enorm veel rekenkracht vraagt.
In
de case study in deze scriptie wordt geen gebruik gemaakt van bovenstaande
methoden om het aantal dimensies van de woord*documentmatrix te verkleinen en
de matrix meer betekenis te geven. De woorden die niet bijdragen aan de
semantiek van een tekst worden er namelijk meteen al uitgefilterd door het
programma TextAnalyst (zie de paragraaf over tekstanalyse van de
conferentiepapers).
Een
andere mogelijke bewerking van de woord*documentmatrix is, dat woorden die
juist alleen in bepaalde teksten voorkomen extra gewicht krijgen (Salton & Buckley, 1990). Op die manier
komen belangrijke eigenschappen van de documenten meer naar voren. Dat is in de
case study niet gebeurd: alle woorden die in de uiteindelijke matrix
worden opgenomen krijgen hetzelfde gewicht.
Tekstanalyse van de conferentiepapers
Om de teksten van de verschillende conferentiepapers te
analyseren is gebruik gemaakt van het programma TextAnalyst[8].
Er is in deze case study gebruik gemaakt van het programma TextAnalyst
omdat de bovenstaande manier om teksten te analyseren een goede samenvatting
van die teksten lijkt te geven. Teksten worden op de volgende manier
geanalyseerd:
-
Ten eerste worden insignificante woorden niet meegenomen in
de analyse. Woorden als ‘a’, ‘and’, ‘the’ en ‘however’
(het zijn Engelse teksten) hebben voor teksten geen enkele semantische waarde
en worden er dus meteen uitgefilterd. Het programma gebruikt hiervoor een
woordenboek waarin woorden staan die weggelaten mogen worden in de analyse. Het
weglaten van insignificante woorden is noodzakelijk voor een goede analyse,
omdat anders teksten met elkaar vergeleken worden op woorden die niks over de
semantiek van de tekst zeggen. Dit maakt erg veel uit omdat het grootste
deel van de woorden insignificant is.
-
Ten tweede worden zogenaamde stammorfemen geïdentificeerd en
worden woorden daartoe teruggebracht, om zo meegenomen te worden in de analyse.
De stammorfeem is de basisvorm van een woord. Het woord ‘mens’ bijvoorbeeld is
de stammorfeem van de woorden ‘mensen’, ‘mensje’, ‘menselijk’, ‘mensdom’ en
‘mensheid’ (Van Dale Lexicografie, 1995).
Omdat deze woorden allemaal ongeveer dezelfde betekenis hebben, worden ze in de
analyse samengevoegd tot hun basisvorm. Om dit te kunnen doen gebruikt het programma
ook een woordenlijst, die helaas niet zo uitgebreid is. Het gevolg is dat er in
de uiteindelijke woordenlijst nog een heleboel woorden staan die niet tot hun
stammorfeem zijn teruggebracht. In de uiteindelijke woordenlijst staat
bijvoorbeeld zowel het woord ‘map’ als ‘maps’. Deze woorden
moeten later in de uiteindelijke woordenlijst nog handmatig worden
samengevoegd. Hier wordt later op teruggekomen.
-
Tenslotte maakt het programma een woordenlijst van begrippen
die in de tekst van belang zijn, met hun frequentie (zie de linkertabel in
figuur 10). Er wordt uitgegaan van de vrij arbitraire regel dat een woord
minstens vier keer in de tekst moet voorkomen om te worden opgenomen in de
woordfrequentielijst.

Figuur 11: Links: Een deel van een woordfrequentielijst verkregen met het
programma TextAnalyst na het analyseren van een tekstbestand.
Rechts:
Dezelfde woordenlijst maar nu geïmporteerd in Access.
De woordfrequentielijst die
het programma maakt kan worden geëxporteerd als html-bestand. Dit bestand moet
vervolgens weer in Word worden opgeslagen als tekstbestand om te kunnen worden
geïmporteerd in Access (zie de rechtertabel in figuur 11). Access is een
databaseprogramma in het Officepakket van Microsoft waarmee (relationele)
databases kunnen worden gemaakt.
Er is, in het belang van de
latere similariteitsanalyse[9],
voor gekozen om van elk document de 25 meest voorkomende (significante) woorden
in de uiteindelijke analyse op te nemen. Er wordt van uitgegaan deze woorden
een goed beeld van de inhoud van een document geven. Deze woorden moeten uit de
woordfrequentielijsten worden geselecteerd.
Om een woord*documentmatrix te maken moeten de afzonderlijke
documenten gekoppeld worden aan een woordenlijst. In die woordenlijst moeten
alle woorden zitten die in de documenten voorkomen. In Access is zo’n lijst te
maken door de woordenlijsten van alle documenten achter elkaar te plakken en de
dubbele woorden eruit te laten. Dit kan gedaan worden door het maken van een zogenaamde
samenvoegquery. Het resultaat is een lijst met zo’n 2100 woorden, waarin
alle top-25 woorden van alle documenten zitten.
Vervolgens moeten de woordenlijsten van alle afzonderlijke
documenten gekoppeld worden aan de totale woordenlijst. Dit kan in Access
gedaan worden door relaties aan te leggen tussen de tabel met de totale
woordenlijst en de afzonderlijke tabellen met woordfrequentielijsten. Dit is in
figuur 12 te zien: elk venster staat voor een tabel. Het veld ‘woorden’ is
gekoppeld aan het veld ‘keyword’ in de woordfrequentietabellen. De
tabellen zijn op zo’n manier aan elkaar gerelateerd dat alle records (woorden)
uit de totale woordenlijst worden opgenomen in een tabel die met deze koppeling
wordt gemaakt. Als de tabellen namelijk op een andere manier aan elkaar
gekoppeld zouden worden dan zou niet de hele woordenlijst worden opgenomen en
zouden de zogenaamde nulwaarden niet in de tabel terug te vinden zijn.

Figuur 12: De koppelingen in Access tussen de
verschillende tabellen. Voor uitleg zie tekst.

Figuur
13: Een deel van de uiteindelijke woord*documentmatrix.
Als uiteindelijk alle documenten zijn gekoppeld aan de woordenlijst is
de woord*documentmatrix af. Een deel daarvan is te zien in figuur 13 (matrix
1). In de kolommen de verschillende documenten (201: onderwerp 2, document 1),
in de rijen de woorden. Het woord historic komt bijvoorbeeld 9 keer voor
in document 204.
De woordenlijst is echter
nog niet af omdat een heleboel woorden, zoals eerder opgemerkt, nog niet tot
hun stammorfeem zijn teruggebracht. Dit moet, voor een betere vergelijking
tussen de documenten, nog wel handmatig gebeuren in Excel. Als deze
woordenlijst namelijk zou worden gebruikt om een similariteitsmatrix mee te
maken dan zouden de woorden ‘historic’ en ‘history’ als woorden
met een verschillende betekenis worden gezien, met als gevolg dat het lijkt of
document 203 en 204 geen overeenkomst met elkaar hebben, terwijl dit wel zo is.
In de tweede matrix in figuur 13 is te zien hoe een aantal woorden met dezelfde
betekenis zijn samengevoegd. In de totale woordenlijst is het totale aantal
woorden op deze manier teruggebracht van ongeveer 2100 tot 1550 woorden. Deze
bewerking is erg belangrijk voor de uiteindelijke spatialisatie, omdat niet
alleen woorden waarvan er zowel een enkelvoud als een meervoud van in de
woordenlijst staat worden samengevoegd (‘city’-cities’), maar ook
woorden die ongeveer dezelfde betekenis hebben (‘neighbour’- ‘neighbourhood’)
en woorden die op verschillende manieren gespeld worden (‘visualisation’-‘visualization’).
Dit is een bewerking die moeilijk door een computer kan worden uitgevoerd,
omdat bij veel woorden niet duidelijk is dat ze iets met elkaar te maken
hebben. Het gevolg van deze bewerking is dat documenten die écht op elkaar
lijken, op de spatialisatie dichter bij elkaar komen te liggen.
Wat een nadelig gevolg is
van de samenvoeging van verschillende woorden is dat niet elk document meer uit
25 woorden bestaat. Dit maakt de vergelijking minder eerlijk. In de praktijk blijkt
echter dat de meeste documenten nu nog uit 23 woorden bestaan, met een minimum
van 21 en een maximum van 25. Dat betekent dat de samenvoeging van
verschillende woorden een veel sterkere verbetering dan een verslechtering van
de vergelijking is.
Om de aangepaste
woord*documentmatrix geschikt te maken voor verdere analyse, wordt de matrix
binair gemaakt (figuur 13, matrix 3): als een woord niet in een document
voorkomt komt er een 0 te staan, als een woord wel voorkomt komt er een 1 te
staan. Er wordt dus geen gewicht gegeven aan de verschillende sleutelwoorden.
Alhoewel geprobeerd is om
een goede manier te vinden om de verschillende teksten te analyseren, is de
manier waarop in deze case study teksten worden geanalyseerd niet perfect. Het
feit dat hele teksten worden samengevat door het selecteren van de 25 meest
voorkomende woorden per document, brengt bijvoorbeeld al een grote foutenmarge
met zich mee. Ten eerste omdat bij de tekstanalyse door TextAnalyst niet alle
insignificante woorden uit de tekst zijn gehaald. Het feit dat in veel teksten
het woord ‘figure’ vaak voorkomt zegt niet veel over een tekst, maar
teksten worden wel op dat woord met elkaar vergeleken. Er is overigens wel
geprobeerd om dit soort woorden zoveel mogelijk uit de woordenlijst te
verwijderen. Ook kan het natuurlijk voorkomen dat een woord in de ene tekst in
een hele andere context wordt gebruikt dan in de andere tekst. In de
similariteitsanalyse zullen deze woorden echter toch als hetzelfde worden
gezien.
Het feit dat er geen
gewicht aan de verschillende woorden wordt gehangen maakt de analyse ook niet
preciezer. Woorden in de titel van een tekst tellen bijvoorbeeld niet zwaarder
dan woorden in de tekst zelf, het herkennen van de titel is voor TextAnalyst
namelijk niet mogelijk. Het woord ‘map’ kan met een frequentie van 75 keer in
document A en met een frequentie van 5 keer in document B, in allebei de
gevallen in de lijst met 25 woorden staan. Hoewel het belang van het woord
‘map’ in document A (bij een zelfde documentlengte) veel groter is dan het
belang in document B, telt het woord in de vergelijking toch even zwaar, als
gevolg van het feit dat er geen gewicht aan de verschillende woorden gekoppeld
is.
Aangezien het niet het
primaire doel van deze scriptie is om een perfecte tekstanalyse te maken, is er
aan deze relatief kleine tekortkomingen verder niet gesleuteld. De verwachting
is namelijk dat deze analyse een redelijk goed beeld geeft van de similariteit
van de verschillende papers. Of dat ook daadwerkelijk zo is zal, in het
praktijkgedeelte van de volgende paragraaf, worden getest door middel van een
aantal testdocumenten die over een ander onderwerp gaan. Voordat dit gebeurt
zal in de volgende paragraaf eerst worden ingegaan op verschillende manieren om
meerdimensionale data weer te geven op een spatialisatie.
Een spatialisatie wordt weergegeven in een
twee- of driedimensionale conceptuele ruimte. Om informatie die gespatialiseerd
moet worden een locatie te geven in een tweedimensionale ruimte, worden de
gegevens uit de reeds gemaakte woord*documentmatrix gebruikt. Deze matrix kan
worden beschouwd als een ruimte met een groot aantal dimensies (evenveel
dimensies als er documenten zijn). Om deze ruimte zo te kunnen visualiseren,
dat mensen het kunnen bevatten, moet het aantal dimensies van de data worden
teruggebracht tot 2 (of 3).
Het
terugbrengen van het aantal dimensies komt er op neer dat er een ruimte
‘geschapen’ wordt (het eigenlijke spatialiseren) waarin de verschillende
data-eenheden, in veel gevallen documenten, op een plaats terechtkomen die
logisch voortkomt uit de woord*documentmatrix. De documenten die in die matrix
het meest op elkaar lijken, staan dan ook op de spatialisatie het dichtst bij
elkaar. Afhankelijk van de data, zullen verschillende groepen documenten die
erg op elkaar lijken, en dus clusters vormen, zichtbaar worden. Het voordeel
van het spatialiseren van data is dan ook nu al te zien: de structuur van de matrix
wordt erdoor in een oogopslag duidelijk.
Het
coördinatenstelsel van de spatialisatie is afhankelijk van de data, maar dat
geldt in principe voor elk coördinatenstelsel op een kaartprojectie (Fabrikant & Buttenfield, 2001). Het
gaat hier om het feit dat in het coördinatenstelsel de relaties die er bestaan
tussen de verschillende data zo goed mogelijk worden behouden.
Het
gebruik van een coördinatenstelsel maakt een groot aantal cartometrische taken
mogelijk. De locatie van en afstand tussen verschillende stukken informatie is
bijvoorbeeld te bepalen. Het coördinatenstelsel maakt, afhankelijk van de
informatie, ook het in- en uitzoomen naar verschillende
schaalniveaus mogelijk. Objecten kunnen hiërarchisch gegroepeerd en
gegeneraliseerd worden (Fabrikant &
Buttenfield, 2001).
Bij het terugbrengen van het aantal dimensies
van de data moet echter wel rekening worden gehouden met het feit dat altijd
bepaalde informatie verloren zal gaan. Dit kan bijvoorbeeld worden vergeleken
met de foto (2-dimensionaal) van een landschap (3-dimensionaal). Op de foto van
het landschap kan geen diepte worden gezien, de informatie over diepte is dus
verloren gegaan. Ook kartografen hebben met dit probleem te maken. Bij het in
kaart brengen van de aarde wordt driedimensionale informatie vaak op een
tweedimensionale vlak afgebeeld. Afhankelijk van de gebruikte projectie gaat
(juiste) informatie over afstand, grootte of richting vaak verloren.
Het is bij het terugbrengen van het aantal
dimensies in de informatie van belang dat juist die aspecten van de informatie
worden behouden die voor de toepassing van belang zijn. In dit geval is dat de
onderlinge afstand tussen documenten. Er moet dus gebruik gemaakt worden van
rekenkundige methoden die dit zo goed mogelijk doen. Hiervoor zijn meerdere
technieken bekend[10], waarvan er
twee bij uitstek geschikt zijn voor het maken van spatialisaties:
meerdimensionale schaalanalyse en Kohonen Self Organising Maps. Beide methoden
zullen in de volgende paragrafen worden besproken en zullen vervolgens met
elkaar worden vergeleken
2.2.1 Meerdimensionale
schaalanalyse (MDS)
Meerdimensionale schaalanalyse (multidimensional
scaling of MDS) is een statistische data-analysetechniek die de structuur
van meerdimensionale data (in dit geval een woord*documentmatrix) als een twee-
of driedimensionale geometrische figuur kan weergeven. Met behulp van MDS
kunnen de te spatialiseren documenten dus daadwerkelijk een locatie krijgen op
een Euclidisch (lineair) coördinatenstelsel, waarbij de relatieve afstand
tussen de verschillende documenten zo goed mogelijk weergegeven wordt.
MDS komt voort uit de psychometrie, waar het,
in de jaren ’50 van de twintigste eeuw, voor het eerst werd gebruikt.
Tegenwoordig is MDS een algemene data-analyse techniek die gebruikt wordt door
een groot aantal disciplines. Er zijn in de afgelopen decennia meerdere vormen
van MDS ontwikkeld, ieder met andere rekenmethoden en andere toepassingen[11].
Voordat data echter kunnen worden
geanalyseerd met MDS moeten de data
in de vorm van een similariteitsmatrix[12] worden aangeboden. Een
similariteitsmatrix is een matrix waarin de onderlinge ‘gelijkheid’ van de
verschillende documenten uit de woord*documentmatrix bepaald wordt.
Omdat de documenten uit de
woord*documentmatrix als meerdimensionale vectoren kunnen worden gezien (zie §2.1.1, Salton
et al., 1975), kunnen die vectoren met elkaar worden vergeleken. Hiervoor
zijn meerdere methoden bekend. Een veelgebruikte vergelijkingsmethode, die ook
in de case study gebruikt zal worden, is de zogenaamde cosinusmethode[13].
Hierbij wordt de hoek tussen de verschillende vectoren (documenten) berekend.
Vervolgens kan de cosinus van die hoek als similariteitsmaat gebruikt worden.
Hoe kleiner het verschil tussen twee vectoren, hoe kleiner de hoek, hoe groter
de cosinus. Een cosinus van 1 betekent dus dat twee documenten identiek zijn,
een cosinus van 0 dat twee documenten helemaal niet op elkaar lijken.
In figuur 14 is dit gevisualiseerd: de vector
van document X lijkt niet zo erg op de vector van document A, meer op die van
document B en het meest op die van document C omdat de hoek tussen die twee
vectoren het kleinst is. De verkregen waarden kunnen in de similariteitsmatrix
worden ingevuld. Figuur 15 laat een voorbeeld van zo’n similariteitsmatrix
zien. Aan de hand van deze matrix kan met MDS de plaats van elk document op de
spatialisatie berekend worden.

Figuur 14: De cosinusmethode: de hoekafstand tussen
twee vectoren wordt gebruikt als similariteitsmaat.

Figuur 15: Voorbeeld van een similariteitsmatrix. De
getallen lopen van 0 tot 1, hoe hoger het getal, hoe meer de documenten op
elkaar lijken. Document 3 en 5 hebben bijvoorbeeld veel met elkaar gemeen,
document 1 en 2 helemaal niet.
Om te laten zien hoe MDS in de praktijk werkt
zullen de relatieve afstanden tussen vijf Europese hoofdsteden, met behulp van
een van de MDS-technieken, in kaart worden gebracht. In dit voorbeeld wordt
met, van oorsprong, ruimtelijke data gewerkt, omdat zo makkelijker
gecontroleerd kan worden of de methode werkt, de relatieve locaties van
Europese hoofdsteden ten opzichte van elkaar is immers bekend. De afstandstabel
(figuur 16) kan echter worden vergeleken met een similariteitsmatrix. In de
afstandstabel geldt dat hoe kleiner de afstand tussen twee steden is, hoe
dichter ze op een kaart bij elkaar liggen. In een similariteitsmatrix geldt dat
als twee documenten meer op elkaar lijken, ze op de spatialisatie ook dichter
bij elkaar komen te liggen. De steden in de afstandstabel kunnen dan ook worden
gezien als documenten, omdat hier sprake is van hetzelfde principe.

Figuur 16: Afstandstabel tussen 5 Europese hoofdsteden
(afstanden zijn in kilometers)
Bron: Jetsales.com Airdistance Calculator
Met de data in figuur 16 wordt een meerdimensionale
schaalanalyse uitgevoerd met behulp van het Proxscal-algoritme. Proxscal[14]
is één van de twee MDS-technieken in het SPSS- softwarepakket. Het algoritme
brengt het aantal dimensies terug van, in dit geval, 5 naar 2 en rekent de
locatie van de verschillende steden op een coördinatenstelsel uit (figuur 17).
De verkregen locatie kan vervolgens worden ingevuld op een spatialisatie, zoals
te zien is in figuur 18.
Zoals gezegd moet er rekening gehouden worden
met het feit dat bij het terugbrengen van het aantal dimensies informatie
verloren gaat. De locatie van de punten in een meerdimensionale ruimte kan
namelijk nooit precies worden weergegeven in een tweedimensionale ruimte. Dit
verlies aan informatie wordt uitgedrukt door de zogenaamde ‘stress’. De
tweedimensionale locatie van de data op de spatialisatie is afhankelijk van de
stress: hoe lager de stress, hoe preciezer de locatie van de data op de
spatialisatie is ten opzichte van de oorspronkelijke, meerdimensionale, data[15].
Er geldt hier dat uit hoe meer dimensies de oorspronkelijke data bestaat, hoe
minder goed de locatie van de verschillende objecten in een tweedimensionale
ruimte kan worden weergegeven.

Figuur 17: Locatie van de verschillende steden op een
coördinatenstelsel.
Bron: Proxscal, SPSS.

Figuur 18: Spatialisatie van de afstanden tussen de
verschillende Europese steden met de coördinaten van figuur 17. Bron: Proxscal, SPSS.
Figuur 18 laat duidelijk zien dat de locatieverhoudingen
tussen de verschillende steden goed kloppen. Net als in het echt ligt Parijs
dichter bij Londen en ligt Rome verder van Oslo dan van Parijs. Wat echter niet
uit de spatialisatie is af te leiden is de werkelijke afstand in kilometers tussen
de steden. Ook de vraag waar het noorden zich bevindt kan niet aan de hand van
figuur 9 beantwoordt worden. De assen waarop de punten liggen zijn, behalve op
de spatialisatie, zonder betekenis, evenals de oriëntatie van die assen (Borgatti, 1997).
Dat is echter ook niet waar het bij een
spatialisatie om gaat. Dat hier ruimtelijke data worden gespatialiseerd was een
voorbeeld, normaliter wordt dit natuurlijk met niet-ruimtelijke data gedaan. De
afstand van dat soort data is niet in kilometers uit te drukken en ook het
noorden van een documentencollectie zal nooit gevonden worden. Waar het wel om
gaat is dat in een conceptuele ruimte, zoals een spatialisatie, heel duidelijk
de onderlinge verhoudingen van verschillende niet-ruimtelijke data kan
worden weergegeven. Figuur 17 bewijst dat MDS daar een goede methode voor is.
2.2.2
Kohonen Self-Organising Map (SOM)
Een andere mogelijkheid om
meerdimensionale data te spatialiseren is door gebruik te maken van de Kohonen
Self-Organising Map-methode (SOM, Kohonen,
1995). De SOM kan meerdimensionale data op een, van tevoren vastgelegd,
tweedimensionaal rasterpatroon weergeven. Net als bij MDS geeft de SOM de
relatieve afstanden tussen verschillende data (documenten), zo goed mogelijk
weer. SOM is ook geschikt voor het herkennen van patronen en het classificeren
van data. De SOM is een methode die steeds meer aan populariteit wint en op
allerlei terreinen wordt ingezet om de structuur van grote hoeveelheden
meerdimensionale data te visualiseren. SOM heeft bijvoorbeeld toepassingen in
de spraakherkenning, leerstrategies voor robots, biomedische applicaties en
optische karakterherkenning (Koua, 2002).

Figuur 19:
Afbeelding van de WEBSOM. Door het aanklikken van een rasterpunt komen de
nieuwsgroepberichten die ermee geassocieerd zijn tevoorschijn.
Bron: http://websom.hut.fi/websom/milliondemo/html/root.html
Een voorbeeld
van het gebruik van de SOM-methode is WEBSOM,
een applicatie gemaakt om Internetdocumenten te spatialiseren. In figuur 19 is
een gedeelte van een SOM te zien, gemaakt van meer dan een miljoen berichten
uit zo’n 80 Usenet Nieuwsgroepen (Kaski et al.,
1998). Door op één van de rasterpunten op het raster te klikken komt een
lijst van berichten die met dat punt zijn geassocieerd tevoorschijn. Om
vervolgens de berichten te lezen kan op de naam ervan in de lijst worden
geklikt. Onderwerpen en berichten die veel met elkaar te maken hebben staan op
de spatialisatie dicht bij elkaar. Gebieden met rasterpunten waar veel
berichten mee zijn geassocieerd zijn in de figuur lichtgeel gekleurd. Gebieden
met minder berichten zijn donkerrood gekleurd.
De SOM is een
zelflerende neurale netwerkmethode (unsupervised learning neural network)[16].
Neurale netwerken zijn door de menselijke hersenen
geïnspireerde modellen. Ze bestaan uit een groot aantal zeer eenvoudige
elementen die zich in essentie hetzelfde gedragen als de neuronen in de
hersenen van een mens (zie figuur 20)(Kohonen,
1995).

Figuur 20: De
werking van een enkele neuron
Bron: Technieuws 37/2, Ministerie
van Economische Zaken
De
rasterpunten op de SOM worden dan ook wel neuronen genoemd. Het is de bedoeling
dat alle te spatialiseren objecten aan een neuron op de SOM worden toegewezen.
Eén neuron kan in principe meerdere objecten bevatten. Welke data welke plek op
het raster krijgt toegewezen wordt bepaald door een zich steeds herhalend leerproces.
Gedurende het proces worden de waarden van de neuronen steeds beter op de te
spatialiseren data afgestemd en uiteindelijk worden aan elke neuron de best
passende data-eenheden toegewezen. In de volgende alinea’s zal dit leerproces
gedetailleerder worden uitgelegd (zie figuur 21).
Bij het
spatialiseren van documenten krijgen al de neuronen op het raster om te
beginnen een willekeurige gewichtsvector, met evenveel dimensies als de
documentvectoren. Een documentvector (de input data in figuur 21) uit de
woord*documentmatrix wordt met al deze gewichtsvectoren vergeleken,
bijvoorbeeld door de cosinus van de hoek tussen de vectoren te nemen (zie §2.2.1). De neuron met de gewichtsvector die het meest lijkt op
de documentvector (de kleinste hoek dus), is de zogenaamde winnaar. Die neuron
past zijn gewichtsvector aan de documentvector aan, zodat de twee vectoren meer
op elkaar lijken. Ook neuronen in de buurt passen hun gewicht een beetje aan.
Neuronen in het raster die een grote afstand hebben tot de winnaar veranderen
hun gewicht niet.
Ook alle
andere documentvectoren worden met de gewichstvectoren op het raster vergeleken
en zorgen ervoor dat de gewichtsvectoren van de verschillende neuronen worden
aangepast.
Dit hele
proces herhaalt zich een aantal keren, waarbij de SOM steeds preciezer
overeenkomt met de ingevoerde data, omdat de gewichtsvectoren van de neuronen
steeds meer overeenkomen met de documentvectoren. Elke keer dat het proces zich
herhaalt worden de gewichtsvectoren beter aangepast aan de documentvectoren. De
mate waarin de gewichtsvectoren zich aanpassen aan de documentvectoren wordt
echter naarmate het proces zich vaker heeft herhaald steeds kleiner, tot de
waarden bijna niet meer veranderen en de SOM geoptimaliseerd is voor de
documentvectoren.
Documenten
die veel op elkaar lijken zullen ook op een SOM dicht bij elkaar in de buurt
liggen, omdat ook de neuronen die in de buurt van het winnende neuron liggen hun
gewichtsvector aanpassen in de richting van de winnende documentvector. Dit is
de zogenaamde neighbourhood function en er geldt dat hoe dichter bij het
winnende neuron hoe meer het gewicht van de neuron wordt aangepast. Het gevolg
is dat vectoren die op elkaar lijken bij elkaar in de buurt komen te liggen.
Elke keer dat het proces zich herhaalt wordt deze neighbourhood function minder
sterk: in het begin passen neuronen in een groot gebied rond de winnaar hun
gewicht aan, aan het einde alleen nog de direct omliggende of zelfs alleen het
winnende neuron[17]. Zo
ontstaan clusters van neuronen die ongeveer dezelfde gewichtsvectoren hebben (Allinson, 1997).

Figuur 21: De
structuur van de Kohonen SOM. De cirkels zijn neuronen met (op het begin)
willekeurige gewichtsvectoren, waarbij telkens 1, de winnaar, het beste
overeenkomt met de documentvector (de input data). In dit geval het
donkergrijze neuron. Deze neuron past
zijn gewicht in een bepaalde mate aan de documentvector aan. Ook de neuronen in
de buurt (de neuronen binnen het vierkant) passen zich aan, afhankelijk van de
afstand van de winnende neuron en de opgegeven neighbourhoud function.
Bron: Allinson,
1997
Het
leerproces van de SOM is af als er (bijna) geen optimalisatie meer optreedt
tussen de gewichtsvectoren van de neuronen en de documentvectoren. De
gewichtsvector die elke neuron nu heeft wordt gebruikt om alle documenten aan
een neuron toe te wijzen. Een document wordt geplaatst in het neuron met de
gewichtsvector die het meest overeenkomt met de documentvector. Nu is de
meerdimensionale data omgezet in twee dimensies. De SOM kan vervolgens nog
verder bewerkt worden, bijvoorbeeld zoals in figuur 18 is gebeurd:
‘dichtbevolkte’ gebieden op de spatialisatie krijgen een lichtere kleur (geel)
dan ‘dunbevolkte’ gebieden (rood).
2.2.3 Verschillen tussen MDS
en Kohonen SOM
Eén van de
belangrijkste verschillen tussen Kohonen SOM en meerdimensionale schaalmethoden
(MDS) bij het spatialiseren van data is dat er bij SOM sprake is van een
ruimtelijk raster met punten, waarop de data-eenheden een plaats toegewezen
krijgen. Bij MDS kunnen data elke willekeurige plaats innemen in een ruimte die
aan de hand van de data wordt geschapen.
Hieruit volgt
het grootste voordeel van het gebruik van de SOM. Er kan namelijk makkelijk
informatie aan een SOM kan worden toegevoegd, zonder dat de hele SOM opnieuw
berekend hoeft te worden. Aan de gewichtsvectoren van de oorspronkelijke SOM
worden de nieuwe documentvectoren toegevoegd en de SOM kan vanaf daar worden
herberekend (Kohonen et al.,2000). Dit is
bij MDS niet het geval: als er nieuwe data aan een spatialisatie moeten worden
toegevoegd, dan moet ook de hele spatialisatie opnieuw worden berekend, omdat
de ruimte waarop de data zijn geplaatst wordt bepaald door de data
zelf. Bij het toevoegen van nieuwe data veranderen namelijk ook de coördinaten
van de data ten opzichte van elkaar, wat bij SOM niet het geval is.
Het gebruik
van SOM biedt dus vooral bij grote, veranderende, databestanden voordelen ten
opzichte van MDS. De rekenkracht die het kost om spatialisaties van dit soort
data bij te houden is met SOM namelijk veel minder dan bij MDS. Een applicatie
zoals WEBSOM is erg geschikt om hele grote databases te spatialiseren. In de
toekomst zou het ook moeten lukken om gigantische documentencollecties zoals
het Internet te spatialiseren. Het Internet bestaat echter uit meer dan een
miljard documenten en in het meest recente artikel (Kohonen et al.,2000) is het aantal
gespatialiseerde documenten ‘pas’ 7 miljoen. Dit aantal loopt echter snel op,
door het gebruik van steeds betere algoritmes om de SOM te maken en het gebruik
van computers met steeds meer rekenkracht.
Een ander verschil tussen
MDS en SOM is dat bij MDS één punt op
de spatialisatie per definitie ook één document representeert, terwijl dat bij
SOM niet zo hoeft te zijn. Eén punt (een neuron) in het raster van de
spatialisatie kan namelijk meerdere documenten representeren. Dit is
bijvoorbeeld het geval als er minder neuronen zijn op de spatialisatie dan te
spatialiseren documenten (in het artikel van Kohonen
et al. bijvoorbeeld 6 840 568 documenten op 1 002 240 neuronen). Dan worden er
onvermijdelijk twee of meer documenten toegewezen aan sommige neuronen. De
semantische afstand tussen die twee documenten is op de spatialisatie
gereduceerd tot 0. Sommige andere documenten echter, waarvan de documentvector
net iets meer overeenkomt met de gewichtsvector van neuron A dan met die van
neuron B, zitten op een spatialisatie relatief ver af van documenten waarvan de
vector wel meer leek op die van neuron B. De semantische afstand tussen die
documenten is dus eigenlijk te groot.
De maximale afwijking die
documenten op een SOM echter kunnen hebben ten opzichte van elkaar is gemiddeld
veel kleiner dan de maximaal mogelijke afwijking op een spatialisatie gemaakt
met MDS. Het gegeven dat de afwijking bij het gebruik van MDS groter wordt
naarmate de databestanden groter zijn (omdat er dan meer dimensies gereduceerd
worden), is dan ook een andere reden om te pleiten voor het gebruik van SOM bij
het spatialiseren van grote hoeveelheden data. Het verschil tussen de verwachte
afstand (op basis van de similariteitswaarde) tussen twee documenten en de
werkelijke afstand op een MDS-spatialisatie, kan namelijk heel hoog oplopen als
er veel dimensies moeten worden gereduceerd (dit zal uit de praktijkvoorbeelden
in de volgende paragraaf blijken).
Het
spatialiseren van de conferentiepapers
Bij het maken van de spatialisaties in de case study is gekozen
voor het gebruik van MDS boven dat van de SOM. De belangrijkste reden daarvoor
is simpelweg dat er geen software voorhanden was om SOM-spatialisaties mee te
maken.
Om van de data van de congrespapers die in de woord*documentmatrix staan
een spatialisatie te maken met behulp van MDS, moeten die data eerst worden
omgezet in een similariteitsmatrix. Om de documentvectoren van de congrespapers
uit de woord*documentmatrix met elkaar te vergelijken is gekozen voor de
cosinusmethode die is beschreven in §2.2.1. De
similariteitsmatrix kan worden berekend met SPSS[18]
en een deel ervan is te zien in figuur 22 (eerste matrix). De getallen lopen,
omdat het cosinuswaarden zijn, van 0 tot 1. Het komt er op neer dat 2
documenten identiek aan elkaar zijn als ze alle 25 sleutelwoorden met elkaar
gemeen hebben. Document 001 lijkt voor 20% op document 002 omdat deze twee
documenten 5 woorden gemeen hebben.

Figuur 22: Deel van de similariteitsmatrix,
waarvan uiteindelijk een gekwadrateerde dissimilariteitsmatrix wordt gemaakt.
Om een goede MDS-analyse te
kunnen uitvoeren moet de similariteitsmatrix worden omgezet in een
dissimilariteitsmatrix (figuur 22 tweede matrix). Dit kan in Excel eenvoudig
gedaan worden door de volgende omzetting: X=1-X, waarbij X de getallen zijn. In
deze dissimilariteitsmatrix geldt dat hoe dichter de similariteitswaarde van
twee documenten bij 0 ligt hoe meer ze op elkaar lijken.
Tenslotte wordt deze matrix
gekwadrateerd (figuur 22 derde matrix). Dit wordt gedaan om de similariteit of
dissimilariteit tussen documenten te benadrukken. Door de matrix te kwadrateren
zullen documenten die op de spatialisatie al dicht bij elkaar lagen,
verhoudingsgewijs nog dichter bij elkaar komen te liggen. Terwijl documenten
die al ver van elkaar af lagen niet veel dichter bij elkaar zullen komen. Het
kwadrateren van de matrix kan gezien worden als het versterken van de
zwaartekracht in de conceptuele ruimte: de aantrekkingskracht die documenten op
elkaar hebben wordt groter naarmate de afstand tussen documenten kleiner is. Zo
zullen eerder clusters gevormd worden[19].
Met deze gekwadrateerde
dissimilariteitsmatrix kan vervolgens een MDS-analyse worden uitgevoerd, die de
meerdimensionale data terugbrengt tot 2 dimensies.
Voordat echter alle papers
worden gespatialiseerd, zal eerst met een deel van de papers getest worden of
de Proxscal-MDS methode klopt. Behalve de eerste 5 onderwerpen van de
conferentiepapers (circa 65 documenten) zullen hiervoor tevens negen
testdocumenten[20] worden
gebruikt die niets met het onderwerp te maken hebben. De hypothese is dat de
testdocumenten op een andere plek op de spatialisatie van deze documenten
zullen staan dan de conferentiepapers, omdat ze minder sleutelwoorden met de
andere papers gemeen zullen hebben. De verwachting is ook dat de
testdocumenten, die allemaal over hetzelfde onderwerp gaan (verkiezingen, in
het tijdschrift Politieke Geografie), dichter bij elkaar zullen staan dan bij
andere documenten[21].
Het resultaat van de test
is te zien in figuur 23. Duidelijk is te zien dat de testpapers
(gerepresenteerd door de zwarte punten), op de spatialisatie een aparte groep
vormen, rechts van de overige documenten. Ook is te zien dat de testdocumenten
gemiddeld dichter bij elkaar staan dan bij de andere documenten, omdat ze meer
sleutelwoorden met elkaar gemeen hebben dan met andere documenten. Figuur 23
is dan ook het bewijs dat de MDS analyse klopt.

Figuur 23: Resultaat van een
MDS-analyse van onderwerp 0-5 met de testpapers. (figuur gemaakt met ArcView)
Figuur 23 laat ook zien dat
de gekozen methode om teksten te analyseren (het gebruik van de 25
belangrijkste woorden per tekst, zie de tekst over het analyseren van de conferentiepapers),
ondanks de gebreken, toch een goed beeld geeft van de similariteit van de
verschillende documenten. Anders zouden de testdocumenten namelijk niet zo’n
apart cluster vormen aan de rand van de spatialisatie (wat betekent dat ze
buiten de groep vallen).
Tenslotte is er getest of
documenten die centraal staan op de spatialisatie ook werkelijk hoge gemiddelde
similariteitswaarden hebben, wat wel de verwachting is. Van documenten die
gemiddeld helemaal niet zo op de rest van de groep lijken, wordt verwacht dat
ze zich aan de randen van de spatialisatie zullen bevinden. In figuur 24 is te
zien dat ook dit klopt. De linkerfiguur toont de tien documenten die gemiddeld
het meest op de overigen lijken. Zij staan centraal in de spatialisatie. De
rechterfiguur toont de tien documenten met de kleinste gemiddelde
similariteitswaarden. Zij bevinden zich, volgens verwachting, aan de rand van
de spatialisatie.


Figuur 24: De plek van de tien meest
gelijkende (linkerfiguur) en de tien minst gelijkende
documenten op de spatialisatie
(rechterfiguur).(figuur gemaakt met ArcView)
Ook al blijkt uit
bovenstaande tests dat de spatialisatie iets zegt over de similariteit van de
verschillende documenten, dat wil nog niet zeggen dat de data ook exact
kloppen. Zoals al eerder is aangegeven is er bij het reduceren van het aantal
dimensies sprake van een informatieverlies dat, bij een groter aantal te
reduceren dimensies, steeds sterker wordt. Dit heeft vooral gevolgen voor de positie
van individuele documenten ten opzichte van elkaar. Een indicatie hiervan wordt
gegeven in figuur 25.
Deze figuur, gegenereerd
door SPSS, laat het verschil zien tussen de similariteit die verschillende documenten
met elkaar hebben en de daadwerkelijke afstand tussen die documenten op de
spatialisatie. Elk rode blokje staat voor de similariteitswaarde tussen twee
documenten. Idealiter zouden alle rode blokjes op de zwarte lijn moeten
liggen, maar dat is duidelijk niet het geval. In de figuur is te zien dat
de afstand die twee documenten tot elkaar hebben op de spatialisatie dan ook
meestal kleiner is dan op grond van de similariteitswaarde verwacht mag worden.
De eerdergenoemde stress geeft het verschil aan tussen de afstand op de
spatialisatie en de afstand die verwacht wordt (de waarde op de zwarte lijn).
Hoe kleiner de stress is, hoe beter de spatialisatie dan ook ‘klopt’. Maar
omdat hier 75 dimensies tot 2 dimensies zijn gereduceerd is een hoge stress onvermijdelijk.

Figuur 25: Het verschil tussen de
similariteitswaarden van de data en
afstanden op de spatialisatie
Dit verlies aan informatie
bij het visualiseren van meerdimensionale data is op geen enkele manier te
voorkomen en moet dus geaccepteerd worden[22]. Het betekent helaas wel dat de afstand
tussen twee documenten op de spatialisatie niet alles zegt over de similariteit
van die twee documenten. Zoals in figuur 25 is te zien komt het zelfs voor dat
documenten die helemaal niet op elkaar lijken, en dus ver van elkaar af zouden
moeten staan, op de spatialisatie een afstand van bijna 0 tot elkaar kunnen
hebben! Alhoewel er ook documenten zijn waarvan de afstand tot elkaar wel
ongeveer klopt met de verwachting, is de gemiddelde afwijking toch dermate
groot dat er eigenlijk op grond van de nabijheid van twee documenten niets over
de similariteit kan worden gezegd.
Dat de afwijking van de
plaats van individuele documenten ten opzichte van elkaar erg groot is
wil niet zeggen dat er daarom niets te zeggen is over de structuur van de data als
geheel. De plaats van een document op de spatialisatie moet dan ook meer
gezien worden als de positie van dat document ten opzichte van alle anderen.
Zo bezien kan er bijvoorbeeld wel veel gezegd worden over de centrale positie
van bepaalde documenten, er kan gekeken worden of bepaalde onderwerpen veel op
elkaar lijken en de structuur van de data als geheel kan onder de loep genomen
worden.
Aangezien uit bovenstaande
tests gebleken is dat de Proxscal MDS-methode klopt, (los van het verlies aan
informatie bij datareductie), zal er nu verder worden gegaan met het maken van
een spatialisatie van alle conferentiepapers. Uiteindelijk zijn dit er meer dan
250, die zullen worden gespatialiseerd met behulp van Proxscal op de manier
zoals hierboven is beschreven[23].
Het resultaat in SPSS is onderstaande figuur 26: de spatialisatie van alle
conferentiepapers.
Met de spatialisatie in
figuur 26 kunnen verder echter geen bewerkingen worden gemaakt. De
spatialisatie heeft dan ook weinig waarde als zodanig. Daarom zullen de
coördinaten ervan worden ingevoerd in ArcView[24].
Het invoeren van de coördinaten in een GIS zoals ArcView maakt het extraheren
van relevante informatie wél mogelijk.

Figuur 26: De ‘rauwe’ spatialisatie
van alle conferentiepapers
Om dit te bereiken zullen
de coördinaten uit SPSS eerst nog wat kleine bewerkingen in Excel en Word
moeten ondergaan (komma in punt veranderen bijvoorbeeld), voordat ze als tabel kunnen
worden ingevoegd in ArcView. Vervolgens moet er een zogenaamde ‘View’ worden
gemaakt waarin de spatialisatie kan worden geprojecteerd. De ‘view’ is een
interactieve kaart waarmee geografische data kunnen worden weergegeven en
geanalyseerd. De eigenschappen van de ‘View’ moeten zo worden ingesteld dat de
coördinaten van alle gespatialiseerde documenten juist worden weergegeven. De
projectie hoeft niet te worden ingesteld en de ‘map units’ zijn, evenals de ‘distance
units’ onbekend: de afstand op een spatialisatie is immers niet in meters
of kilometers uit te drukken. De spatialisatie zoals die er nu uitziet in
ArcView (figuur 27) is klaar voor verdere bewerking en analyse. Het volgende,
derde en tevens laatste, hoofdstuk van deze scriptie is daar aan gewijd.

Figuur 27: Dezelfde spatialisatie
als in figuur 26, ingevoerd in ArcView
[6] Er zijn, behalve verschillende methoden om de similariteit tussen verschillende teksten te bepalen, vele andere manieren om teksten te analyseren. Er kan in het algemeen een onderscheid worden gemaakt tussen tekstanalyses die kijken naar het gebruik van taal, bijvoorbeeld zogenaamde linguïstische analyses, en inhoudsanalyses, die op een kwalitatieve of kwantitatieve manier naar teksten kijken. Voor meer informatie over tekstanalyse en een overzicht van verschillende softwarepakketten om teksten mee te analyseren, wordt verwezen naar de Internetpagina van Harald Klein: http://www.intext.de/textanae.htm.
[7] Het is belangrijk om te beseffen dat ook veel andere informatie, die oorspronkelijk al numeriek was, kan worden beschouwd als objecten met bepaalde eigenschappen. Denk bijvoorbeeld aan een klantenbestand van een bedrijf. De eigenschappen van verschillende klanten kunnen ook in een matrix worden weergegeven. Alhoewel het hier dus steeds gaat over tekstanalyses en woord*documentmatrices, zouden ook andere data en andere matrices kunnen worden geanalyseerd.
[8] TextAnalyst versie 2.01 is een programma van MicroSystems Co. Ltd. en wordt gedistribueerd door Megaputer Intelligence Inc. Een evaluatieversie van het programma kan gratis van de website worden gedownload (http://www.megaputer.com). Het programma kan voor meer doeleinden worden gebruikt dan hier het geval is. Het kan bijvoorbeeld samenvattingen van teksten maken, teksten analyseren op woordcombinaties en een hiërarchie maken van woorden die in de tekst voorkomen. Alhoewel bijvoorbeeld het analyseren van het voorkomen van bepaalde woordcombinaties in plaats van alleen enkele woorden waarschijnlijk zorgt voor een betere analyse van teksten, is er hier voor gekozen om alleen enkele woorden op te nemen in de woordenlijst die het programma maakt. Dit maakt de uiteindelijke analyse van de verschillende teksten met elkaar namelijk makkelijker.
Overigens werkt de evaluatieversie van het programma alleen met tekstbestanden van minder dan 100 kb. (met de extensie ‘txt’). De congrespapers van de case study zijn echter in MS Word formaat (met de extensie ‘doc’) en moeten dus eerst worden geconverteerd.
[9] Als het aantal woorden per document teveel zou verschillen kan er later geen eerlijke similariteitsanalyse worden uitgevoerd. Als er van Document A bijvoorbeeld 100 woorden in de analyse worden opgenomen en van Document B 50, dan heeft document A gemiddeld twee keer zoveel kans om overeenkomende woorden te hebben met Document X. Op die manier zou het lijken of document A veel meer op andere documenten lijkt dan document B. Om elk document dus dezelfde kans op similariteit te geven moet het aantal woorden per document ongeveer gelijk zijn.
[10] Voor een vollediger overzicht van technieken om meerdimensionale (multivariate) data te visualiseren wordt verwezen naar de dissertatie van Basalaj.
[11] Zie voor verdere uitleg en formules bijvoorbeeld Borg, 1997; Kruskal & Wish, 1978; Young, 1985. Voor verdere literatuur wordt verwezen naar de site over MDS (http://www.ncl.ac.uk/mds/) van de University of Newcastle.
12 Een matrix is een similariteitsmatrix als grotere getallen staan voor meer gelijkheid tussen objecten. Een matrix is een dissimilariteitsmatrix als grotere getallen minder gelijkheid tussen objecten aangeven.
[13] De formule die bij de cosinusmethode gebruikt wordt is de volgende (TERM=WOORD):
Voor een bespreking van de verschillende statistische methoden om de similariteit te berekenen en de uitkomsten ervan bij het gebruik van meerdimensionale schaling (zie § 2.2), wordt verwezen naar Rorvig (1999). Eén belangrijke conclusie uit Rorvig’s onderzoek moet hier echter wel worden vermeld: verschillende methoden geven vaak hele verschillende uitkomsten in de similariteit tussen documenten. De opmerking in noot 5, dat een spatialisatie een beeld van de data geeft, en niet het beeld, wordt hier dus onderschreven.
[14] Proxscal is een MDS-techniek die ontwikkeld is op het departement Psychologie (sectie methoden & technieken) van de Universiteit Leiden. Zie voor een verdere uitleg over en het voordeel van het gebruik van Proxscal de volgende webpagina: http://www.fsw.leidenuniv.nl/www/w3_ment/MEDEWERKERS/BUSING/PROXSCAL.HTM. Voor een uitleg van het specifieke gebruik van Proxscal in de software van SPSS zie
http://www.spss.com/tech/stat/algorithms/11.0/proxscal.pdf.
[15]
Het woord STRESS is
oorspronkelijk een acroniem voor ‘standardized residual error sum of squares’
(McQuaid et al., 1999) en heeft de
volgende formule:
Waar de afstand tussen verschillende
punten is op de spatialisatie en de
afstand tussen verschillende punten in de oorspronkelijke similariteitsmatrix.
[16] Omdat de SOM niet afhankelijk is van al aanwezige kennis van de data en zichzelf organiseert, zonder menselijke tussenkomst, wordt de methode ‘zelflerend’ genoemd (Girardin, 1995).
[17] Neuronen in
de hersenen zijn ook geneigd om in groepen te clusteren. Het aantal verbindingen
tussen de neuronen in een groep is veel groter dan het aantal verbindingen met
neuronen buiten de groep. Kohonen’s netwerk probeert dit op een simpele manier
na te bootsen door het gebruik van de neighbourhood function (Orr, 1999).
[18] SPSS is een afkorting van Statistical Package for the Social Sciences. Het is waarschijnlijk het meest gebruikte statistische software pakket ter wereld. Voor meer informatie over SPSS wordt verwezen naar de homepage van SPSS Inc.
[19] De matrix kan in principe natuurlijk meer dan één keer met zichzelf vermenigvuldigd worden. Het effect daarvan op de spatialisatie is dat er steeds meer sprake is van een kern en een periferie. Documenten die al aan de rand van de spatialisatie lagen zullen relatief steeds verder naar de rand worden bewogen. Het aantal documenten in de kern zal sterk toenemen.
[20] De
testdocumenten zijn alle 9 afkomstig uit hetzelfde nummer (Vol. 21 (1), januari
2002) van het wetenschappelijke tijdschrift Political Geography (http://www.sciencedirect.com/science?_ob=JournalURL&_cdi=6026&_auth=y&_acct=C000021878&_version=1&_urlVersion=0&_userid=457046&md5=bfb55c83b3900e09b59eaf1aebb0f949).
Alle artikelen hebben iets te maken met verkiezingen, waardoor verwacht wordt
dat ze veel op elkaar lijken. Dit zijn de gebruikte artikelen (de nummers
corresponderen met de nummers op de spatialisatie):
1 Comments on Ron Johnston's
"Manipulating maps and winning elections: measuring the impact of
malapportionment and gerrymandering", Toby Moore
2 A Bayesian approach to detecting
electoral manipulation, Micah
Altman
3 Sources of partisan bias in US
congressional elections: an update stimulated by Ron Johnston's essay, Robert S. Erikson
4 If it isn't a gerrymander, what is
it?, Ron Johnston
5 The Electoral College and the election of 2000, Fred M. Shelley
6 Florida in the 2000 presidential
election: historical precedents and contemporary landscapes, Barney Warf and Cynthia Waddell
7 Florida's residual votes, voting
technology, and the 2000 election, Jonathan I. Leib and Jason Dittmer
8 The U.S. presidential election and
the Bush v. Gore supreme court decision, Gerald R. Webster
9 The
geography of an interminable election: Bush v. Gore, 2000, J. Clark Archer
[21] Er moet rekening gehouden worden met het feit dat deze test is uitgevoerd met de onbewerkte woordenlijst. De woordenlijst is dus nog niet zo ‘goed’ als na de samenvoeging van de verschillende woorden met hetzelfde stammorfeem. Een spatialisatie waarin de bewerkte woordenlijst zou zijn gebruikt zou de verschillen tussen de conferentiepapers en de testpapers waarschijnlijk dus nog beter weergeven.
[22] Het verlies aan informatie kan niet voorkomen worden, maar wel zo klein mogelijk worden gehouden. De verschillende MDS-methoden proberen dan ook de stress zo laag mogelijk te houden. Proxscal minimaliseert hiervoor de zogenaamde normalised raw stress.
[23] Wat extra statistische informatie over de uiteindelijke spatialisatie:
|
Meetschaal van de
variabelen |
Ratio |
|
Initiële configuratie |
Simplex |
|
Stress convergentie Minimum stress Iteraties |
0,00001 0,00001 200 |
|
Uiteindelijke stress (Mean Normalized Raw Stress) |
0,12923 |
[24] ArcView is een van de bekendere GISsen in de wereld. Voor meer informatie over ArcView wordt verwezen naar de homepage van ESRI: www.esri.com