Datamining op het WereldWijde Web

Naar aanleiding van een artikel over de long tail van zoekwoorden op Netlash.

Wat is datamining?

Bij datamining is het de bedoeling om data volledig automatisch te analyseren en te combineren.

Zo wordt er, aan de hand van kunstmatige intelligentie en een enorme hoeveelheid aan (eventueel voorgekauwde, gerelateerde) data bepaalde verbanden gelegd tussen inhoud

Iets wat anders teveel tijd zou kosten om te ontdekken, of wat men niet manueel kan linken aan elkaar.

Waarom?

Het wereldwijde web draait rond informatie, en om correcte informatie aan te kunnen bieden aan individuen moet deze eerst geïnterpreteerd kunnen worden door software.

Zo kunnen machines achterhalen wat de precieze inhoud en redenering van bepaalde documenten/zoekopdrachten/.. is.

Op die manier kunnen bijvoorbeeld zoekmachines betere resultaten leveren aan gebruikers. Omdat ze dan weten welke inhoud er in documenten staat, welke onderwerpen daaraan gerelateerd zijn en welke zoekopdrachten met welke documenten succesvol beëindigd zijn (zodat iemand die op een later tijdstip dezelfde zoektocht als jou heeft gemaakt, heel wat zoekwerk bespaard kan worden).

En als laatste punt wordt ook de informatie die over jou en onder andere je surfgedrag wordt verzameld hiervoor aangewend.

Spreekt voor zich dat het verzamelen en gebruiken van deze gegevens een heel (privacy)gevoelig onderwerp is.

Op dit ogenblik

Aan de hand van zeer grote datasets worden (al dan niet logische) relaties gelegd tussen bepaalde onderwerpen, en worden deze aangewend om de inhoud te kunnen interpreteren.

Dit wordt gedaan door trefwoorden uit de inhoud te distilleren, en deze vervolgens aan je zoektermen (inclusief typfouten, hiervoor wordt nog een extra dataset gebruikt) te linken.

Deze documenten die hieraan beantwoorden worden vervolgens aan de hand van hun autoriteit gerangschikt volgens relevantie/belangrijkheid (de volgorde die in de Search Engine Result Page, kortweg SERP wordt weergegeven).

Maar doordat de documenten niet afdoende kunnen worden geanalyseerd speelt de autoriteit van webpagina’s hierin een (té?) belangrijke rol ten opzichte van de inhoud zélf (hoezeer deze ook geoptimaliseerd mag zijn).

Hekel punt hierin is namelijk dat bepaalde webontwikkelaars deze inhoud gaan volspammen met trefwoorden, waardoor deze methode van rangschikken in SERP’s gemakkelijk misbruikt kan worden bij een gebrek aan kunstmatige intelligentie (op dit moment wordt aangenomen dat inhoud als spam aanzien wordt als de dichtheid van veel gerelateerde trefwoorden in een tekst meer dan 15% bedraagt, alhoewel dit nooit bevestigd werd door zoekmachine-ontwikkelaars).

Hoe zit het met het verzamelen van persoonlijke informatie?

Simpel uitgedrukt: Privacy op het internet is onbestaande voor gewone gebruikers.

Elke keer dat je op het web surft, laat je jouw computeradres achter. Elke keer dat je jouw persoonlijke gegevens blootgeeft of je jezelf op een publiek deel van een website registreert/een comment post/inschrijft op nieuwsbrieven/.. geef je een stuk van jezelf bloot. Dit hangt natuurlijk ook af van wat de organisatie hiermee doet (lees hiervoor altijd de pricacy disclaimer).

Het is ook verbazingwekkend hoeveel keren een gebruiker bijvoorbeeld zijn eigen naam ingeeft als zoekterm. En mits een beetje social engineering kan je aan de hand van de andere zoektermen ook zaken blootgeven, stel dat je een bepaalde ziekte zoals migraine hebt. Of op reis wil gaan, een andere job zoekt, een hobby beoefent, .. dit zijn allemaal zoektermen die stukje bij beetje informatie over jou bevatten.

Idem ook met publieke online e-mail applicaties zoals Hotmail of Gmail. Voor niets gaat de zon namelijk niet op, en men compenseert het feit dat deze diensten gratis zijn door advertenties aan te bieden.

Weet dat ze deze advertenties zoveel mogelijk op jou willen afstemmen..(voor de conversie en dergelijke). Hotmail doet dit door demografische gegevens aan hun advertentienetwerk te koppelen, Gmail op zijn beurt door de inhoud van je emails door software te laten scannen op trefwoorden en deze op hun beurt te linken aan het Google advertentienetwerk.

Het vrijgeven van persoonlijke gegevens is dus iets wat je zoveel mogelijk moet afwegen tegenover de nadelen ervan.

En nu terug over naar datamining ;-)

Op dit moment staat men al zover om deze persoonlijke gegevens te koppelen aan de zoekopdracht, en dit dan vervolgens aan gerelateerde documenten te koppelen. Men wijzigt namelijk de rangschikking van de resultaten naargelang de beschikbare gegevens over de persoon die zoekt. Dit heeft natuurlijk ook z’n voordelen (evenals nadelen).

De zoekopdrachten zélf worden ook met de nodige aandacht bestudeerd, zie het artikel over de long tail van zoekwoorden ;-)

De toekomst

In de toekomst zal de artificiele intelligentie alleen maar toenemen, tot op een moment dat software data perfect kan interpreteren. Maar eer de software ontwikkelaars zover zijn zullen we wel een paar jaar verder zijn ;-) niettemin zal de autoriteit/populariteit bij webpagina’s ook altijd een bepaalde rol spelen.

Men werkt nu aan software om websites aan te kunnen passen aan de noden van de bezoekers, door de informatie(-architectuur) van deze websites aan te passen aan de meest bezochte/ belangrijkst geachte informatie het zichtbaarst aan te bieden.

De mogelijkheden hiervan zijn schier oneindig, al zal de webmaster nog altijd deze inhoud zélf moeten schrijven (mits enige hulp van software die hints geeft welke inhoud het best bij zijn website zou passen / trefwoorden zal aanraden).

Op lange termijn zal er dus niets veranderen aan het kat-en-muis spelletje tussen zoekmachine-ontwikkelaars en webdevelopers.

Rest me nu nog de volgende vraag:
Hoe zien jullie de toekomst van het intelligente web?

2 Reacties to “Datamining op het WereldWijde Web”

  1. Christophe zegt:

    Lang epistel maar het lijkt me meer en meer die richting uit te gaan. Ook buiten het web evolueert het zo. Onlangs kregen we een enveloppe van de post waarbij gevraagd werd om mee te doen aan de enquete die erin zat. We zouden dan in de toekomst meer gerichte post in onze analoge brievenbus krijgen. Ik heb die enveloppe weg gesmeten. Eigenaardige reactie nochtans van mij, want op het internet laat ik mij soms wel eens vangen aan het meedoen met een enquete. Maar terug naar de wereld buiten het www. Weet dat, als je naar de bvb de delhaize gaat en je betaalt er met je bancontact, dat men dan op een hoger echelon ook weet wat je gekocht hebt, wanneer je het gekocht hebt enzoverder. Zo is er buiten het net om ook een profiel ontstaan. Er zijn nog zoveel meer dingen waardoor we ‘bespied’ worden, dat is nu eenmaal de consequentie van de evolutie die we meemaken. En wie dacht dat het wel eens zou eindigen komt nog lang bedrogen uit.

  2. [...] Ben’s Blog Opstaan met webstandaarden « Datamining op het WereldWijde Web [...]

Reageer