2 Basis
2.1 Inleiding
Weten welke informatie je nodig hebt is cruciaal om te kunnen beginnen met zoeken. Daarom worden in Volledigheid en nauwkeurigheid eerst de belangrijkste criteria geïntroduceerd om de kwaliteit en efficiëntie van een zoekopdracht te definiëren.
Vervolgens wordt het proces van het definiëren en vinden van relevante documenten beschreven in Relevante resultaten definiëren en Een verzameling verwerken
Als je de belangrijkste criteria kent en weet welke resultaten nodig zijn, kun je een set documenten selecteren in Verzameling selecteren en weten wanneer de zoekopdracht kan worden voltooid in Wanneer klaar.
2.2 Volledigheid en nauwkeurigheid
Volledigheid en nauwkeurigheid zijn belangrijk voor de beoordeling van het zoekproces, omdat de kwaliteit en de efficiëntie van het zoekproces belangrijk zijn. Hoewel de volledigheid moeilijk te meten is, kan het toch worden gebruikt om de kwaliteit van jouw zoekproces te begrijpen.
In de praktijk is een 100% volledigheid en tegelijkertijd een 100% nauwkeurigheid niet mogelijk. Het zoekproces is daarom altijd een afweging tussen efficiëntie en kwaliteit.
- Volledigheid is gedefinieerd als:
-
verhouding van gevonden relevante documenten en alle relevante documenten.
- Nauwkeurigheid is gedefinieerd als:
-
verhouding van gevonden relevante documenten en alle gevonden documenten.
De verzamelingen documenten die voor beide criteria worden gebruikt, zijn weergegeven in figuur 1.
Een goede kwaliteit van het zoekproces is in veel gevallen van belang. Bij bijvoorbeeld productontwikkeling is het van belang dat jouw vragen over de octrooi-informatie voor jouw ontwikkeling volledig worden beantwoord. Het missen van een relevant document kan leiden tot onnodige ontwikkelingen of tot het niet kunnen verkopen van een product. Dit kan ernstige financiële gevolgen hebben.
De volledigheid is daarom een goed criterium om de kwaliteit van het zoekproces te beoordelen. Normaal gesproken kan de gehaalde volledigheid alleen worden geschat door het zoekproces opnieuw uit te laten voeren door een andere persoon. Het is dus geen criterium waarmee eenvoudig de kwaliteit van het zoekproces kan worden beoordeeld. In de volgende paragrafen wordt beschreven hoe je met het volledigheidscriterium kan werken.
De efficiëntie van een zoekproces heeft een belangrijk effect op de kosten van het zoekproces. Voor het beoordelen van de efficiëntie kan het nauwkeurigheidscriterium worden gebruikt. Dit kan eenvoudig worden gemeten nadat het zoeken is voltooid door het totaal aantal geselecteerde documenten te vergelijken met de relevante documenten. Deze vergelijking heeft op zichzelf vrijwel geen waarde. Bij het vergelijken van verschillende zoekprocessen of met collega’s kan deze vergelijking wel worden gebruikt om de efficiëntie te beoordelen. Ook in de volgende paragrafen wordt het gebruik van dit criterium beschreven.
Over het algemeen werken volledigheid en nauwkeurigheid in tegengestelde richtingen: naarmate de volledigheid verbetert, neemt de nauwkeurigheid af, en naarmate de nauwkeurigheid toeneemt, neemt de volledigheid af. Tijdens het zoeken zul je voor jezelf een keuze moeten maken over deze balans. Het grote probleem hierbij is dat je normaal gesproken niet de volledigheid van jouw zoekproces weet. Ervaring met zoeken helpt om deze balans beter in te schatten. Dit wordt ook duidelijk gemaakt in de volgende paragrafen.
Voor meer informatie over volledigheid en nauwkeurigheid, zie bijvoorbeeld wikipedia.
2.3 Relevante resultaten definiëren
Voordat je met zoeken begint, moet je een duidelijk beeld hebben van wat de relevante resultaten moeten zijn. De relevante resultaten worden bepaald door de vragen die in het onderzoek beantwoord moeten worden.
Voor een examiner bepalen de claims van de octrooiaanvraag hoe relevant de gezochte documenten zijn. Dit is een relatief duidelijk criterium om te gebruiken bij de selectie van de documenten. Als je onderzoek doet naar technische oplossingen is het criterium om documenten te selecteren minder duidelijk, omdat je vaak zoekt naar concepten of alle oplossingen voor een bepaald probleem. Wat in dit geval helpt, is het bepalen van een kenmerk of enkele kenmerken die in een document aanwezig moeten zijn om relevant te zijn. Hierdoor kan je snel mogelijke relevante documenten selecteren.
Een andere belangrijke reden om een duidelijke definitie van de relevante resultaten te hebben, is dat je hiermee kunt bepalen waar je niet naar moet zoeken. Als het mogelijk is om bepaalde technische gebieden of toepassingen uit te sluiten, zal dit het aantal documenten verminderen (en de nauwkeurigheid vergroten).
2.4 Een verzameling verwerken
Nadat je hebt gedefinieerd wat relevante resultaten zijn, kan je beginnen met het selecteren van de relevante documenten.
Vaak is het lastig om snel te bepalen of een document echt relevant is. Om dit te bepalen moet je normaal gesproken het document lezen. Te veel documenten lezen is niet mogelijk in een beperkte tijd. Daarom selecteer je in eerste instantie mogelijk relevante documenten uit een werkbare verzameling documenten (zie figuur 2). Je selecteert mogelijk relevante documenten door gebruik te maken van jouw criterium voor het selecteren van deze documenten zoals beschreven in de vorige paragraaf.
Bij deze eerste verwerking is het normaal gesproken niet nodig om de documenten te lezen. Vaak is het voldoende om de afbeeldingen te bekijken of de samenvatting (of eventueel ook een deel van de beschrijving) te lezen om te zien of een document wel of niet aan jouw criterium voldoet. Zo creëer je in de eerste verwerking een geselecteerde groep van mogelijk relevante documenten.
Wanneer de eerste verwerking is voltooid, is het tijd om de geselecteerde groep documenten nauwkeuriger te bekijken. Door de documenten te lezen, kunnen de echt relevante documenten worden gevonden (zie figuur 3). Deze documenten geven de antwoorden op de vragen van jouw onderzoek.
2.5 Verzameling selecteren
Het selecteren van een werkbare verzameling die alle relevante documenten bevat, is het belangrijkste onderdeel van een zoekopdracht. Dit is belangrijk omdat het een grote invloed heeft op de kwaliteit en de hoeveelheid werk (volledigheid en nauwkeurigheid). Zie figuur 4 om een indruk van het aantal documenten te krijgen.
In de vorige paragraaf is beschreven hoe je door de verzameling documenten werkt om uiteindelijk alleen de echt relevante documenten te selecteren. Dit is ‘slechts’ veel werk. Het selecteren van deze werkbare verzameling hoeft niet veel tijd te kosten, maar is wel het moeilijkste onderdeel van het zoeken naar informatie uit octrooien.
In de praktijk is het erg lastig om alle relevante documenten te selecteren (voor 100% volledigheid). Een werkbaar doel is daarom om zo dicht mogelijk bij 100% volledigheid te komen met een werkbare hoeveelheid documenten (hoge nauwkeurigheid). Dit deel geeft een introductie in de meest gebruikte methoden om dit doel te bereiken.
De huidige zoekmachines voor de octrooidatabanken beschikken over bepaalde functionaliteiten om een zoekopdracht uit te voeren. Deze mogelijkheden zullen in de volgende paragrafen worden toegelicht in relatie tot het bereiken van het doel om een werkbare verzameling met de relevante documenten te selecteren.
2.5.1 Tekst zoeken
De beschikbare zoekmachines zoals bijvoorbeeld Espacenet of Google Patents maken het zoeken naar woorden in de volledige tekst van de octrooidocumenten mogelijk. Het zoeken in de volledige tekst (ook wel full-text genoemd) maakt het mogelijk documenten te selecteren waarbij woorden kunnen worden gebruikt om de relevante kenmerken te beschrijven.
Normaal gesproken is het niet mogelijk om concepten te beschrijven, maar onderdelen of materialen kunnen wel met woorden worden beschreven. De mogelijke synoniemen van de woorden moeten ook worden gebruikt. Het is bijvoorbeeld niet ongebruikelijk dat in het chemisch gebied, waar stoffen normaal gesproken op een gestandaardiseerde manier worden beschreven, voor één stof wel 10 tot 20 synoniemen worden gebruikt.
Octrooien worden in vele talen gepubliceerd en moeten daarom mogelijk ook worden doorzocht met woorden uit de verschillende talen. In Espacenet kunnen alleen de drie officiële talen van het EOB worden gebruikt om te zoeken. In Google Patents kunnen ook andere talen worden gebruikt. Om de zoeker te ontlasten bij het vinden van synoniemen in de verschillende talen, worden in verschillende octrooidatabanken ook automatisch vertaalde teksten in het Engels gebruikt.
Ervaring met zoeken in de volledige tekst leert:
Bepaalde relevante kenmerken kunnen goed worden beschreven met woorden, andere niet. Onderdelen, materialen of verbindingen zijn vaak wel goed te beschrijven, maar relaties daartussen zijn vaak niet te beschrijven.
Ook hebben niet alle talen woorden voor bepaalde kenmerken. Vaak bestaan er woorden voor een kenmerk in één taal, maar wordt hetzelfde kenmerk beschreven met meerdere woorden in een andere taal.
De woorden en uitdrukkingen die in octrooidocumenten worden gebruikt, zijn vaak meer beschrijvend in plaats van specifiek, zodat ze een brede betekenis hebben. Daarom kan het lastig zijn om goede woorden voor het zoeken te vinden.
Om een 100% volledigheid te benaderen moeten alle synoniemen in de verschillende talen gebruikt worden. Dit is vaak niet eenvoudig en vereist kennis en ervaring op het betreffende technische gebied.
Het bereiken van een hoge volledigheid met alleen zoeken in de volledige tekst resulteert over het algemeen in een zeer lage nauwkeurigheid. Dit betekent dat er een onwerkbare verzameling documenten wordt geselecteerd.
2.5.2 Met classificatie zoeken
Examiners zoeken al meer dan een eeuw naar octrooien, ook in een tijd waarin computers nog niet beschikbaar waren om te zoeken. Om in deze tijd met alleen een papieren documentatie te kunnen zoeken, zijn octrooiclassificaties ontwikkeld. Het doel van deze classificaties is om verzamelingen documenten te vormen (met een specifieke classificatiecode) die in de buurt komen van de 100% volledigheid die nodig is voor search reports voor octrooiaanvragen en tegelijkertijd een hoge nauwkeurigheid hebben. Deze classificatie is nog steeds erg nuttig en wordt tegenwoordig nog veelvuldig gebruikt om zoekopdrachten uit te voeren.
De classificatiesystemen zijn daarmee afgestemd op de zoekopdrachten voor search reports bij octrooibureaus. Om deze classificaties af te stemmen op de zoekopdrachten, bouwen en onderhouden dezelfde personen die zoeken (examiners) ook de classificatiesystemen en classificeren ze de documenten.
Veel octrooibureaus hebben hun eigen classificatiesystemen ontwikkeld. Sinds de invoering van de International Patent Classification (IPC) heeft er enige standaardisatie plaatsgevonden. Een van de meest gebruikte classificaties naast de IPC is de Cooperative Patent Classification (CPC). In Classificatie worden de kenmerken van de verschillende systemen beschreven.
Het gebruik van de juiste classificatiecode voor jouw zoekopdracht zorgt voor hoge volledigheid en hoge nauwkeurigheid. Dit heeft daarom de voorkeur om een werkbare verzameling te selecteren. Er moet echter aandacht worden besteed aan het vinden van de juiste classificatiecode, omdat het selecteren van een onjuiste code doorgaans resulteert in een volledigheid van nul.
Het vinden van de juiste code vereist zowel kennis van het technische vakgebied als van de classificatiecodes en hoe deze worden gebruikt voor classificatie. Een algemene kennis van de classificatie wordt gegeven in Classificatie en wordt aanbevolen om te lezen.
Bij classificatie is de selectie van een verzameling hetzelfde als:
het selecteren van de juiste classificatiecode.
2.5.3 Gespecialiseerde databanken voor specifieke technische vakgebieden
Voor bepaalde technische vakgebieden is het gebruik van full-text of classificatie niet voldoende om een zoekopdracht uit te voeren. Voor deze technische gebieden bestaan er gespecialiseerde zoekmachines en databanken.
Voor de chemie zijn er bijvoorbeeld zoekmachines en databanken waarin een chemische structuur kan worden gezocht.
In bijvoorbeeld de databank chemical abstracts van CAS kunnen sequenties worden gezocht.
2.5.4 Zoekopdrachten in de databanken
De meeste zoekmachines kunnen verschillende zoekopdrachten op een
booleaanse manier combineren. Een Booleaanse combinatie betekent dat een
logische AND
of OR
kan worden gebruikt om een
zoekopdracht op te bouwen. Met een AND
kan het resultaat
worden beperkt tot een verzameling waarbij beide zoekopdrachten aanwezig
moeten zijn. Met een OR
kunnen meerdere alternatieven of
synoniemen gecombineerd worden.
Een verzameling kan ook worden geselecteerd door bijvoorbeeld een classificatiecode en woorden te combineren. Daardoor wordt de nauwkeurigheid vergroot ten opzichte van een zoekopdracht met enkel een classificatiecode.
Zie de handleidingen en hulp van de zoekmachines voor de mogelijkheden (zie ook IE-databanken).
2.5.5 Ranking
Sommige zoekmachines voeren een ranking in Google-stijl uit op de resultaten, waarbij de resultaten met de hoogste ranking als eerste worden weergegeven. Dit is alleen nuttig als je snel wat resultaten wilt, maar niet nuttig voor een compleet resultaat omdat nog steeds alle documenten bekeken moeten worden.
Meer geavanceerde rankings zoals bijvoorbeeld facetzoeken (zie wikipedia) zijn op dit moment niet beschikbaar. Iets soortgelijks kan worden bereikt door booleaanse zoekopdrachten te herhalen, maar dit is niet erg gebruikersvriendelijk om uit te voeren.
2.5.6 Geciteerde en citerende documenten
De informatie uit search reports van de octrooiaanvragen is voor een groot deel beschikbaar in de databases van de verschillende zoekmachines. Deze informatie is een waardevolle bron voor relevante documenten:
De search reports van octrooiaanvragen bevatten relevante documenten voor de uitvindingen in die aanvragen.
Neem daarom de geciteerde documenten van reeds gevonden relevante documenten op in jouw selectie en controleer vooral deze op relevantie.
In verschillende zoekmachines zijn ook de documenten beschikbaar die een verwijzing naar een bepaald document bevatten. Je dient deze citerende documenten naar een relevant document in jouw selectie op te nemen, om dezelfde reden als waarom de geciteerde documenten zijn opgenomen.
Naast de relevantie van deze geciteerde en citerende documenten kunnen ze ook tips geven om nieuwe selecties te maken. Uit deze documenten kunnen onbekende relevante classificatiecodes of woorden worden afgeleid.
2.6 Wanneer klaar?
De vraag wanneer je moet stoppen met zoeken kan je beantwoorden als de volgende vraag beantwoord kan worden:
Heb je alle relevante documenten geselecteerd?
Deze vraag kan alleen met onzekerheid worden beantwoord. In de praktijk is het niet mogelijk om te controleren of je alle relevante documenten hebt geselecteerd (volledigheid = 100%). In plaats daarvan kunnen enkele indicaties worden gebruikt om de vraag te beantwoorden.
- Als je voldoende kennis hebt van de classificatie en technologie van een bepaald technisch vakgebied (vergelijkbaar met een examiner), kan je één of een beperkt aantal classificatiecodes selecteren met grote zekerheid dat de meeste relevante documenten worden geselecteerd. Het selecteren van een verzameling met deze classificatiecodes en het doorwerken van deze verzameling is dan voldoende voor het zoeken. Hierna kan de zoektocht worden gestopt. Deze methode is daarom het meest eenvoudig.
- De verzameling die je hebt geselecteerd, moet een aanzienlijk aantal relevante of nauw verwante documenten opleveren. Is dit niet het geval, dan heb je waarschijnlijk een verzameling geselecteerd zonder de relevante documenten (volledigheid is laag).
- Wanneer het verwerken van geciteerde en citerende documenten van de echt relevante documenten geen nieuwe relevante documenten of technische vakgebieden oplevert, dan is dit een indicatie dat de meeste relevante documenten zijn gevonden.
Als je tot de conclusie komt dat jouw zoekopdracht nog niet volledig genoeg is, moet er een nieuwe selectie worden gemaakt. Hiervoor kan de informatie uit de eerdere resultaten worden gebruikt. Er kunnen bijvoorbeeld nieuwe classificatiecodes van relevante documenten worden gebruikt.