Document de travail n°685 : Classer les brevets en fonction de leur contenu sémantique

Dans cet article, Antonin Bergeaud, Yoann Potiron et Juste Raimbault étendent certaines techniques habituelles de classification appliquées à une large base de données et à un réseau de grande échelle. Cette approche conçue en particulier pour être adaptée au big data, est utilisée ici pour construire une base de données consolidée à partir de données sémantiques extraites sur 4 millions de brevets provenant de l'Office américain des brevets depuis 1976. Pour construire ce réseau, non seulement les auteurs examinent chaque titre de brevet, mais également leur résumé complet et extraient les mots-clés pertinents en conséquence. Ils se réfèrent à cette classification comme approche sémantique par opposition à l'approche technologique plus courante qui se base sur les classes technologiques des offices des brevets américains. De plus, ils documentent que les deux approches ont des mesures topologiques très différentes et suggèrent plusieurs pistes pour exploiter ces différences dans le cadre de l’étude de la diffusion des technologies.

Les données sur les brevets sont couramment utilisées en économie pour mesurer l'innovation, soit par la littérature s’intéressant à l’organisation des entreprises des pour essayer de mieux comprendre leurs stratégies d’investissements en R&D et la manière dont elles orientent et organisent le changement technique, soit par la littérature sur la croissance pour mesurer le progrès technologique. Les brevets sont des objets très utiles parce qu'ils offrent un large éventail d'informations : quand ont-ils été déposé, qui (quelle entreprise) détient les droits, où ont-ils été délivrés et quels brevets sont associés à des techniques similaires. Une autre caractéristique des données sur les brevets est la classification technologique sous-jacente qui a été largement étudiée pour comprendre le cycle de vie de certaines technologies.

Dans cette étude, nous proposons une classification alternative basée sur l'analyse sémantique des réseaux à partir de brevets et explorons les nouvelles informations qui en découlent. Contrairement à la classification technologique usuelle qui résulte du choix des examinateurs de brevets, la classification sémantique est effectuée automatiquement en fonction du contenu du résumé du brevet. Bien que les examinateurs des offices de brevets soient des experts dans leur domaine, la pertinence de la classification existante est limitée par le fait qu'elle est basée sur l'état de la technologie au moment où le brevet a été délivré et qu'elle ne peut anticiper la naissance de nouveaux domaines. En revanche, nous ne sommes pas confrontés à ce problème avec l'approche sémantique. Les liens sémantiques peuvent être des indices d'une technologie s'inspirant d'une autre et de bons prédicteurs de la convergence technologique future. On peut par exemple considérer le cas du mot optique. Jusqu'à tout récemment, ce mot était souvent associé à des technologies telles que la photographie ou la chirurgie oculaire, alors qu'il est maintenant presque exclusivement utilisé dans un contexte de conception transistors et en électro-optique. Ce changement sémantique n'est pas le fruit du hasard mais contient des informations sur le fait que l'électronique moderne utilise largement des technologies qui ont été initialement développées en optique.

Dans notre analyse, nous considérons tous les brevets délivrés par le United States Patent and Trademark Office (USPTO) de 1976 à 2013. Tout comme les articles académiques, ces brevets ont un résumé et un texte qui décrivent l'invention que le demandeur souhaite protéger. Pour des raisons d'efficacité informatique (il y a plus de 4 millions de brevets), nous avons dû limiter l'attention aux résumés afin de construire notre réseau sémantique.

Nos contributions sont de plusieurs types. Tout d'abord, nous définissons comment construire un réseau de brevets basé sur une classification qui utilise des informations sémantiques à partir de résumés. Nous décrivons cette nouvelle classification et montrons qu'elle présente des similitudes avec la classification technologique traditionnelle, mais aussi des caractéristiques distinctes. En particulier, nous développons un test statistique qui suggère que cette classification surpasse la classification technologique dans le sens où les brevets qui sont dans la même classe sémantique sont plus susceptibles de se citer les uns les autres. Deuxièmement, nous fournissons aux chercheurs les résultats de notre analyse, ce qui inclut : (i) une base de données reliant chaque brevet à son ensemble de classes sémantiques et aux probabilités associées ; (ii) une liste de ces classes sémantiques avec une description basée sur les mots-clés les plus pertinents ; (iii) une liste des brevets avec leurs propriétés topologiques dans le réseau sémantique (centralité, fréquence, degré, etc.).

Télécharger la version PDF du document

publication
Document de travail n°685 : Classer les brevets en fonction de leur contenu sémantique
  • Publié le 11/07/2018
  • EN
  • PDF (8.73 Mo)
Télécharger (EN)

Mis à jour le : 11/07/2018 14:55