Crawl commun - Common Crawl
Type de commerce | 501(c)(3) à but non lucratif |
---|---|
Disponible en | Anglais |
Quartier général | San Francisco, Californie ; Los Angeles, Californie , États-Unis |
Fondateur(s) | Gil Elbaz |
Personnes clés | Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito |
URL | commoncrawl |
Common Crawl est une organisation à but non lucratif 501(c)(3) qui explore le Web et fournit gratuitement ses archives et ses ensembles de données au public. Les archives Web de Common Crawl se composent de pétaoctets de données collectées depuis 2011. Elles effectuent les analyses généralement tous les mois.
Common Crawl a été fondé par Gil Elbaz . Les conseillers de l'association incluent Peter Norvig et Joi Ito . Les robots d'exploration de l'organisation respectent les règles nofollow et robots.txt . Le code source ouvert pour le traitement de l'ensemble de données de Common Crawl est accessible au public.
Histoire
Amazon Web Services a commencé à héberger les archives de Common Crawl via son programme Public Data Sets en 2012.
L'organisation a commencé à publier des fichiers de métadonnées et la sortie texte des robots d' exploration aux côtés des fichiers .arc en juillet de la même année. Les archives de Common Crawl n'avaient auparavant inclus que des fichiers .arc.
En décembre 2012, blekko a fait un don à Common Crawl des métadonnées du moteur de recherche blekko recueillies à partir des analyses qu'il a menées de février à octobre 2012. Les données données ont aidé Common Crawl "à améliorer son analyse tout en évitant le spam, la pornographie et l'influence d'un référencement excessif ".
En 2013, Common Crawl a commencé à utiliser le robot d'exploration Nutch d' Apache Software Foundation au lieu d'un robot d'exploration personnalisé. Common Crawl est passé de l'utilisation de fichiers .arc à des fichiers .warc avec son analyse de novembre 2013.
Une version filtrée de Common Crawl a été utilisée pour former le modèle de langage GPT-3 d' OpenAI , annoncé en 2020. L'un des défis de l'utilisation des données de Common Crawl est que malgré la grande quantité de données Web documentées, des éléments individuels de sites Web analysés pourraient être mieux documentés. Cela peut créer des difficultés lorsque vous essayez de diagnostiquer des problèmes dans des projets qui utilisent les données Common Crawl. Une solution proposée par Timnit Gebru, et al., en 2020 à un manque de documentation à l'échelle de l'industrie, est que chaque ensemble de données soit accompagné d'une fiche technique qui documente sa motivation, sa composition, son processus de collecte et les utilisations recommandées.
Historique des données Common Crawl
Les données suivantes ont été collectées à partir du blog officiel Common Crawl.
Date de l'exploration | Taille en Tio | Des milliards de pages | commentaires |
---|---|---|---|
avril 2021 | 320 | 3.1 | |
novembre 2018 | 220 | 2.6 | |
Octobre 2018 | 240 | 3.0 | |
Septembre 2018 | 220 | 2.8 | |
Août 2018 | - | - | |
juillet 2018 | 255 | 3,25 | |
juin 2018 | 235 | 3.05 | |
Mai 2018 | 215 | 2,75 | |
avril 2018 | 230 | 3.1 | |
Mars 2018 | 250 | 3.2 | |
Février 2018 | 270 | 3.4 | |
Janvier 2018 | 270 | 3.4 | |
Décembre 2017 | 240 | 2.9 | |
novembre 2017 | 260 | 3.2 | |
Octobre 2017 | 300 | 3,65 | |
Septembre 2017 | 250 | 3.01 | |
août 2017 | 280 | 3.28 | |
juillet 2017 | 240 | 2,89 | |
juin 2017 | 260 | 3.16 | |
Mai 2017 | 250 | 2,96 | |
avril 2017 | 250 | 2,94 | |
Mars 2017 | 250 | 3.07 | |
Février 2017 | 250 | 3.08 | |
janvier 2017 | 250 | 3.14 | |
décembre 2016 | - | 2,85 | |
Octobre 2016 | - | 3,25 | |
Septembre 2016 | - | 1,72 | |
Août 2016 | - | 1.61 | |
juillet 2016 | - | 1,73 | |
juin 2016 | - | 1.23 | |
Mai 2016 | - | 1,46 | |
avril 2016 | - | 1.33 | |
Février 2016 | - | 1,73 | |
novembre 2015 | 151 | 1,82 | |
Septembre 2015 | 106 | 1,32 | |
Août 2015 | 149 | 1,84 | |
Juillet 2015 | 145 | 1,81 | |
juin 2015 | 131 | 1,67 | |
Mai 2015 | 159 | 2.05 | |
avril 2015 | 168 | 2.11 | |
Mars 2015 | 124 | 1,64 | |
Février 2015 | 145 | 1.9 | |
Janvier 2015 | 139 | 1,82 | |
décembre 2014 | 160 | 2.08 | |
novembre 2014 | 135 | 1,95 | |
Octobre 2014 | 254 | 3.7 | |
Septembre 2014 | 220 | 2.8 | |
Août 2014 | 200 | 2.8 | |
juillet 2014 | 266 | 3.6 | |
avril 2014 | 183 | 2.6 | |
mars 2014 | 223 | 2.8 | Premier crawl de noix |
Janvier 2014 | 148 | 2.3 | Crawls effectués mensuellement |
Novembre 2013 | 102 | 2 | Données au format de fichier Warc |
juillet 2012 | - | - | Données au format de fichier Arc |
Janvier 2012 | - | - | Ensemble de données publiques d'Amazon Web Services |
novembre 2011 | 40 | 5 | Première disponibilité sur Amazon |
Prix Norvig de la science des données Web
En corroboration avec SURFsara , Common Crawl sponsorise le Norvig Web Data Science Award, un concours ouvert aux étudiants et chercheurs du Benelux . Le prix porte le nom de Peter Norvig, qui préside également le comité de sélection du prix.
Les références
Liens externes
- Common Crawl en Californie, États-Unis
- Common Crawl GitHub Repository avec le robot d'exploration, les bibliothèques et l'exemple de code
- Groupe de discussion sur l'exploration commune
- Blog d'exploration commune