sbi.re

Trouver des trucs sur internet

Auteurices : flupe, Lapinot
Date d'ajout : 12 Novembre 2021
Modifié le : 15 Novembre 2021
[source]

Parfois on cherche quelque chose dont on est sûr que c’est forcément quelque part sur internet, mais la question est de savoir où. Ici j’ai envie de répertorier quelques bons tuyaux pour trouver certaines choses.

Précautions de rigueur

Quand on télécharge des choses qui sont protégées par des droits de propriété intellectuelle on peut encourir des amendes plus ou moins salées suivant le type de contenu, le volume et le lieu de résidence. Heureusement, les cabinets d’avocat qui sont en charge de traquer les contravenants on pour objectif principal le profit. Ainsi ils visent à attraper avec des méthodes peu coûteuses un gros volume de pirates. Il suffit alors d’être légèrement mieux caché que la moyenne pour être laissé tranquille.

Une technique qui a une très bonne fiabilité 1 par rapport à son prix est la location d’ordinateur dans un datacenter (les fameux “clouds”, comme aws, ovh ou scaleway). En effet les datacenters sont en quelque sortes les eaux internationales d’internet. L’idée est alors d’utiliser cet ordinateur pour parler sur internet à votre place (ie de vous construire votre propre VPN personnel). Les sbires louent un tel serveur, pour l’utiliser comme passerelle, voir la documentation de notre proxy socks. Pour plus de détails sur internet et comment prendre son indépendances allez voir l’article dédié.

Sources générales de méta-informations

Quelques pages web similaire à celle-ci, de bonnes sources pour savoir ou et comment obtenir des informations.

  • Le subreddit r/piracy. En particulier le megathread qui liste tout un tas de choses et les guides.
  • torrentfreak. Un journal en ligne qui traite des news du monde des torrents et du téléchargement.
  • wikipedia. Ca peut paraître évident, mais wikipedia est une très bonne source pour trouver le nom de domaine actuel d’un site pirate.

Les sites incontournables

L’internet archive est une ONG américaine qui s’est donnée la mission gargantuesque d’archiver les contenus numériques. Leur projet le plus connu est la wayback machine, qui permet de retrouver certaines anciennes versions de sites. Ils ont également une très grosse archive de livres scannés, de très vieux logiciels et jeux, quelques collections d’enregistrement vidéos et audio.

Science

  • sci-hub. La source principale pour télécharger des pdfs d’articles qui ont été publiés dans des revues scientifiques. On peut directement rechercher par DOI (l’équivalent de l’ISBN pour les documents scientifiques).
  • arxiv, un dépot open-access orienté physique, maths, informatique, pionier du genre, opéré par l’université de Cornell. Attention, les articles y sont des preprints, c’est-à-dire qu’ils n’ont pas été évalués par des pairs.
  • hal, dépot open-access des institutions de recherche françaises.
  • zenodo, un dépot de jeux de données utilisés dans des articles, hébergé par le CERN.
  • DBLP, une base de donnée bibliographique pour l’informatique, opérée par l’université Schloss Dagstuhl.

Internet

  • RFC, tous les textes de standards RFC de l’IETF. C’est la description officielle de tout un tas de protocoles et formats de données.
  • peeringdb, un réseau social pour les opérateurs réseau! Il s’agit d’une base de donnée où les opérateurs réseaux d’internet peuvent mettre les endroits physiques où ils sont prêts à faire des connexions avec d’autres réseaux (des internet exchanges).
  • RIPE Atlas, une interface pour utiliser tout pleins de sondes réseau opérées par la RIPE (le boss de l’internet européen). Ca permet de voir comment sont connectés les réseaux, faire des tests de ping etc.
  • liste des NOG, les “groupes d’opérateurs réseaux”, souvent des associations informelles d’administrateurs réseaux qui opèrent des mailing lists.

Articles, pages, textes, livres (non scientifique)

  • Libgen. Similaire à sci-hub, mais plus orienté vers les livres. On y trouve des livres de cours, des fictions dans différentes langues. Souvent des pdfs ou un format de scan un peu moins connu: dejavu.
  • Project Gutenberg. Un projet collaboratif pour éditer en epub (le format pour les liseuses) les livres qui sont dans le domaine publique au USA.
  • Standard Ebooks, un projet bénévole qui sort de belles éditions numériques de livres dans le domaine publique.
  • Wayback Machine, la base de donné de pages web capturées par l’internet archive. Très utile pour tenter de récupérer une page qui n’est plus en ligne.
  • archive.md. C’est à strictement parler un service de capture de page semblable à la Wayback Machine de l’Internet Archive, mais qui est souvent utilisée pour faire des captures d’articles sur des journaux anglo-saxons comme le NYT, FT ou encore WSJ (par exemple ce dossier sur facebook).
  • Les outils webrecorder, en particulier archiveweb.page et replayweb.page qui permettent respectivement de faire des captures de sites dynamiques comme par exemple des pages facebook et de les “re-jouer”.

Voir également la liste de r/piracy.

Vidéos, films, séries

Trackers bittorrent publics (éviter the pirate bay, le contenu et les commentaires sont peu fiables):

Voir également la liste de r/piracy qui donne aussi des sites de streaming.

Interfaces alternatives pour des plateformes

Un certain nombre de plateformes sociales (pour ne pas dire toutes) ont des sites web qui sont lourds, remplis de mouchards javascript, utilisent des techniques de manipulation pour parvenir à leurs fins (nous faire rester et participer). Il existe des sites et des logiciels qui permettent de se connecter à ces plateformes, mais avec des interfaces au service de l’utilisateur.

/!\ Ces interfaces alternatives sont souvent combattues par les principaux intéressés, il arrive donc qu’elles ne marchent plus. Parfois elles sont mises à jour, parfois elles meurent.

  • teddit.net, interface web légère pour reddit
  • bibliogram.art, interface pour instagram; pratique pour naviguer sans compte; restrictions d’historique dues à insta
  • nitter.net, interface web pour twitter
  • tube.cadence.moe, interface web pour youtube
  • invidious, une autre interface web pour youtube, ça marche pas hyper bien dernièrement

TODO: liste d’appli android etc

Portails open-data

Un certain nombre d’institutions gouvernementales proposent des jeux de données accessible au public.

Cartographie

  • openstreetmap, l’interface officielle pour openstreetmap, le wikipedia des cartes.
  • facilmap, une interface web un peu plus sympathique pour openstreetmap.
  • geoportail, site web grand-public pour naviguer dans les données de l’IGN. Contient des vieilles cartes de france, le cadastre officiel, les batiments publics, etc. Voir également geoservices pour accéder aux jeux de données et aux serveurs de fond de carte de l’IGN.
  • submarinecablemap, une carte des fibres optiques sous-marines dans le monde.

tHe ScENe

La scene est le nom usuel de la communauté underground mondiale de piratage multimedia (le “warez”, pour “software”). Sans commandement central, il s’agit d’une galaxie de groupes dont vous avez peut-être déjà croisé les noms. Habituellement, on fait une distinction entre les groupes scene qui publient leurs production sur des serveurs centralisés privés et fuitent progressivement vers des serveurs de téléchargement plus ou moins publics, des groupes p2p qui publient sur le réseau bittorrent (soit en public soit dans des communautés privées). La raison pour laquelle il est important de savoir ça est que différents groupes ont différentes réputations, différents objectifs (certains publient des copies conformes de blu-ray à 70GiB, d’autres se spécialisent dans les anime, etc).

L’avantage de la scene est qu’il existe des bases de données publiques des releases: on les appelle des “pre-db”:

Ces bases permettent de:

  • savoir si un groupe a fait une release de ce qu’on cherche, le cas échéant il ne suffit plus que de trouver une source
  • savoir si un torrent ou autre provient bien d’une release légitime (sur les sites de torrents publiques il arrive souvent que les fichiers soient re-taggés, c’est-à-dire attribué à des mauvais groupes)

Random bizarre

  • supermicro, tout pleins de dossiers avec des drivers, outils et documents officiels de chez Supermicro
  1. Par “bonne fiabilité”, je veux dire que vous ne devriez pas être embêté même pour des volumes indécents de téléchargement. Là il faudrait commencer à redistribuer pour commencer à sortir du lot et se faire repérer.