SeimiCrawler un cadre le système crawler agile et puissant en Java ========== Un cadre le système crawler agil, puissant, autonome et distribué. L'objectif de SeimiCrawler est de devenir le cadre le système crawler le plus utile et pratique dans le monde Java. # Introduction # SeimiCrawler est un cadre le système crawler agile, déployable de manière autonome et supportant le déploiement distribué en Java. L'objectif est de réduire au maximum le seuil d'entrée pour les nouveaux développeurs afin qu'ils puissent créer un système de爬虫 performant et utilisable, tout en améliorant l'efficacité de développement de ces systèmes. Dans l'univers de SeimiCrawler, la plupart des utilisateurs n'ont besoin de se concentrer que sur la logique d'achat. Tout le reste est géré par Seimi. L'architecture de SeimiCrawler a été inspirée par le cadre de爬虫 Python, Scrapy, et a fusionné les caractéristiques propres au langage Java ainsi que les caractéristiques de Spring. Il vise à rendre l'utilisation plus efficace et plus répandue de XPath pour analyser HTML en Chine, c'est pourquoi l'analyseur HTML par défaut de SeimiCrawler est [JsoupXpath](http://jsoupxpath.wanghaomiao.cn) (un projet d'extension indépendant, non inclus dans jsoup par défaut). Par défaut, toutes les opérations d'analyse et d'extraction de données HTML utilisent XPath (bien sûr, d'autres analyseurs peuvent également être choisis pour le traitement des données). En combinaison avec [SeimiAgent](https://github.com/zhegexiaohuozi/SeimiAgent), il résout parfaitement le problème de rendu de pages dynamiques complexes. Il supporte parfaitement SpringBoot, permettant une utilisation maximale de l'imagination et de la créativité. # Exigences # JDK1.8+ # Démarrage rapide # ## Dépendance Maven ## ``` cn.wanghaomiao SeimiCrawler Consultez la dernière version sur Github ``` [Liste des versions Github](https://github.com/zhegexiaohuozi/SeimiCrawler/releases) [Liste des versions Maven](http://search.maven.org/#search%7Cgav%7C1%7Cg%3A%22cn.wanghaomiao%22%20AND%20a%3A%22SeimiCrawler%22) ## Dans SpringBoot ## Créez un projet SpringBoot standard et ajoutez des règles de爬虫 dans le package `crawlers`, par exemple : ``` @Crawler(name = "basic") public class Basic extends BaseSeimiCrawler { @Override public String[] startUrls() { // Deux pour tester la déduplication return new String[]{"http://www.cnblogs.com/","http://www.cnblogs.com/"}; } @Override public void start(Response response) { JXDocument doc = response.document(); try { List

Champ JSON	Obligatoire	Type de champ	Description du champ
url	vrai	str	Adresse de la requête
callBack	vrai	str	Fonction de rappel pour le résultat de la requête
meta	faux	map	Données personnalisées optionnelles à passer au contexte suivant
params	faux	map	Paramètres de requête nécessaires pour la requête actuelle
stop	faux	bool	Si true, le thread de travail recevant la requête arrêtera son travail
maxReqCount	faux	int	Nombre maximal de retraitements autorisés si le traitement de la requête échoue