syndic.php 9.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304
  1. <?php
  2. /***************************************************************************\
  3. * SPIP, Systeme de publication pour l'internet *
  4. * *
  5. * Copyright (c) 2001-2014 *
  6. * Arnaud Martin, Antoine Pitrou, Philippe Riviere, Emmanuel Saint-James *
  7. * *
  8. * Ce programme est un logiciel libre distribue sous licence GNU/GPL. *
  9. * Pour plus de details voir le fichier COPYING.txt ou l'aide en ligne. *
  10. \***************************************************************************/
  11. if (!defined("_ECRIRE_INC_VERSION")) return;
  12. include_spip('inc/syndic');
  13. ## valeurs modifiables dans mes_options
  14. ## attention il est tres mal vu de prendre une periode < 20 minutes
  15. if (!defined('_PERIODE_SYNDICATION'))
  16. define('_PERIODE_SYNDICATION', 2*60);
  17. if (!defined('_PERIODE_SYNDICATION_SUSPENDUE'))
  18. define('_PERIODE_SYNDICATION_SUSPENDUE', 24*60);
  19. // http://code.spip.net/@genie_syndic_dist
  20. function genie_syndic_dist($t) {
  21. return executer_une_syndication();
  22. }
  23. //
  24. // Effectuer la syndication d'un unique site,
  25. // retourne 0 si aucun a faire ou echec lors de la tentative
  26. //
  27. // http://code.spip.net/@executer_une_syndication
  28. function executer_une_syndication() {
  29. // On va tenter un site 'sus' ou 'off' de plus de 24h, et le passer en 'off'
  30. // s'il echoue
  31. $where = sql_in("syndication", array('sus','off')) . "
  32. AND NOT(" . sql_date_proche('date_syndic', (0 - _PERIODE_SYNDICATION_SUSPENDUE) , "MINUTE") . ')';
  33. $id_syndic = sql_getfetsel("id_syndic", "spip_syndic", $where, '', "date_syndic", "1");
  34. if ($id_syndic) {
  35. // inserer la tache dans la file, avec controle d'unicite
  36. job_queue_add('syndic_a_jour','syndic_a_jour',array($id_syndic),'genie/syndic',true);
  37. }
  38. // Et un site 'oui' de plus de 2 heures, qui passe en 'sus' s'il echoue
  39. $where = "syndication='oui'
  40. AND NOT(" . sql_date_proche('date_syndic', (0 - _PERIODE_SYNDICATION) , "MINUTE") . ')';
  41. $id_syndic = sql_getfetsel("id_syndic", "spip_syndic", $where, '', "date_syndic", "1");
  42. if ($id_syndic) {
  43. // inserer la tache dans la file, avec controle d'unicite
  44. job_queue_add('syndic_a_jour','syndic_a_jour',array($id_syndic),'genie/syndic',true);
  45. }
  46. return 0;
  47. }
  48. /**
  49. * Mettre a jour le site
  50. * Attention, cette fonction ne doit pas etre appellee simultanement
  51. * sur un meme site: un verrouillage a du etre pose en amont.
  52. * => elle doit toujours etre appelee par job_queue_add
  53. *
  54. * http://code.spip.net/@syndic_a_jour
  55. *
  56. * @param int $now_id_syndic
  57. * @return bool|string
  58. */
  59. function syndic_a_jour($now_id_syndic) {
  60. include_spip('inc/texte');
  61. $call = debug_backtrace();
  62. if ($call[1]['function']!=='queue_start_job')
  63. spip_log("syndic_a_jour doit etre appelee par JobQueue Cf. http://trac.rezo.net/trac/spip/changeset/10294",_LOG_ERREUR);
  64. $row = sql_fetsel("*", "spip_syndic", "id_syndic=".intval($now_id_syndic));
  65. if (!$row) return;
  66. $url_syndic = $row['url_syndic'];
  67. $url_site = $row['url_site'];
  68. if ($row['moderation'] == 'oui')
  69. $moderation = 'dispo'; // a valider
  70. else
  71. $moderation = 'publie'; // en ligne sans validation
  72. // determiner le statut a poser en cas d'echec : sus par defaut
  73. // off si le site est deja off, ou sus depuis trop longtemps
  74. $statut = 'sus';
  75. if (
  76. $row['statut']=='off'
  77. OR ($row['statut']=='sus' AND time()-strtotime($row['date_syndic'])>_PERIODE_SYNDICATION_SUSPENDUE*60)
  78. )
  79. $statut = 'off';
  80. sql_updateq('spip_syndic', array('syndication'=>$statut, 'date_syndic'=>date('Y-m-d H:i:s')), "id_syndic=".intval($now_id_syndic));
  81. // Aller chercher les donnees du RSS et les analyser
  82. include_spip('inc/distant');
  83. $rss = recuperer_page($url_syndic, true);
  84. if (!$rss)
  85. $articles = _T('sites:avis_echec_syndication_02');
  86. else
  87. $articles = analyser_backend($rss, $url_syndic);
  88. // Renvoyer l'erreur le cas echeant
  89. if (!is_array($articles)) return $articles;
  90. // Les enregistrer dans la base
  91. $faits = array();
  92. foreach ($articles as $data) {
  93. inserer_article_syndique ($data, $now_id_syndic, $moderation, $url_site, $url_syndic, $row['resume'], $row['documents'], $faits);
  94. }
  95. // moderation automatique des liens qui sont sortis du feed
  96. if (count($faits) > 0) {
  97. $faits = sql_in("id_syndic_article", $faits, 'NOT');
  98. if ($row['miroir'] == 'oui') {
  99. sql_update('spip_syndic_articles', array('statut'=>"'off'", 'maj'=>'maj'), "id_syndic=$now_id_syndic AND $faits");
  100. }
  101. // suppression apres 2 mois des liens qui sont sortis du feed
  102. if ($row['oubli'] == 'oui') {
  103. sql_delete('spip_syndic_articles', "id_syndic=$now_id_syndic AND NOT(" . sql_date_proche('maj', -2, 'MONTH') . ') AND NOT(' . sql_date_proche('date', -2, 'MONTH') . ") AND $faits");
  104. }
  105. }
  106. // Noter que la syndication est OK
  107. sql_updateq("spip_syndic", array("syndication" => 'oui'), "id_syndic=".intval($now_id_syndic));
  108. return false; # c'est bon
  109. }
  110. //
  111. // Insere un article syndique (renvoie true si l'article est nouveau)
  112. // en verifiant qu'on ne vient pas de l'ecrire avec
  113. // un autre item du meme feed qui aurait le meme link
  114. //
  115. // http://code.spip.net/@inserer_article_syndique
  116. function inserer_article_syndique ($data, $now_id_syndic, $statut, $url_site, $url_syndic, $resume, $documents, &$faits) {
  117. // Creer le lien s'il est nouveau - cle=(id_syndic,url)
  118. // On coupe a 255 caracteres pour eviter tout doublon
  119. // sur une URL de plus de 255 qui exloserait la base de donnees
  120. $le_lien = substr($data['url'], 0,255);
  121. // si true, un lien deja syndique arrivant par une autre source est ignore
  122. // par defaut [false], chaque source a sa liste de liens, eventuellement
  123. // les memes
  124. define('_SYNDICATION_URL_UNIQUE', false);
  125. // Si false, on ne met pas a jour un lien deja syndique avec ses nouvelles
  126. // donnees ; par defaut [true] : on met a jour si le contenu a change
  127. // Attention si on modifie a la main un article syndique, les modifs sont
  128. // ecrasees lors de la syndication suivante
  129. define('_SYNDICATION_CORRECTION', true);
  130. // Chercher les liens de meme cle
  131. // S'il y a plusieurs liens qui repondent, il faut choisir le plus proche
  132. // (ie meme titre et pas deja fait), le mettre a jour et ignorer les autres
  133. $n = 0;
  134. $s = sql_select("id_syndic_article,titre,id_syndic,statut", "spip_syndic_articles",
  135. "url=" . sql_quote($le_lien)
  136. . (_SYNDICATION_URL_UNIQUE
  137. ? ''
  138. : " AND id_syndic=$now_id_syndic")
  139. ." AND " . sql_in('id_syndic_article', $faits, 'NOT'), "", "maj DESC");
  140. while ($a = sql_fetch($s)) {
  141. $id = $a['id_syndic_article'];
  142. $id_syndic = $a['id_syndic'];
  143. if ($a['titre'] == $data['titre']) {
  144. $id_syndic_article = $id;
  145. break;
  146. }
  147. $n++;
  148. }
  149. // S'il y en avait qu'un, le prendre quel que soit le titre
  150. if ($n == 1)
  151. $id_syndic_article = $id;
  152. // Si l'article n'existe pas, on le cree
  153. elseif (!isset($id_syndic_article)) {
  154. $champs = array(
  155. 'id_syndic' => $now_id_syndic,
  156. 'url' => $le_lien,
  157. 'date' => date("Y-m-d H:i:s", $data['date'] ? $data['date'] : $data['lastbuilddate']),
  158. 'statut' => $statut
  159. );
  160. // Envoyer aux plugins
  161. $champs = pipeline('pre_insertion',
  162. array(
  163. 'args' => array(
  164. 'table' => 'spip_syndic_articles',
  165. ),
  166. 'data' => $champs
  167. )
  168. );
  169. $ajout = $id_syndic_article = sql_insertq('spip_syndic_articles', $champs);
  170. if (!$ajout) return;
  171. pipeline('post_insertion',
  172. array(
  173. 'args' => array(
  174. 'table' => 'spip_syndic_articles',
  175. 'id_objet' => $id_syndic_article
  176. ),
  177. 'data' => $champs
  178. )
  179. );
  180. }
  181. $faits[] = $id_syndic_article;
  182. // Si le lien n'est pas nouveau, plusieurs options :
  183. if (!$ajout) {
  184. // 1. Lien existant : on corrige ou pas ?
  185. if (!_SYNDICATION_CORRECTION) {
  186. return;
  187. }
  188. // 2. Le lien existait deja, lie a un autre spip_syndic
  189. if (_SYNDICATION_URL_UNIQUE AND $id_syndic != $now_id_syndic)
  190. return;
  191. }
  192. // Descriptif, en mode resume ou mode 'full text'
  193. // on prend en priorite data['descriptif'] si on est en mode resume,
  194. // et data['content'] si on est en mode "full syndication"
  195. if ($resume != 'non') {
  196. // mode "resume"
  197. $desc = strlen($data['descriptif']) ?
  198. $data['descriptif'] : $data['content'];
  199. $desc = couper(trim_more(textebrut($desc)), 300);
  200. } else {
  201. // mode "full syndication"
  202. // choisir le contenu pertinent
  203. // & refaire les liens relatifs
  204. $desc = strlen($data['content']) ?
  205. $data['content'] : $data['descriptif'];
  206. $desc = liens_absolus($desc, $url_syndic);
  207. }
  208. // tags & enclosures (preparer spip_syndic_articles.tags)
  209. $tags = ($data['enclosures']?$data['enclosures']:'');
  210. # eviter les doublons (cle = url+titre) et passer d'un tableau a une chaine
  211. if ($data['tags']) {
  212. $vus = array();
  213. foreach ($data['tags'] as $tag) {
  214. $cle = supprimer_tags($tag).extraire_attribut($tag,'href');
  215. $vus[$cle] = $tag;
  216. }
  217. $tags .= ($tags ? ', ' : '') . join(', ', $vus);
  218. }
  219. // Mise a jour du contenu (titre,auteurs,description,date?,source...)
  220. $vals = array(
  221. 'titre' => $data['titre'],
  222. 'lesauteurs' => $data['lesauteurs'],
  223. 'descriptif' => $desc,
  224. 'lang'=> substr($data['lang'],0,10),
  225. 'source' => substr($data['source'],0,255),
  226. 'url_source' => substr($data['url_source'],0,255),
  227. 'tags' => $tags);
  228. // Mettre a jour la date si lastbuilddate
  229. if ($data['lastbuilddate'])
  230. $vals['date']= date("Y-m-d H:i:s", $data['lastbuilddate']);
  231. sql_updateq('spip_syndic_articles', $vals, "id_syndic_article=$id_syndic_article");
  232. // Point d'entree post_syndication
  233. pipeline('post_syndication',
  234. array(
  235. 'args' => array(
  236. 'table' => 'spip_syndic_articles',
  237. 'id_objet' => $id_syndic_article,
  238. 'url' => $le_lien,
  239. 'id_syndic' => $now_id_syndic,
  240. 'ajout' => $ajout,
  241. ),
  242. 'data' => $data
  243. )
  244. );
  245. return $ajout;
  246. }
  247. /**
  248. * Nettoyer les contenus de flux qui utilisent des espaces insecables en debut
  249. * pour faire un retrait.
  250. * Peut etre sous la forme de l'entite &nbsp; ou en utf8 \xc2\xa0
  251. *
  252. * @param string $texte
  253. * @return string
  254. */
  255. function trim_more($texte){
  256. $texte = trim($texte);
  257. // chr(194)chr(160)
  258. $texte = preg_replace(",^(\s|(&nbsp;)|(\xc2\xa0))+,ums","",$texte);
  259. return $texte;
  260. }
  261. ?>