11.07.2015 Views

Université Claude Bernard Lyon 1 - Kora

Université Claude Bernard Lyon 1 - Kora

Université Claude Bernard Lyon 1 - Kora

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Basille, M. 2004. Le lynx, l'ENFA et le SIG. Thesis: 1-42. Université <strong>Claude</strong> <strong>Bernard</strong> <strong>Lyon</strong>.Keywords: 8FR/ENFA/Eurasian lynx/habitat/habitat model/habitat selection/lynx/Lynxlynx/Malme/presence/resource selectionAbstract: This work bases on a study on the habitat selection of a lynx population in the FrenchJura Mountains. Different types of presence data were used and analysed by means of theEcological Niche Factor Analysis and the Resource Selection Function, and results compared.


Université <strong>Claude</strong> <strong>Bernard</strong> <strong>Lyon</strong> 1Année universitaire 2003-2004DEAAnalyse et Modélisation des Systèmes BiologiquesEcole Doctorale E2M2Le lynx, l’ENFA et le SIGHistoire de la sélection de l’habitat chez le lynx.Présenté parMathieu BasilleDirecteur de recherche :Jean-Michel GAILLARDLaboratoire de Biométrie, Biologie EvolutiveUMR 5558Université <strong>Claude</strong> <strong>Bernard</strong>Bât. Grégor Mendel, 1 er étage43 bd du 11 Novembre69622 VILLEURBANNE CedexParrains scientifiques :Carlos BERNSTEINSylvain DOLEDECAnja JOBIN-MOLINARIEric MARBOUTIN


RemerciementsJe voudrais remercier Sébastien pour m'avoir guidé jusqu'ici et pour son sens critique très(trop ?) développé. Merci aussi à Aurélie et Christophe pour leur soutien permanent. A tousles trois, merci pour tous les bons moments passés en votre compagnie.Une pensée particulière à Jodie, compagnonne de galère (et de bonne humeur) mais qui m'alargement battu sur ce terrain. J'espère que nos routes continueront à se croiser longtempsmais que la tienne sera moins cabossée.Un grand merci à Daniel Chessel pour avoir su exciter ma curiosité statistique (qui nedemandait d'ailleurs que ça). Ses conseils et remarques m'ont été d'un grand secours.Merci bien sur à Dominique et Jean-Michel qui m'ont accueillis dans leur équipe et à EricMarboutin qui m'a donné l'opportunité de faire ce travail en me fournissant les données duRéseau Lynx (mieux vaut tard que jamais…).Merci aussi à toute l'équipe qui m'a fait passer une année très agréable.(et merci à tous mes relecteurs qui n’ont pas du s’amuser tout le temps…)Et bien sur un gros merci à Fannie qui m’a supporté tout ce temps…II


1. IntroductionLes relations entre les espèces et leur environnement sont au cœur de l'écologie et ont donnélieu à de nombreuses études depuis plusieurs décennies (revue dans Guisan & Zimmerman,2000). Les objectifs les plus courants de telles études s’inscrivent dans une logique deconservation de la biodiversité (mise en évidence des caractéristiques d’habitats favorables àl’espèce, présence de corridors d’habitats favorables entre patchs de présence de l’espèce) oubien de modélisation de l’espèce focale (estimation de la répartition potentielle, de l’effectifdes populations, ou de l’impact de changements de l'environnement) (Pearce & Ferrier, 2000).Ces problématiques, que ce soit la définition de l’habitat favorable ou la répartition potentiellede l’espèce, sont encore plus importantes pour les espèces rares et/ou menacées.Le lynx (Lynx lynx) est à ce titre une espèce particulièrement intéressante. Il s'agit d'uneespèce qui a été réintroduite en France dans les Vosges au cours des années 1980 et qui acolonisé naturellement le Jura et les Alpes français en provenance de la Suisse. L'effectif totaldes lynx en France est estimé entre 100 et 200 individus (E. Marboutin, comm. pers.) répartissur les trois massifs (pour moitié dans le Jura, un quart dans les Vosges et un quart dans lesAlpes). Le lynx est un félidé secret et rare qui est suivi par un réseau dédié à l'espèce enFrance. Ce réseau lynx, dont la création est liée à la mise en place d’une procédure decompensation financière des cas de prédation de lynx sur le cheptel domestique (Vandel,2001), a pour objectif de suivre l’évolution du statut de conservation de l’espèce encentralisant tous les indices de présence du lynx en France. Ces indices peuvent être de deuxnatures différentes. Les indices dits « domestiques » regroupent tous les constats d’attaquessur le cheptel domestique. Les indices dits « sauvages » regroupent alors tous les autresindices (observation visuelle, empreintes et pistes, reliefs alimentaires de proie sauvage, poilset cadavres de lynx). Dans la zone d'étude (le Jura), nous bénéficions également d'un suivitélémétrique effectué sur 9 individus entre 1994 et 1999. L’intérêt de ces données lynx estdouble : il s’agit d’une espèce rare et nous disposons de trois types d’indices recueillis selontrois plans d’échantillonnage différents ne présentant pas les mêmes biais (et qui peuvents’avérer complémentaires). De ce fait les données permettent une approche comparative afinde déterminer la performance des méthodes d'utilisation de l'habitat sur un tel modèle puis dedéfinir quel type d'indice (sauvages, domestiques ou télémétriques) décrit le mieux larépartition potentielle du lynx dans le Jura français. Le choix de l’échelle spatiale estimportant. Johnson (1980) définit un ordre de sélection hiérarchique à quatre niveaux. Le1


premier ordre définit la répartition géographique de l’espèce. Le deuxième ordre correspond àla sélection de l'habitat pour l'établissement des domaines vitaux d'une population. Lasélection des habitats particuliers au sein des domaines vitaux correspond au troisième ordreet la sélection des ressources de nourriture dans ces habitats définit la sélection de quatrièmeordre. Ce travail s'inscrit donc dans le cadre d'une sélection de l'habitat de second ordre ausens de Johnson.Les études de sélection de l’habitat ont entraîné le développement de nombreuses méthodesstatistiques d’estimation de l’habitat favorable. Historiquement, les premières méthodesutilisées étaient univariées (Manly et al., 2002). Celles-ci se basent sur une seule variableenvironnementale dont les modalités sont les différents types d'habitat. Elles comparentl’utilisation de chaque type d’habitat à sa disponibilité dans l’environnement. Ces méthodesne permettent cependant pas d’appréhender toute la complexité de l'environnement etrequièrent un nombre limité d'habitats pour que la puissance des tests reste acceptable(Calenge, 2002). Les méthodes univariées ont alors été remplacées par des méthodesmultivariées qui permettent de rendre compte du concept de niche écologique. Il s’agit, selonHutchinson (1957), d’un hyper-volume à n dimensions (qui définissent autant de variablesenvironnementales), dans lequel chaque point correspond à un état de l’environnement quipermet à une espèce de persister indéfiniment. La niche écologique définit l’utilisation del’habitat par une espèce donnée. Les méthodes multivariées les plus couramment utiliséessont les fonctions de sélection de ressource (RSF : Resource Selection Function) qui sont desfonctions proportionnelles à la probabilité d’utilisation d’une unité de ressource (Boyce &McDonald, 1999). Les RSF sont le plus souvent associées à des modèles linéaires généralisés(GLM : Generalized Linear Models) mais peuvent aussi être estimées par d’autres analysescomme l’analyse discriminante (Manly et al., 2002). Plus récemment, des méthodes baséessur les réseaux de neurones ont été mises au point (p.e. Manel et al., 1999a) et permettent deprendre en compte des relations non linéaires entre les variables. Enfin, une méthode plusrécente a été développée directement à partir du concept de niche écologique selonHutchinson : il s’agit de l’Analyse Factorielle de la Niche Ecologique (ENFA, Ecological-Niche Factor Analysis, Hirzel et al., 2002) qui effectue une analyse géométrique de larépartition de l’espèce par rapport à son environnement.Le choix d’une méthode statistique est en partie guidé par le plan d’expérience. Manly et al.(2002) définissent trois plans d’expérience selon le type de données recueillies : un plan2


d’expérience de disponibilité/présence de la population, un plan de présence/absence et enfinun plan de disponibilité/absence. La disponibilité représente l'ensemble de l'environnementaccessible à la population et peut être représentée par une grille où chaque cellule comporteles caractéristiques d'un ensemble de variables environnementales en ce point ; la présence etl'absence sont un sous-ensemble de la disponibilité où respectivement la présence ou l'absenced'individus de la population est avérée. Chacun de ces plans d’expérience peut être analysépar différentes méthodes statistiques qui posent certaines hypothèses particulières. Les plansd’expérience présence/absence sont les plus utilisés et sont particulièrement adaptés aux casoù la répartition de l'espèce est étudiée sur des régions discontinues (p.e. Manel et al., 1999b).Des outils d'évaluation variés ont été mis au point pour ce plan d’expérience (Boyce et al.,2002, Pearce & Ferrier, 2000). Les plans d'expérience disponibilité/présence sont en revanchemieux adaptés aux espèces rares pour lesquelles les absences sont peu documentées (Reuter etal., 2003). Cependant, les modèles basés sur ce type d’échantillonnage sont limités par desoutils d’évaluation peu développés en comparaison des plans d’expérience présence/absence(Boyce et al., 2002).Le travail sera articulé autour de trois axes. Il s'agit d’une part de faire le point sur lesméthodes utilisables pour un plan d’expérience disponibilité/présence. Les méthodesactuellement les plus courantes (ENFA et GLM) seront exposées et comparéesquantitativement afin de choisir la mieux adaptée à cette étude. Ces méthodes seront ajustéessur les données télémétriques du lynx afin de déterminer une carte de référence de répartitionpotentielle de la population que l'on considérera comme la carte « réelle » pour la suite del'analyse. En deuxième lieu, une place particulière sera accordée à la méthode de l'ENFA quin'a pas encore été très approfondie et qui sera dans ce but transposée dans le logiciel R. Letroisième axe sera l'utilisation des méthodes de sélection de l'habitat pour choisir l'indice deprésence le plus pertinent pour représenter la répartition du lynx parmi les différents typesd’indices. Pour cela la méthode la plus efficace utilisée sur les localisations télémétriques seraajustée successivement sur les indices sauvages et sur les indices domestiques, puis sur lesdeux types d'indices ensemble. Une comparaison des cartes ainsi obtenues avec la carte derépartition potentielle « réelle » permettra alors de faire le choix.3


2. Matériel et méthodes2.1. Données utilisées et zone d'étudeVariables environnementales. La répartition du lynx en Europe est liée à la présence de forêts(Schadt et al., 2002a). Les domaines vitaux de lynx peuvent contenir des zones d'habitatouvert (bien que rarement utilisées) ; les principales routes et rivières ainsi que les zonesd'habitation et les hautes chaînes de montagne agissent comme des barrières pourl'établissement des domaines vitaux (Schadt et al., 2002a). Cain et al. (2003) relèvent quechez le lynx roux (Lynx rufus) les routes provoquent une augmentation de la mortalité et unefragmentation des paysages néfaste. Le lynx roux (en particulier les femelles) est égalementsensible aux zones urbanisées et essaie de les éviter pour établir son domaine vital (Riley etal., 2003). Les proies principales des lynx sont les chevreuils (Capreolus capreolus) et leschamois (Rupicapra rupicapra) (Molinari-Jobin et al., 2004). Ces connaissances préalablessur l'espèce permettent de définir les variables qui pourraient influencer la répartition spatialedu lynx. Celles-ci sont générées à partir des bases de données cartographiques dont jedisposais : Corine Land Cover pour l'occupation du sol, IGN (Institut Géographique National)pour les réseaux routier, ferroviaire et hydrique, et IFN (Inventaire Forestier National) pour larépartition des forêts. Je n’ai pas obtenu les cartes de répartition et de densités des espèces deproies du lynx ainsi que la carte d'altitude de la zone. Treize variables environnementales ontpu être renseignées (Tab. I), représentant les distances à certains éléments marquants dupaysage (fleuves, routes principales, zones d’habitation ou artificielles) ou des densitésd’habitats dans un rayon de 5 km (p.e. densité de forêts, d’habitats ouverts ou naturels).Tableau I : liste des variables environnementales utiliséesNom de lavariable Signification OriginepForets Pourcentage de cellules de forêts dans un rayon de 5 km Corine Land CoverpNat Pourcentage de cellules de milieu naturel dans un rayon de 5 km Corine Land CoverpOuver Pourcentage de cellules de milieu ouvert dans un rayon de 5 km Corine Land CoverdArtif Distance aux milieux artificiels Corine Land CoverdUrb Distance au tissu urbain Corine Land CoverpIFN Pourcentage de cellules de forêts dans un rayon de 5 km IFNpHydro Densité de rivières dans un rayon de 5 km IGNdFleuv Distance aux fleuves IGNdFer Distance aux chemins de fer IGNdRoad1 Distance aux autoroutes IGNdRoad2 Distance aux routes rapides IGNpRoad3 Densité de routes régionales dans un rayon de 5 km IGNpRoad4 Densité de routes locales dans un rayon de 5 km IGN4


Zone et période d'étude. Du 1 er décembre 1994 au 16 mai 1999, dans le quart sud-ouest duJura, neuf lynx (trois mâles adultes, un mâle sub-adulte et cinq femelles adultes) capturés dansle milieu naturel ont été suivis par radio-pistage dans le cadre d’une étude de l'Office Nationalde la Chasse et de la Faune Sauvage (ONCFS) visant à comprendre le comportement de lynxprédateur du cheptel domestique (Vandel, 2001). Les données de télémétrie servant deréférence pour notre étude, la période d’étude est alors celle établie par la télémétrie. La zoneconsidérée disponible pour les lynx entoure la zone réellement occupée par les localisationsde radio-pistage et est limitée à l’ouest par une autoroute (liaison A42-A40-A39), au sud parle Rhône, au nord par une ligne de chemin de fer et à l’est par la frontière entre la France et laSuisse puisque nous n’avons pas accès aux données de terrain suisses. La carte obtenuerecouvre près de 7000 km² (Fig. 1a).Données disponibles. Le suivi de radio-pistage permettant de définir les localisations des lynxpar triangulation était quotidien du printemps jusqu’à l’automne autour des régions d’élevage.Dans les secteurs où les troupeaux étaient peu ou pas présents, le suivi était plus irrégulier(Vandel, 2001). Sur la période d’étude, 3746 localisations ont été effectuées. Pour 3230d’entre elles (86%), la localisation est effectuée à 25 hectares près (500 m × 500 m) ou mieux.Les données issues du réseau lynx sont caractérisées par une date, une localisationgéographique (coordonnées Lambert II précises à 500m près), une catégorie d’indices deprésence, une fiabilité et éventuellement des éléments permettant de montrer la présence dea) b)Figure 1 : Localisation a) de la zone d’étude et b) des indices de présence. Les carrés verts indiquentles localisations télémétriques, les carrés bleus les localisations des indices sauvages et les carrésrouges les localisations des indices domestiques.5


lynx juvéniles (Vandel, 2001). Sept catégories d’indices de présence définissent les indices« sauvages » (observation visuelle, empreintes et pistes, reliefs alimentaires de proie sauvage,excréments, poils et cadavre du lynx) ou « domestiques » (reliefs alimentaires de proiedomestique). Cinq niveaux de fiabilité (confirmé, probable, douteux, non-confirmé et nonidentifiable)sont ensuite définis selon une classification précise basée sur l’observateur(correspondant du réseau lynx ou non), les témoignages (présence ou non d’incohérences) etles preuves collectées. Seuls les indices confirmés et probables seront conservés pourl'analyse (ce sont les indices habituellement utilisés par l'ONCFS pour étudier la répartition dulynx). Sur la zone d'étude, les indices de fiabilité douteuse ou non identifiable représententglobalement moins de 5% des indices.Les données utilisées représentent les points de présence de la population. Pour tous les autrespoints de l'environnement, il est impossible de déterminer si l'absence de données est due àune lacune de prospection ou à une absence réelle de la population (l'habitat n'étant pasfavorable ou bien la population ne l'ayant pas encore colonisé, Hirzel et al., 2002). Tous cespoints sont alors considérés comme des points de disponibilité de l'environnement pour lapopulation.Les trois types d’indices disponibles présentent trois plans d’échantillonnage différents (Tab.II). Celui des données de radio-pistage est le moins biaisé et les localisations télémétriquesseront alors utilisées pour établir la carte de référence. Les localisations sont régulières etsuffisamment précises. Elles sont toutefois plus abondantes autour des secteurs où lestroupeaux sont présents. Il ne s'agit en outre pas d'un suivi continu (avec localisations toutesles secondes par exemple) et de ce fait, les habitats peu utilisés peuvent être absents deslocalisations effectuées (les lieux où l'animal vient boire par exemple). Les localisationstélémétriques présentent surtout l'avantage de ne pas dépendre de l'accessibilité du milieupour l'homme. A contrario, les indices sauvages ne peuvent être relevés qu’aux endroitsTableau II : récapitulatif des caractéristiques des indices de présence utilisés.Type N Avantages BiaisTélémétrie 756 Précision. Suivi régulierdes lynx.Suivi discontinu : perte des habitats rares.Suivi plus soutenu autour des troupeaux.Indicessauvages223 Répartition sur tout ledomaine vital des lynx.Limité par l'accessibilité du milieu à l'homme.Relâchement dans les zones où les indicesIndicesdomestiques286 Suivi quasisystématique.domestiques sont abondants.Limité dans les zones avec présence decheptel domestique.6


parcourus par des hommes. De plus, une grande partie de ces indices est perdue par le fait duhasard de la prospection et une autre par le relâchement de la prospection dans les zones oùles attaques sur le cheptel (et donc les indices domestiques) sont abondantes (Marboutin,comm. pers.). De leur côté, les indices domestiques ne peuvent être signalés que dans leszones de présence du cheptel domestique. En revanche, le relevé des indices domestiques estsystématique (ou presque), les éleveurs déclarant automatiquement leurs dommages.Les données télémétriques ne sont pas indépendantes (Swihart & Slade, 1985). Otis & White(1999) soulignent que l’auto-corrélation des localisations n'est pas trop grave si l’intervalle detemps entre deux localisations successives est suffisant pour que l’animal traverse sondomaine vital. De plus, De Solla et al. (1999) défendent l'utilisation de toutes les localisations,même à des intervalles de temps très courts, en démontrant que les estimations de domainesvitaux sont meilleures avec toutes les localisations qu'avec un sous-échantillonage de cellesci.Les localisations des lynx utilisées dans ce travail étant effectuées au mieuxquotidiennement, toutes les localisations seront conservées et l'auto-corrélation seraconsidérée comme négligeable.Les domaines vitaux des lynx dans le Jura Suisse sont estimés à 168 km² pour les femelles et264 km² pour les mâles (Schadt et al., 2002a). En considérant le chevauchement desdomaines vitaux, la densité de lynx dans le Jura Suisse est estimée à environ 1 adulte pour100 km², soit environ 1.5 lynx pour 100km² en tenant compte des jeunes. La zone d'étude, quicouvre près de 7000 km², peut donc potentiellement accueillir jusqu'à 70 ou 100 lynx. Lenombre de lynx (N=9) suivis par télémétrie est supposé suffisant pour être représentatif de lapopulation jurassienne. L'utilisation de l'habitat de ces neuf lynx peut donc être généralisée àla population entière sur toute la zone d’étude.Cartes de présence. On dénombre sur la zone d’étude, entre décembre 1994 et mai 1999,3746 localisations télémétriques (dont 3230 d’une précision inférieure à 500 m), 638 indicessauvages et 521 indices domestiques. Etant donnée la précision des localisations de radiopistageet des indices du réseau lynx, la zone est découpée en cellules de 500 m de côté.L'unité de ressource de référence est alors la cellule de 500 m × 500 m (soit 0.25 km²). Lacarte est découpée en 27514 cellules. Sur les cartes d’une précision de 500 m, cela correspondà 756 cellules occupées par des localisations télémétriques, 212 occupées par des indicessauvages et 279 occupées par des indices domestiques (Fig. 1b).7


2.2. Méthodes d'analyse2.2.1. L’Analyse Factorielle de la Niche Ecologique (Hirzel et al., 2002)Principe. L’ENFA est une analyse géométrique qui a été mise au point pour traiter des jeuxde données de type disponibilité/présence (Hirzel et al., 2002) et qui est de ce faitparticulièrement adaptée aux espèces rares ou secrètes dont les absences sont peudocumentées. L'ENFA reprend le concept de niche à n-dimensions, dans le cadre des idéesémises par Perrin (1984) au cours de sa thèse et reprises par Hausser (1995) dans son atlas desmammifères de Suisse. Selon ces deux auteurs, deux types de spécialisation d'une populationpeuvent être définis : la marginalité (M-spécialisation de Perrin), c'est-à-dire la spécialisationpar éloignement de la moyenne (Fig. 2a), et la spécialisation proprement-dite (Sspécialisationde Perrin), liée à la variance, qui correspond à la spécialisation par étroitesse deniche (Fig. 2b). Chaque cellule de l'environnement est représentée par un point dans l'espacedes variables environnementales. A partir des nuages de points disponibles et de points deprésence, l’ENFA extrait des facteurs explicatifs qui sont tous orthogonaux entre eux, à lamanière d’une ACP (Analyse en Composantes Principales). Les contraintes d’extraction sontcependant très différentes. Le premier facteur extrait par l’ENFA est un axe de marginalité quipasse par le centre de gravité du nuage de points disponibles (l'habitat moyen disponible) etcelui du nuage de points de présence (l'habitat moyen utilisé) (Fig. 3). La marginalité est alorsdéfinie comme la norme du vecteur qui relie les centres de gravité des deux nuages. Il s'agitdonc d'une mesure de la distance entre les conditions d'habitat moyennes dansl'environnement disponible et les conditions d'habitat moyennes utilisées par la population(Dolédec et al., 2000). Les facteurs suivants expriment la spécialisation de la population,c'est-à-dire l'étroitesse de niche dans l'environnement disponible, en maximisant le rapport dela variance globale sur la variance du nuage de présence. Le premier axe de spécialisationdéfinit ainsi l’axe (orthogonal à l’axe de marginalité) sur lequel la niche est le plus facilementa) b)Figure 2 : Illustration a) de la marginalité et b) de la spécialisation sur un seul axe. En bleu, ladistribution gobale de la variable environnementale, en orange, la distribution de l'espèce pour cettevariable. La marginalisation et la spécialisation de l'ENFA sont une généralisation à n-dimensions deces concepts.8


Figure 3 : illustration géométrique de l'ENFA. Les ronds bleus représentent les points dedisponibilité, les ronds orange, les points de présence. L'axe de marginalité m passe par les centres degravité G Z et G S du nuage de disponibilité et de présence. Le premier axe de spécialisation s maximisele rapport de variance entre le nuage global et le nuage de présence.mise en évidence (Fig. 3). Les différents facteurs de spécialisation sont alors extraitssuccessivement de la même manière jusqu’à épuisement des variables explicatives. Hirzel etal. (2002) définissent alors la spécialisation comme la moyenne des racines des valeurspropres associées à chaque axe de spécialisation. Celles-ci diminuent généralement dès ledeuxième axe de spécialisation, d’autant plus vite que la structure de spécialisation estmarquée. Seuls les facteurs de spécialisation considérés significatifs (à partir du graphe desvaleurs propres) sont ensuite conservés pour le reste de l’analyse. Le détail des procéduresmathématiques est donné en Annexe 1.Une fois les facteurs de l’ENFA extraits, il est possible d’établir un indice de qualité del’habitat pour la population (HSI : Habitat Suitability Index) basé sur la position de chaquepoint d'habitat disponible par rapport à la niche dans le nouvel espace créé par l’ENFA(Hirzel et al., 2002). Sur chaque facteur de l’ENFA, une valeur entre 0 et 1 est attribuée à laposition de chaque point par rapport à la distribution de la population ; l’indice vaut 1 si laposition du point est au centre de la distribution de la population, diminue à mesure que lepoint s’éloigne du centre et vaut 0 lorsque sa position est à l’extérieur de la distribution (Fig.4). La valeur de qualité de l’habitat pour chaque point est la moyenne de ces indices sur tousles facteurs retenus par l’ENFA.9


a)Ub)Si s est supérieur à la médiane de la distribution, A est le nombre decellules avec une valeur supérieure à s. Si s est inférieure à lamédiane, A est le nombre de cellules avec une valeur inférieure à s.Sur chaque axe de l’ENFA, la valeur d’habitat vaut :Ai = 2 × A / ULa moyenne est calculée sur tous les axes de l’ENFA :I = moyenne ( i )sFigure 4 : Calcul de l'indice de qualité de l'habitat I. Illustration sur un seul axe a) avec la distributionde la population en orange et méthode de calcul b).L’ENFA selon Hirzel et al. (2002) : limites et améliorations. L’ENFA a été implémentée dansle logiciel Biomapper 1 , un logiciel « clé en mains » qui fournit des cartes de qualité del'habitat sans que l'on ait accès aux procédures sous-jacentes. J'ai implémenté les procéduresdans le logiciel R 2 . J'ai comparé dans un premier temps les résultats obtenus avec R à ceux deBiomapper puis j'ai programmé deux fonctions supplémentaires de significativité de la nicheet de représentation bivariée de l'ENFA. Toutes les fonctions implémentées dans R sontprésentées en Annexe 2.Il s’agit de savoir si le facteur de marginalité puis les facteurs de spécialisation sontsignificatifs. Dans le cas contraire, cela signifierait que la population ne présente pas despécialisation proprement dite. Pour cela, j'ai implémenté un test de Monte-Carlo qui effectuemille tirages aléatoires d’un nombre de points égal au nombre de points de présence du jeu dedonnées initial. La marginalité et la valeur propre associée au premier axe de spécialisationsont calculées pour chaque tirage aléatoire. Les valeurs de marginalité et de spécialisationobservées sont alors comparées à la distribution des mille répétitions pour en attester lasignificativité.Le problème est toutefois plus complexe pour la spécialisation. Hirzel et al. (2002) relèventque toute la marginalité est exprimée dans le premier facteur mais que celui-ci explique déjàune part de spécialisation. Celle-ci est en effet mécaniquement liée à la marginalité : plus unepopulation est marginale (et donc en marge du nuage de points), plus la variance de celle-cisera faible. Il en résulte une valeur de spécialisation qui augmente avec la valeur demarginalité (Dolédec et al., 2000). Une valeur de spécialisation qui semble significative neveut donc pas forcément dire que la spécialisation est significative par elle-même. Il est doncnécessaire d’approfondir le lien entre la marginalité et le premier facteur de spécialisation.1 Biomapper 3.1 : Hirzel A., Hausser J. & Perrin N., Univ. de Lausanne, Suisse. http://www2.unil.ch/biomapper/2 R 1.8.1 : R Foundation for Statistical Computing, Vienne, Autriche. http://www.R-project.org10


Dans l'attente d'analyses en cours sur ce lien, une relation linéaire sera testée ici. Laspécialisation sera considérée comme significative si elle sort de l’intervalle de confiancepour une marginalité fixée à la valeur observée.J'ai aussi ajouté une représentation bivariée (biplot) de l'ENFA, c'est-à-dire une doubleprojection des points et des variables dans le nouvel espace engendré par l’ENFA. Laprojection des points dans le plan des deux premiers facteurs (ou si besoin des facteurssuivants) permet une visualisation de la position de la niche par rapport à l’environnementalors que la projection des différentes variables montre l’importance relative de celles-ci dansla définition de la marginalité et de la spécialisation.2.2.2. Les Fonctions de Sélection de ressources (RSF)GLM. Une fonction de sélection de ressources (RSF) est n'importe quelle fonctionproportionnelle à la probabilité d'utilisation d'une unité de ressource (Boyce & McDonald,1999). Les modèles linéaires généralisés (GLM) sont le plus souvent utilisés pour prédire laRSF. Il s'agit d'une extension de la régression multiple qui permet d'intégrer des variables deréponses non-normales (p.e. binomiale ou exponentielle).On modélise l'utilisation de l'habitat par rapport à sa disponibilité. Le nombre d'utilisations dechaque unité de ressource est considéré comme un processus aléatoire et suit une loi dePoisson. La réponse peut être ajustée selon l'équation (Manly et al., 2002) :w(x) = exp(β0 + β1x1 + β2x2 + β3x3…βpxp) (éq. 1)où w(x) est proportionnel à l’utilisation de l’habitat, les xp sont les variablesenvironnementales et les βp les coefficients du modèle.Pour estimer les coefficients βp de l'équation (1), Manly et al. (2002) et Ciarniello et al.(2003) proposent d'ajuster un modèle logistique aux données de présence (représentées pardes 1) et de disponibilité (représentées par des 0). Pour favoriser la robustesse du GLM, untirage aléatoire d'autant de points qu'il y a de présences est effectué au préalable dans lesdonnées de disponibilité. La RSF est ensuite redistribuée entre 0 et 1 pour obtenir un indice dequalité d'habitat (en utilisant l'équation [x-min(x)]/[max(x)-min(x)] où x est la RSF). Pourchaque GLM, les effets des axes choisis sont testés ainsi que les interactions doubles entrechaque paire d’axes. Les interactions puis les effets simples non significatifs sont retirés pas àpas du modèle saturé pour ne garder que les effets significatifs. Ce modèle sera désigné par lasuite sous le nom GLM.11


GLM-ENFA. En s'appuyant sur un plan d'expérience présence/absence, il est possible d'ajusterdirectement un modèle logistique sur les données selon l'équation (Manly et al., 2002) :exp(β0+ β1x1+β2x2+ β3x3...βpxp)w (x) =(éq. 2)1+exp(β + β x + β x + β x ...β x )0112où w(x) représente l’utilisation de l’habitat, les xp sont les variables environnementales et lesβp sont les coefficients du modèle. Le lien logit permet alors d'estimer une RSF qui seracomprise entre 0 et 1 et qui sera donc utilisée directement comme indice de qualité del'habitat.A partir des données de disponibilité, la difficulté est de définir les absences pour utiliser unerégression logistique : à cause du manque d'informations dans les cellules de disponibilité, onne peut définir que des pseudo-absences. Le tirage aléatoire de points non utilisés pour définirles pseudo-absences provoque des biais dus aux fausses absences puisque l'on ne sait pas siune cellule est réellement utilisée ou non. La solution préconisée par Engler et al. (2004) estd'utiliser l'ENFA pour définir les pseudo-absences : on les choisit parmi les cellules quiprésentent une valeur d'habitat inférieure à la plus faible valeur d'habitat des cellules deprésences. Un tirage aléatoire d'autant d'absences qu'il y a de présences est effectué parmi lespseudo-absences. Ce modèle sera désigné sous le nom GLM-ENFA.2.3. Mise en œuvre des méthodes2.3.1. Performance des méthodesLes trois méthodes (ENFA, GLM, GLM-ENFA) sont ajustées sur les données de télémétrie.La comparaison porte sur l’utilisation des méthodes, le but étant de se placer dans lesmeilleures conditions pour pouvoir les tester. L’ENFA est une méthode d’extraction d’axes etn’est de ce fait pas affectée par la corrélation des variables qui seront donc toutes intégréesdans le modèle. La significativité de la marginalité et de la spécialisation est testée avant decalculer un indice de qualité de l'habitat. Pour les deux GLM, l'idéal est d'utiliser des variablescomplètement indépendantes dans le modèle. Pour cela, les axes principaux d'une ACP(Analyse en Composantes Principales) sur les variables environnementales sont utilisés. Ilserait toutefois trop complexe d’intégrer tous les axes. Deux procédures sont donc suiviessuccessivement pour chaque GLM : la première utilise les axes qui supportent au moins 50%de la variance du nuage de points, la deuxième utilise les axes qui supportent au moins 75%de la variance.233pp12


L'indice de qualité de l'habitat permet la comparaison des modèles. Cet indice est utilisé pourétablir la carte de répartition potentielle de la population. Pour cela un seuil est défini lorsquel'utilisation des cellules d'une qualité donnée dépasse ce qui est attendu (c'est-à-dire lafréquence de cellules disponibles pour cette classe de qualité). Sur la carte de répartitionpotentielle, toutes les cellules dont la valeur d'habitat est supérieure au seuil serontconsidérées comme des présences et toutes celles dont la valeur d'habitat est inférieure auseuil seront considérées comme des absences.Une fois les trois méthodes ajustées, deux indices permettent de les comparer. Le premier estproposé par Boyce et al. (2002). Ils partent du principe qu'un bon modèle doit prédire uneutilisation de plus en plus forte par rapport à ce qui est attendu, à mesure que la qualité del'habitat est élevée. Pour tester ce principe, l'indice de qualité obtenu est divisé en 10 classeségales. Pour chaque classe on calcule l'utilisation relative, donnée par le rapport du nombre decellules utilisées sur le nombre de cellules disponibles. Un test de corrélation de Spearmanentre l'utilisation relative et le rang des classes d'indices donne alors une bonne approximationdu pouvoir de discrimination du modèle. Pour obtenir une mesure plus robuste du pouvoir deprédiction du modèle, l'utilisation de données indépendantes (c'est-à-dire non utilisées pourajuster le modèle) est fortement recommandée (Fielding & Bell, 1997, Pearce & Ferrier,2000). Les données indépendantes sont obtenues par validation croisée, une approche moinsrigoureuse que celle consistant à utiliser des données réellement indépendantes (Pearce &Ferrier , 2000) mais très utile pour des jeux de données limités en taille. Le jeu de données estalors partitionné en 5 de manière aléatoire. Chaque partition a successivement le rôle de jeude données test, alors que tout le reste est utilisé pour ajuster le modèle. Le test de corrélationde Boyce et al. (2002) est répété sur chaque partition test et la moyenne de la corrélation estretenue.La deuxième méthode est celle de l'aire minimale prédite (MPA : Minimal Predicted Area)proposée par Engler et al. (2004). Le principe est qu'un bon modèle basé sur unéchantillonnage de type disponibilité/présence devrait prédire une aire minimale de présenceaussi faible que possible (par le principe de parcimonie), l'aire minimale incluant unmaximum des présences initiales de la population (par exemple 90%). Pour cela, il suffit decompter le nombre de cellules qui ont une valeur d'habitat supérieure au seuil correspondantau quantile 10% des valeurs d'habitat des cellules de présence initiales.13


2.3.2. Choix du meilleur indiceLa méthode désignée comme étant la meilleure à partir des données de télémétrie sera ensuiteajustée sur les autres indices. Seront utilisés successivement : les indices sauvages, les indicesdomestiques et l'ensemble des indices.Les comparaisons entre cartes se basent sur la carte de répartition potentielle de la populationconsidérée comme réelle, à savoir la carte de répartition potentielle établie sur la télémétrie.Les méthodes les plus répandues utilisent les matrices de confusion, de type :Réel+ -Prédit+ a b- c dPour les cartes de répartition potentielle, les + représentent une présence et les – une absence.On peut ensuite définir la sensibilité et la spécificité de la carte (Fielding & Bell, 1997). Lasensibilité est la probabilité qu'une vraie présence soit correctement classifiée par le modèle,soit a / (a + c). La spécificité est l'inverse, c'est-à-dire la probabilité qu'une vraie absence soitcorrectement classifiée, soit d / (b + d).Les présences et absences de la population sont définies par un seuil. Cependant, ce choixinfluence fortement les fréquences de prédictions correctes et incorrectes et biaise de fait lesprédictions (Pearce & Ferrier, 2000). Pour éviter ces problèmes liés à la dichotomisation d'unevariable continue, il est possible d'utiliser des méthodes indépendantes du seuil, notamment laméthode de ROC-plot (Fielding & Bell, 1997). Cette méthode, issue de la littérature médicale,présente un graphique avec la fréquence de vrais positifs (sensibilité) en ordonnées et lafréquence de faux positifs (1-spécificité) en abscisse pour différentes valeurs de seuil choisies.L'aire sous la courbe (AUC : Area Under the Curve) est alors un bon indice du pouvoir dediscrimination du modèle. L'aire sous la courbe peut prendre des valeurs comprises entre 0.5(valeur attendue par l'effet du hasard) et 1 (la carte prédite correspond exactement à la carteréelle). En fait, il a été montré que l'aire sous la courbe correspond à la probabilité que lemodèle distingue correctement deux observations, une présence et une absence (l'aire sous lacourbe est alors le pourcentage de fois où l'observation de présence sera créditée d'une valeurd'habitat – et donc d'une probabilité de présence – supérieure à l'observation d'absence)(Fielding & Bell, 1997, Pearce & Ferrier, 2000). Pearce & Ferrier (2000) établissent trois14


catégories selon les valeurs d'aires obtenues : entre 0.5 et 0.7, les modèles ont une faiblecapacité de discrimination, entre 0.7 et 0.9, la capacité de discrimination est correcte pour laplupart des utilisations, et au delà de 0.9, la capacité de discrimination est très élevé. Laméthode du ROC-plot permet de choisir le modèle le plus proche de la réalité qui est celui quiprésente la plus grande valeur d'AUC.Le ROC-plot est effectué sur la méthode la plus performante, avec des types d'indicesdifférents à chaque fois : les indices sauvages uniquement, les indices domestiquesuniquement puis tous les indices ensemble. Une corrélation entre la qualité de l'habitat donnéepar la télémétrie et celles données par les autres indices viendra confirmer ce résultat.15


3. Résultats3.1. Performance des méthodes3.1.1. Données télémétriquesDans un premier temps, toutes les variables de distance ont été transformées par la fonctionracine afin de satisfaire aux critères de normalité. Il est utile de regarder en préliminairesl'utilisation de l'habitat pour chaque variable (Fig. 5). On peut voir que certaines variablessemblent avoir une influence sur la marginalité de l’espèce (p.e. dFer, dFleuv) et d'autres surla spécialisation de l’espèce (p.e. dRoad1, pHydro).0.0 0.1 0.2 0.3 0.4 0.5pForets0.0 0.1 0.2 0.3 0.4pIFN0.0 0.2 0.4 0.6 0.8pHydro0.0 0.2 0.4 0.6pNat0.0 0.2 0.4 0.6-2 -1 0 1 2pOuver0.0 0.2 0.4 0.6-2 -1 0 1 2pRoad30.0 0.2 0.4 0.6-2 -1 0 1 2 3 4pRoad40.0 0.1 0.2 0.3 0.4-2 -1 0 1 2dArtif0.0 0.1 0.2 0.3 0.4-2 -1 0 1 2dFer0.0 0.2 0.4-2 -1 0 1 2 3 4 5dFleuv0.0 0.2 0.4 0.6-3 -2 -1 0 1 2 3dRoad10.0 0.1 0.2 0.3 0.4 0.5-2 -1 0 1 2 3dRoad2-2 -1 0 1 2dUrb-2 -1 0 1 2-2 -1 0 1 2-1 0 1 20.0 0.1 0.2 0.3 0.4-2 -1 0 1 2 3Figure 5 : Histogrammes des cellules disponibles (en bleu) et utilisées (en orange) par variable. VoirTab. I p.4 pour la signification des variables.16


3.1.2. Ajustement de l’ENFALe graphe des valeurs propres de spécialisation présente deux valeurs qui se démarquent desautres (Fig. 6). On conservera donc les deux premiers axes de spécialisation.86420Figure 6 : graphe des valeurs propres de spécialisation de l'ENFAFréquence0 100 200 300 400MarginalitéFréquence0 100 200 300 400Spécialisation0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.72 4 6 8Modèle linéaireNormal Q-Q PlotSpécialisation2 4 6 8Sample Quantiles-0.2 0.0 0.2 0.40.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7-3 -2 -1 0 1 2 3MarginalitéTheoretic al QuantilesModèle log-linéaireNormal Q-Q PlotSpécialisation0.5 1.0 1.5 2.0Sample Quantiles-0.1 0.0 0.1 0.2 0.30.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7-3 -2 -1 0 1 2 3MarginalitéTheoretic al QuantilesFigure 7 : Significativité de la niche. En haut à gauche, le test de Monte-Carlo sur la marginalité. Enhaut à droite, le test de Monte-Carlo sur la première valeur propre de spécialisation. Pour ces deux tests,l'histogramme en gris représente les 1000 répétitions aléatoires et la valeur observée est symbolisée parle carré noir. Les graphiques suivants présentent le modèle linéaire et le modèle log-linéaire (avec lesquantiles des résidus associés) entre la marginalité et la première valeur propre de spécialisation. Lecarré bleu représente les valeurs observées.17


Le test de Monte-Carlo effectué sur les données montre des valeurs de marginalité et despécialisation sur le premier axe de spécialisation très significatives (p=0.001 pour les deuxtests). Le modèle linéaire est ajusté entre la marginalité et le logarithme de la spécialisationpour obtenir des résidus distribués selon une loi normale. L'ordonnée à l'origine est trèssignificative (0.261±0.008, p


3.1.3. Initialisation des GLML'Analyse en Composantes Principales révèle deux groupes de variables extrêmementcorrélées (pNat, pIFN, pForets et pOuver d'une part, dUrb et dArtif de l'autre, Fig. 9). Lastructure du jeu de données est suffisamment marquée pour pouvoir sélectionner les deuxpremiers axes de l'ACP (qui représentent plus de 50% de la variance expliquée) ou les quatrepremiers axes (qui représentent plus de 75% de la variance expliquée).pRoad3pIFN pForetspNatpRoad4pHydrodFleuvdRoad1pOuverdFerdRoad2dUrb dArtifFigure 9 : cercle de corrélation de l’ACP des variables environnementales.3.1.4. Prédiction des modèlesL'indice de qualité d'habitat de l’ENFA est calculé sur l'axe de marginalité et les deuxpremiers axes de spécialisation. Le résultat montre une utilisation beaucoup plus élevéequ’attendue pour les habitats de bonne qualité (Fig. 10). Le seuil utilisé pour établir larépartition potentielle est établi graphiquement à 0.4 et définit une aire de 6209 cellules (unpeu plus de 1500 km²).Pour le GLM, l'histogramme du modèle à deux facteurs paraît beaucoup moins discriminantque celui de l'ENFA (Fig. 10) et montre même que les habitats de qualité élevée sont moinssélectionnés que ce qui est attendu par l'effet du hasard (ce qui voudrait dire qu'ils sont mêmeévités !). Le seuil de la répartition potentielle est fixé ici à 0.25 et définit une aire de 13862cellules (presque 3500 km²). L'histogramme du modèle à quatre facteurs semble meilleur(Fig. 10) et montre une utilisation supérieure à ce qui est attendu par l'effet du hasard pour19


toutes les valeurs d'habitat supérieures au seuil de 0.15. L'aire de répartition potentielle n'estque de 3639 cellules (environ 900 km²).a)2.52.01.51.00.50.00.0 0.2 0.4 0.6 0.8 1.0b) c)3.0122.5102.081.5 61.0 40.5 20.0 00.0 0.2 0.4 0.6 0.8 1.0d) e)2.02.50.0 0.2 0.4 0.6 0.8 1.01.52.01.51.01.00.50.50.00.00.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.0Figure 10 : Histogrammes de la qualité de l'habitat disponible (en bleu) et utilisé (en orange). a)ENFA, b) GLM à deux facteurs, c) GLM à quatre facteurs, d) GLM-ENFA à deux facteurs et e) GLM-ENFA à quatre facteurs.20


3.1.5. Performances des modèlesL'estimation de l'aire minimale prédite par l’ENFA donne 12365 cellules, soit un peu plus de3000 km². Elle est respectivement de 17437 cellules (4300 km²) et 14137 cellules (3500 km²)pour le modèle GLM à deux et quatre facteurs. Le modèle GLM-ENFA donne des valeurs de17885 cellules (4500 km²) et 18748 cellules (4700 km²) pour les modèles à deux et quatrefacteurs respectivement.Pour l’ENFA, l'estimation de la corrélation de l'utilisation relative de l'habitat avec la qualitéde l'habitat donne une valeur moyenne de 0.978 largement significative avec une p-valuemoyenne très proche de 0. Pour le GLM à deux facteurs, la corrélation moyenne de 0.284n’est pas significative (p-value moyenne de 0.458) alors qu’elle est très élevée pour le modèleà quatre facteurs (corrélation de 0.971, p-value < 0.0001). De la même manière la corrélationmoyenne n’est pas significative pour le modèle GLM-ENFA à deux facteurs (corrélation de0.496 avec une p-value de 0.196) alors qu’elle assez élevée pour le modèle à quatre facteurs(corrélation de 0.881 avec une p-value de 0.004).Du point de vue de l’utilisateur, l’ENFA présente les meilleures performances pour les deuxcritères et sera choisie pour la suite de l’étude. La carte de référence sera donc la carte derépartition potentielle donnée par l’ENFA (Fig. 11).3.2. Choix du type d'indiceL’ENFA appliquée aux indices sauvages ne conserve qu’un seul axe de spécialisation. Le testde Monte-Carlo révèle des valeurs significatives de marginalité et de spécialisation. Lapremière valeur propre de spécialisation se situe de plus à l’extérieur de l’intervalle deprédiction du modèle log-linéaire, celui-ci ayant une pente assez marquée (0.374±0.131,p=0.005). Si l'on considère les indices domestiques, deux axes sont conservés par l'ENFA ettrois si l'on considère tous les indices. Pour les deux derniers modèles, les tests de Monte-Carlo sont largement significatifs pour la marginalité et la spécialisation, et la première valeurpropre est à l'extérieur de l'intervalle de prédiction. Tous les modèles ont donc unespécialisation significative, sur un ou deux axes pour les modèles avec un seul type d'indice etsur trois axes pour le modèle global.21


pForets pIFN pHydro pNatpOuver pRoad3 pRoad4 dArtifdFer dFleuv dRoad1 dRoad2dUrb Tele ENFA.HS ENFA.PotentielENFA.MPAFigure 11 : Cartes des variables environnementales utilisées et cartes des sorties de l’ENFA. Surchaque carte, plus la couleur est foncée, plus la valeur associée est élevée. Les 13 premières cartesreprésentent les variables environnementales, la 14 e montre les localisations télémétriques et les troissuivantes les cartes de sortie de l’ENFA, respectivement la carte de qualité de l’habitat (HS), la cartede répartition potentielle (pot) et l’aire minimale prédite (MPA).Les trois modèles présentent des aires minimales prédites assez voisines (16867, 15309 et16220 cellules, soit entre 3800 et 4200 km², pour l'ENFA respectivement sur les indicessauvages, domestiques et les deux réunis). En revanche, les corrélations d'utilisation relativesemblent plus différentes avec en tête le modèle avec tous les indices (valeur moyenne de0.886, p=0.002), suivi du modèle sur les indices sauvages (valeur moyenne de 0.755,p=0.018) et du modèle sur les indices domestiques uniquement (valeur moyenne de 0.709,p=0.033).22


Le ROC-plot sur la sensibilité et la spécificité de chaque modèle permet de choisir le modèlequi rend le mieux compte de la carte réelle établie par la télémétrie. L'aire sous la courbe estde 0.80 pour les indices sauvages, de 0.73 pour les indices domestiques et de 0.79 pour tousles indices à la fois (Fig. 12). Le modèle avec les indices sauvages semble être meilleur quecelui avec les indices domestiques, mais on ne peut pas mettre en évidence de différenceflagrante entre le modèle sur les indices sauvages et le modèle global. Le meilleur modèle estdonc celui qui utilise les indices sauvages uniquement, puisque l'ajout des indicesdomestiques n'en améliore pas la performance. Il prédit huit fois sur dix un indice de qualitéde l’habitat supérieur pour les observations de présence par rapport aux observationsd'absence.Sensitivité0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.01-SpecificitéFigure 12 : ROC-plot de l'ENFA appliquée aux différents types d'indice. En noir, les indicessauvages, en rouge, les indices domestiques et en vert, tous les indices. La ligne en pointillésreprésente le résultat attendu sous l'effet du hasard.Il convient toutefois de relativiser ce résultat avec les corrélations obtenues entre la qualité del’habitat donnée par chaque modèle et la qualité de l'habitat donnée par la télémétrie. Toutesles corrélations sont très significatives (p


4. DiscussionCe travail s'inscrit dans le cadre de la sélection de l'habitat pour des plans d'expérience de typedisponibilité/présence de la population. L'objectif de ce travail était triple. Il s'agissait dans unpremier temps de proposer une approche comparative pour choisir une méthode de sélectionde l'habitat basée sur un plan d'expérience de type disponibilité/présence, étant donné qu'ilexiste de véritables lacunes dans l'estimation des performances de telles méthodes (Boyce etal., 2002). Le deuxième axe devait permettre de choisir parmi plusieurs indices de présence leplus représentatif de la répartition potentielle de la population : à partir d'une carte deréférence, il s'agissait de trouver quel indice fournit la carte la plus proche de la réalité. Enparallèle, le dernier objectif était de mettre en place un cadre de travail ouvert et évolutif grâceà l'implémentation des méthodes sous R.Les résultats de comparaison des méthodes sont assez clairs. L'ENFA est la meilleureméthode selon les deux critères utilisés (corrélation de l'utilisation relative de l'habitat et aireminimale prédite). Ajustée sur les données télémétriques, elle prévoit que le lynx évite lesroutes rapides et les chemins de fer, les zones artificielles et les milieux ouverts. En revanche,le lynx recherche la proximité avec les fleuves et une densité élevée de forêts ou de milieuxnaturels. La spécialisation du lynx est plus marquée sur la densité de rivières et la distanceaux autoroutes. Ce dernier résultat étonnant signifie que le lynx évite d'être trop proche desautoroutes mais également d'en être trop éloigné. Cela peut être dû à un facteur corrélé noninclus dans l'analyse ou bien à l'historique de colonisation de la zone par le lynx. Ces résultatscorroborent globalement ceux obtenus par Schadt et al. (2002b) qui trouvent que le lynxétablit son domaine vital dans des zones semi-naturelles peu fragmentées, reflétant l'absenced'utilisation intensive par l'homme.Le choix de l'indice le plus pertinent pour représenter la répartition du lynx a un intérêtéconomique pour l'Office National de la Chasse et de la Faune Sauvage. Le suivi du lynx anécessité la mise en place d'un réseau dont le rôle est de centraliser tous les indices deprésence. La question de savoir si tel ou tel indice est suffisant pour la modélisation de larépartition spatiale du lynx peut donc permettre de limiter le champ d'action descorrespondants du réseau et donc d'en limiter le coût. Les résultats montrent que les indicessauvages rendent mieux compte de la répartition du lynx que les indices domestiques.Malheureusement, les indices sauvages sont plus coûteux à obtenir que les indicesdomestiques puisqu'ils nécessitent une prospection active de la part des correspondants du24


éseau, à l'inverse des indices domestiques qui découlent d'une démarche de l'éleveur. Celamontre bien que les indices sauvages ont un biais qui est plus acceptable pour la modélisationde la répartition du lynx que les indices domestiques. C'est un résultat qui parait logique, leslynx ne se nourrissant pas exclusivement de bétail et les troupeaux ne pouvant se situer qu'enmarge des domaines vitaux des lynx (les troupeaux restant dans les milieux ouverts qui sontévités par le lynx). Le modèle basé sur les indices sauvages prédit une aire minimale 30%plus élevée que celle basée sur les données télémétriques et est de ce fait bien moinsdiscriminant. L'ajout des indices domestiques dans le modèle améliore légèrement ceproblème sans toutefois en améliorer la performance globale. On obtient avec la télémétrie etles indices sauvages des conclusions qui concordent globalement, avec le modèle basé sur lesindices sauvages qui prédit huit fois sur dix un indice de qualité de l’habitat supérieure pourles observations de présence par rapport aux observations d'absence (basées sur la télémétrie).Ce résultat n'était pas forcément attendu au vu des limites de l'étude. Premièrement, la listedes variables environnementales utilisées n'est pas complète : il manque, d'un point de vuebiologique, les variables représentant la répartition ou la densité des proies principales de lynx(chevreuil et chamois) ainsi que l'altitude et les variables dérivées (exposition et pente).Deuxièmement, le nombre de lynx suivis par radio-pistage est assez faible (N=9) et lesrésultats issus de ces neuf lynx sont généralisés à une zone d'étude qui pourrait accueillirjusqu'à 100 lynx. Troisièmement, les indices sauvages et les indices télémétriques présententdes plans d'expérience très différents puisque la zone de télémétrie n'est qu'une fraction de lazone d'étude (et donc de la zone de prospection pour les indices sauvages).Ce travail a permis une évaluation de l'ENFA grâce à l'implémentation de ces procédures dansR. Contrairement à une analyse avec Biomapper, l'analyse avec R laisse le contrôle total desvariables à l'utilisateur et permet d'utiliser d'autres méthodes comme les modèles linéairesgénéralisés, à des fins de comparaison. L'utilisation de R propose également un cadre évolutifà l'ENFA qui pourra s'enrichir de nouvelles fonctionnalités dans le futur, par exemple auniveau du calcul de l'indice de qualité d'habitat (p.e. Hirzel et Arlettaz, 2003). L'ENFA aprouvé ici qu'elle est une analyse tout à fait valable pour la sélection de l'habitat et s'est mêmemontrée supérieure aux GLM, en ayant un plus grand pouvoir discriminant et en prédisantune plus faible aire minimale. Sur ce point, cette analyse va à l'encontre des conclusions deEngler et al. (2004) qui trouvent une aire minimale prédite deux fois plus élevées pourl'ENFA que pour les GLM. Zaniewski et al. (2002) montrent également une tendanceoptimiste de l'ENFA en comparaison à des Modèles Additifs Généralisés (GAM, Generalized25


Additive Model). Ce résultat montre que l'ENFA peut réagir différemment selon les donnéesinitiales et prouve bien, s'il en était besoin, l'intérêt d'utiliser des procédures qui quantifient laperformance des modèles sur une zone précise. Un des problèmes majeurs des études desélection de l'habitat est le manque de généralisation possible des résultats à plus grandeéchelle. En ce qui concerne le lynx, les résultats obtenus par l'ENFA dans le Jura ne sontabsolument pas transposables dans les Vosges ou les Alpes, tant les conditions écologiquessont différentes.Le comportement de l'ENFA est encore loin d'être connu. Un axe majeur de développementde cette méthode devrait être la caractérisation précise de la relation entre la marginalité et laspécialisation. Nous avons vu que plus la marginalité est élevée, plus la spécialisation l'estaussi. Nous avons posé l'hypothèse d'une relation linéaire qui semble vérifiée. Cependant larelation est linéaire pour des valeurs faibles de marginalité, bien loin des valeurs réellementobservées et il est alors impossible de prédire le comportement du modèle pour de tellesvaleurs de marginalité. Le problème provient du tirage aléatoire de points pour calculer desvaleurs de marginalité dans le test de Monte-Carlo. Par cette procédure, il est impossibled'obtenir des valeurs de marginalité très élevées et toutes tendent vers 0 si le nombre de pointstirés est suffisant (la matrice de points étant centrée sur l'origine). Ainsi la significativité de laspécialisation est acceptée mais sans preuve irréfutable. L’ENFA gagnerait grandement audéveloppement d’un tel test.L'utilisation de l'ENFA semble toutefois moins problématique que l'utilisation des GLM.L'utilisation des modèles linéaires généralisés comme fonction de sélection de ressource, bienque courante, viole en effet deux hypothèses de base des GLM. Les GLM fonctionnent surdes données indépendantes qui suivent toutes la même loi de probabilité. Or d’une part lesdonnées de télémétrie ne sont pas indépendantes et d’autre part les données utilisées pourl‘ajustement du GLM ne suivent pas la même loi de probabilité. Les données d'absence ou dedisponibilité sont le résultat d'un tirage au hasard parmi tout ce qui est disponible alors que lesdonnées télémétriques sont issues d'un échantillonnage systématique et régulier desdéplacements des animaux. L'ENFA, conçue comme une analyse descriptive, n'est passoumise à ces deux hypothèses. Les GLM permettent cependant une analyse et uneinterprétation plus précise que l'ENFA. Ils acceptent en effet des variables quantitatives ouqualitatives et peuvent prendre en compte les interactions entre variables (par exemple l'effetde la densité de forêts selon l'utilisation de l'habitat par l'homme). A contrario, l'ENFA ne26


s'applique que sur des variables quantitatives (et normalisées au possible) et ne prend pas encompte les interactions possibles entre elles (Hirzel et al., 2002). Au vu des résultats de cetravail, il semblerait toutefois que ces problèmes soient relativement mineurs.L'analyse aurait pu être étendue à d'autres méthodes telles que l'analyse discriminante, lesréseaux de neurones ou les Modèles Additifs Généralisés (p.e. Zaniewski et al., 2002, Manelet al., 1999a et b). L'analyse discriminante n'a cependant pas encore été utilisée pour unéchantillonnage de type disponibilité/présence, bien que cela soit théoriquement possible(Manly et al., 2002) ; les réseaux de neurones semblent excessivement compliqués et lesGAM sont encore peu développés. L'approche décrite ici est toutefois compatible avec toutesles méthodes de sélection de l'habitat et la comparaison pourrait alors être étendue à d'autresméthodes.L'utilisation de l'ENFA sur les données télémétriques est un premier pas. Un prolongement dece travail devrait permettre la comparaison de l'utilisation de l'habitat entre individus par lebiais de l'analyse O.M.I. (Outlying Mean Index, Dolédec et al., 2000). Cette analyse est baséesur les mêmes concepts de marginalité et de spécialisation que l'ENFA. Elle a été conçue pourmettre en évidence la niche de plusieurs espèces en maximisant la marginalité moyenne, maispeut être appliquée à plusieurs individus si l'on a accès aux localisations individuelles commec'est le cas avec les localisations télémétriques (Calenge, 2002). Cette analyse pourraitégalement s'appliquer à une étude multi-espèces du système prédateur-proies global, àcondition de disposer des suivis des espèces de proies du lynx (en particulier le chevreuil et lechamois), avec des suivis individuels ou non de chaque espèce.27


5. BibliographieBoyce, M.S. & McDonald, L.L. (1999) Relating populations to habitats using resourceselection functions. Trends in Ecology & Evolution, 14(7): 268-272.Boyce, M.S., Vernier, P.R., Nielsen, S.E. & Schmiegelow, F.K.A. (2002) Evaluating resourceselection functions. Ecological Modelling, 157(2-3): 281-300.Cain, A.T., Tuovila, V.R., Hewitt, D.G. & Tewes, M.E. (2003) Effects of a highway andmitigation projects on bobcats in Southern Texas. Biological Conservation, 114(2): 189-197.Calenge, C. (2002) Problèmes des études de la sélection de l'habitat reposant sur des donnéesde radio-pistage : cas du sanglier en milieu méditerranéen. Rapport scientifique de l’OfficeNationale de la Chasse et de la Faune Sauvage. 50p. + annexes.Ciarniello, L.M., Boyce, M.S. & Beyer, H. (2003) Resource Selection Function model for theplateau landscape of the parsnip grizzly bear project (an update for 2003). British ColumbiaMinistry of Forests.De Solla, S.R., Bonduriansky, R. & Brooks, R.J. (1999) Eliminating autocorrelation reducesbiological relevance of home range estimates. Journal of Animal Ecology, 68: 221-234.Doledec, S., Chessel, D. & Gimaret Carpentier, C. (2000) Niche separation in communityanalysis: A new method. Ecology, 81(10): 2914-2927.Engler, R., Guisan, A. & Rechsteiner, L. (2004) An improved approach for predicting thedistribution of rare and endangered species from occurrence and pseudo-absence data.Journal of Applied Ecology, 41(2): 263-274.Fielding, A.H. & Bell, J.F. (1997) A review of methods for the assessment of predictionerrors in conservation presence/absence models. Environmental Conservation, 24(1): 38-49.Guisan, A. & Zimmermann, N.E. (2000) Predictive habitat distribution models in ecology.Ecological Modelling, 135(2-3): 147-186.Hausser, J. (1995) Mammifères de la Suisse. Birkhäuser. Bâle, Suisse.28


Hirzel, A. & Arlettaz, R. (2003) Modeling habitat suitability for complex species distributionsby environmental-distance geometric mean. Environmental Management, 32(5): 614-623.Hirzel, A.H., Hausser, J., Chessel, D. & Perrin, N. (2002) Ecological-niche factor analysis:How to compute habitat-suitability maps without absence data? Ecology, 83(7): 2027-2036.Hutchinson, G.E. (1957) Concluding Remarks. Cold Spring Harbor Symposium onQuantitative Biology, 22: 415-427.Jonhson, D.H. (1980) The comparison of usage and availability measurements for evaluatingresource preference. Ecology, 61(1): 65-71.Manel, S., Dias, J.-M. & Ormerod, S.J. (1999a) Comparing discriminant analysis, neuralnetworks and logistic regression for predicting species distributions: a case study with aHimalayan river bird. Ecological Modelling, 120: 337-347.Manel, S., Dias, J.-M., Buckton, S.T. & Ormerod, S.J. (1999b) Alternative methods forpredicting species distribution: an illustration with Himalayan river birds. Journal of AppliedEcology, 36: 734-747.Manly, B.F.J., McDonald, L.L., Thomas, D.L., McDonald, T.L. & Erickson, W.P. (2002)Resource Selection by Animals, Statistical Design and Analysis for Field Studies. 2nd Edition.Dordrecht, the Netherlands.Molinari-Jobin, A., Molinari, P., Loison, A., Gaillard, J.-M. & Breitenmoser, U. (2004) Lifecycle period and activity of prey influence their susceptibility to predators. Ecography, 27(3):323-329.Otis, D.L. & White, G.C. (1999) Autocorrélation of location estimates and the analysis ofradiotracking data. Journal of Wildlife Management, 63(3): 1039-1044.Pearce, J. & Ferrier, S. (2000) Evaluating the predictive performance of habitat modelsdeveloped using logistic regression. Ecological Modelling, 133(3): 225-245.Perrin, N. (1984) Contribution à l'écologie du genre Cepaea (Gastropoda) : Approchedescriptive et expérimentale de l'habitat et de la niche écologique. Thèse de DoctoratUniversité de Lausanne, Lausanne.29


Reutter, B.A., Helfer, V., Hirzel, A.H. & Vogel, P. (2003) Modelling habitat-suitability usingmuseum collections: an example with three sympatric Apodemus species from the Alps.Journal of Biogeography, 30(4): 581-590.Riley, S.P.D., Sauvajot, R.M., Fuller, T.K., York, E.C., Kamradt, D.A., Bromley, C. &Wayne, R.K. (2003) Effects of urbanization and habitat fragmentation on bobcats and coyotesin southern California. Conservation Biology, 17(2): 566-576.Schadt, S., Knauer, F., Kaczensky, P., Revilla, E., Wiegand, T. & Trepl, L. (2002a) Rulebasedassessment of suitable habitat and patch connectivity for the Eurasian lynx. EcologicalApplications, 12(5): 1469-1483.Schadt, S., Revilla, E., Wiegand, T., Knauer, F., Kaczensky, P., Breitenmoser, U., Bufka, L.,Cerveny, J., Koubek, P., Huber, T., Stanisa, C. & Trepl, L. (2002b) Assessing the suitabilityof central European landscapes for the reintroduction of Eurasian lynx. Journal of AppliedEcology, 39(2): 189-203.Swihart, R.K. & Slade, N.A. (1985) Testing for independence of observations in animalmovements. Ecology, 66(4): 1176-1184.Vandel, J.-M. (2001) Répartition du lynx (Lynx lynx) en France (massif alpin, jurassien etvosgien). Méthodologie d’étude et statut actuel. Mémoire de l’Ecole Pratique des HautesEtudes.Zaniewski, A.E., Lehmann, A. & Overton, J.M.C. (2002) Predicting species spatialdistributions using presence-only data: a case study of native New Zealand ferns. EcologicalModelling, 157(2-3): 261-280.30


6. Annexe 1 : procédures de l’ENFALes variables sont tout d'abord normalisées au possible puis standardisées :x ij −x jz ij =σ xjoù x ij est la valeur de la variable x j dans la cellule i,x j la moyenne de cette variable etσ xjson écart type. Soit Z la matrice N × V des z ij . Z est la matrice de disponibilité. Les N S lignesde Z qui correspondent à une présence forme la matrice N S × V appelée S, la matrice deprésence. Les matrices de covariance sont calculées :RZ= Z T ZN 1R S TSS=N 1SLa facteur de marginalité est défini par le vecteur des moyennes sur les V colonnes de S :NS⎧m= ⎨ ∑⎩N 1Si=1zij⎫⎬⎭Les vecteurs u de spécialisation sont ensuite définis tels qu'ils soient orthogonaux à m (u T m =0) et qu'ils maximisent le ratio de la variance globale sur la variance de l'espèce u T R Z u/u T R S u.Le problème est alors équivalent à trouver u tel que :T⎪⎧ u R Su⎨ = = T0 1u mT⎪⎩ u RZumaxUne transformation des variables permet de réécrire le problème. On pose v = R Z 1/2 u, y =z/ z z T , z = R S -1/2 m et W = R S -1/2 R Z R S -1/2 . Le problème revient à trouver v tel que :⎪⎧⎨⎪⎩ vTTv v= = Ty 0 1vWv maxLa solution est donnée par les vecteurs propres deH = (I V – yy T ) W (I V – yy T )Les vecteurs sont à nouveau transformés (u = R S -1/2 v) et forment la matrice U. A cause de lacontrainte d'orthogonalité entre u et m, le système a une valeur propre nulle. Le vecteurcorrespondant est enlevé de U et est remplacé en première colonne par m.31


}liste=list(df=df, names=names, pr=pr, Z=Z,S=S,V=V,N=N,Ns=Ns,nf=nf,eig=eig,U=U,m=m,Mar=Mar,Spe=Spe,Tol=Tol, eigH=eigH,Zscor=Zscor, Sscor=Sscor)class(liste)='ENFA'return(invisible(liste))### glm-RSF ###RSF=function(df, presence=ncol(df), type='d/p', nf=2, ENFA=NULL) {pr=df[,presence]pca1=dudi.pca(df[,-presence], scannf=F, nf=presence-1)li=cbind(pca1$li,df[,presence])names(li)[pca1$nf+1]='pr'if (is.null(ENFA))spl=sample(1:nrow(li[li$pr==0,]),sum(pr[pr==1]),rep=F)else {dftmp=ENFA$df[ENFA$HS


#marginalitém=apply(S, 2, mean)#specialisationRs12=eigen(Rs)$vectors %*% diag(eigen(Rs)$values^(-1/2)) %*%t(eigen(Rs)$vectors)z=Rs12 %*% my=z/as.numeric(sqrt(crossprod(z)))W=Rs12 %*% Rg %*% Rs12H=(diag(xtest$V)-y %*% t(y)) %*% W %*% (diag(xtest$V)-y %*%t(y))eigH=eigen(H)# globalementreturn(c(sqrt(sum(m^2))/1.96,eigH$values[1]))}res=lapply(1:nrep, f1)mar=unlist(lapply(res, function(x) x[1]))spe1=unlist(lapply(res, function(x) x[2]))Mar=xtest$MarSpe1=xtest$eig[2]mcMar=as.randtest(mar, Mar)mcSpe1=as.randtest(spe1, Spe1)par(mfrow=c(3,2))par(mar=c(5.1,4.1,2.1,2.1))# histogrammesplot(mcMar, main='Marginalité', xlab=NULL, ylab='Fréquence')plot(mcSpe1, main='Spécialisation', xlab=NULL, ylab='Fréquence')# relation linéairexrange=c(min(Mar,mar),max(Mar,mar))yrange=c(min(Spe1,spe1),max(Spe1,spe1))plot(mar, spe1, main='Modèle linéaire', xlab='Marginalité',ylab='Spécialisation', xlim=xrange, ylim=yrange)points(Mar, Spe1, pch=19, col='blue', cex=1.5)lm1=lm(data.frame(y=spe1, x=mar))new=data.frame(x = seq(xrange[1], xrange[2], length=100))pred=predict(lm1, new, interval="prediction")matplot(new$x,pred, type="l", add=T)qqnorm(lm1$res)qqline(lm1$res)# relation loglinéaireplot(mar, log(spe1), main='Modèle log-linéaire', xlab='Marginalité',ylab='Spécialisation', xlim=xrange, ylim=log(yrange))points(Mar, log(Spe1), pch=19, col='blue', cex=1.5)lm2=lm(data.frame(y=log(spe1), x=mar))new=data.frame(x = seq(xrange[1], xrange[2], length=100))pred=predict(lm2, new, interval="prediction")matplot(new$x,cbind(pred), type="l", add=T)qqnorm(lm2$res)qqline(lm2$res)par(mfrow=c(1,1))par(mar=c(5,4,4,2)+0.1)}liste=list(res=res, mar=mar, spe1=spe1, Mar=Mar, Spe1=Spe1,mcMar=mcMar, mcSpe1=mcSpe1, lin=lm1, loglin=lm2)class(list)='mcENFA'return(invisible(liste))34


### Biplot de l'ENFA ###biplot.ENFA=function(x, xax=1, yax=2, presence=ncol(x$df), liss=1,colZ='blue', colS='red', epS=2, X=20, ...) {s=kde2d(x$Sscor[,xax], x$Sscor[,yax], h=c(liss,liss))z=kde2d(x$Zscor[,xax], x$Zscor[,yax], h=c(liss,liss))contour(z, drawlabels=F, col=colZ, ...)contour(s, drawlabels=F, col=colS, lwd=epS, add=T)dfarr=data.frame(cbind(x$U[,xax]/crossprod(x$U[,xax]),x$U[,yax]/crossprod(x$U[,yax])))dimnames(dfarr)[[1]]=x$names[-presence]s.arrow(X*dfarr, grid=F, addaxes=F, add.plot=T, clabel=0.75)}### Habitat Suitability glm ###predict.RSF=function(object, newdata=object$df, percent=0.99, ...) {if (object$type=='d/p') {object$HS=exp(predict(object$glm, newdata, ...))object$HS=(object$HS-min(object$HS))/(quantile(object$HS,probs=percent)-min(object$HS))object$HS[object$HS>quantile(object$HS, probs=percent)]=1}else object$HS=predict(object$glm, newdata, type='response', ...)return(invisible(object))}### prédiction Habitat Suitability ###predict.ENFA=function(object, newdata=NULL, nf=object$nf) {if (is.null(newdata)) Zscor=object$Zscorelse Zscor=as.matrix(sweep(sweep(newdata, 2,apply(object$df[,1:object$V], 2, mean)), 2,sqrt(apply(object$df[,1:object$V], 2, var)), FUN="/")) %*%object$USscor=object$Sscor}f1=function(i) {f2=function(j) {n1=sum(Sscor[,j]>Zscor[i,j])n2=object$Ns-n1return(2*min(n1,n2)/object$Ns)}return(mean(unlist(lapply(1:(nf+1),f2))))}if (is.null(newdata)) {object$HS=unlist(lapply(1:object$N,f1))return(invisible(object))}return(invisible(unlist(lapply(1:nrow(newdata),f1))))### histogramme des indices HS ###hist.HS=function(objet) {H=hist(objet$HS[objet$pr==1], plot=F, br=seq(0,1,length=21))G=hist(objet$HS, plot=F, br=seq(0,1,length=21))yrange=c(0,max(H$density, G$density))plot(H, freq=F, col='orange', border='orange', xlim=c(0,1),ylim=yrange, main='Histogramme des indices d habitat', xlab='HSdisponible (bleu) et utilisé (orange)', ylab='Densité')plot(G, freq=F, border='blue', add=T)}35


### Fonction Seuil ###seuil=function(objet, seuil=0.5) {objet$pot = vector(length = length(objet$HS))objet$pot[objet$HS>=seuil]=1return(objet)}### Minimum Area Predicted ###MPA=function(objet, percent=scan(nmax=1)) {cat('\n Quantile de la distribution de présence :\n')print(quantile(objet$HS[objet$pr==1],probs=c(0,0.01,0.05,0.1,0.25,0.5,0.75,1)))objet$MPA=rep(1,length(objet$HS))*(objet$HS>=(quantile(objet$HS[objet$pr==1], probs=percent)))return(objet)}### k-partition d'un tableau ###kpart=function(df, k=5) {sp=sample(1:nrow(df), nrow(df), rep=F)tr=trunc(nrow(df)/k)f1=function(i) {train=df[-sp[((i-1)*tr+1):(i*tr)],]test=df[sp[((i-1)*tr+1):(i*tr)],]return(list(train=train, test=test))}return(lapply(1:k,f1))}### Générique corrélation ###corr=function(x, ...)UseMethod("corr")### Corrélation du modèle de l'ENFA (Boyce et al. 2002) ###corr.ENFA=function(x, presence=ncol(x$df), k=5, nf=x$nf, ...) {par(mfrow=rev(n2mfrow(k)))kdf=kpart(x$df, k)f1=function(i) {hsp=predict(x, newdata=kdf[[i]]$test[,-presence])}quant=quantile(hsp[kdf[[i]]$test[,presence]==1],probs=c(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1))quant[1]=0quant[11]=1G=hist(hsp, br=quant, plot=F)H=hist(hsp[kdf[[i]]$test[,presence]==1], br=quant, plot=F)ratio=(H$counts/sum(H$counts))/(G$counts/sum(G$counts))plot((1:10)/10,ratio, xlab='HS', ylab='Utilisation relative',type='h')A=cor.test(1:10, ratio, method='spearman')B=cor.test(1:10, ratio, method='kendall')C=cor.test(1:10, ratio)abline(h=1)return(list(A$est, A$p.value, B$est, B$p.value, C$est,C$p.value))M=matrix(unlist(lapply(1:k,f1)), nrow=k, byrow=T,dimnames=list(1:k,c('S.est.cor','S.p.value','K.est.cor','K.p.value','P.est.cor','P.p.value')))par(mfrow=c(1,1))36


}x$corr=apply(M, 2, mean)return(invisible(x))### Corrélation du modèle glm (Boyce et al. 2002) ###corr.RSF=function(x, presence=ncol(x$df), k=5, ...) {par(mfrow=rev(n2mfrow(k)))kdf=kpart(x$df, k)f1=function(i) {hsp=predict(x, newdata=kdf[[i]]$test[,-presence])$HSquant=quantile(hsp[kdf[[i]]$test[,presence]==1],probs=c(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1))quant[1]=0quant[11]=1G=hist(hsp, br=quant, plot=F)H=hist(hsp[kdf[[i]]$test[,presence]==1], br=quant, plot=F)ratio=(H$counts/sum(H$counts))/(G$counts/sum(G$counts))plot((1:10)/10,ratio, xlab='HS', ylab='Utilisation relative',type='h')A=cor.test(1:10, ratio, method='spearman')B=cor.test(1:10, ratio, method='kendall')C=cor.test(1:10, ratio)abline(h=1)return(list(A$est, A$p.value, B$est, B$p.value, C$est,C$p.value))}M=matrix(unlist(lapply(1:k,f1)), nrow=k, byrow=T,dimnames=list(1:k,c('S.est.cor','S.p.value','K.est.cor','K.p.value','P.est.cor','P.p.value')))par(mfrow=c(1,1))x$corr=apply(M, 2, mean)return(invisible(x))}### Générique performance ###perf=function(x, ...)UseMethod("perf")### Performance de l'ENFA ###perf.ENFA=function(x, percent=scan(nmax=1), presence=ncol(x$df), k=5, ...){x=MPA(x, percent)x=corr(x, presence, k)return(invisible(x))}### Performance du glm ###perf.RSF=function(x, percent=scan(nmax=1), presence=ncol(x$df), k=5, ...) {x=MPA(x, percent)x=corr(x, presence, k)return(invisible(x))}### roc-plot ###roc.plot=function(y, ypred, spa, add=FALSE, ...){seuil=seq(0,1,spa)roctable=matrix(0,ncol=3,nrow=length(seuil))for(i in 1:length(seuil)){a=matrix(0,ncol=2, nrow=2)37


}a[1,1]=length(ypred[(ypred=seuil[i])&(y==1)])a[1,2]=length(ypred[(ypred>seuil[i])&(y==0)])a[2,1]=length(ypred[(ypred

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!