Médian
En statistique , la médiane , également appelée valeur centrale , est une valeur moyenne et un paramètre de localisation . La médiane des valeurs mesurées d'une liste originale est la valeur mesurée qui est exactement "au milieu" lorsque les valeurs mesurées sont triées par taille. Par exemple, pour la liste originale non ordonnée 4, 1, 37, 2, 1, la lecture 2 est la médiane, la valeur centrale dans la liste originale ordonnée 1, 1, 2 , 4, 37.
En général, une médiane divise un ensemble de données, un échantillon ou une distribution en deux parties égales de sorte que les valeurs d'une moitié ne soient pas supérieures à la médiane et que l'autre moitié ne soit pas inférieure.
la description
La médiane divise une liste de valeurs en deux parties. Il peut être déterminé de la manière suivante :
- Toutes les valeurs sont triées (croissantes).
- Si le nombre de valeurs est impair, le nombre du milieu est la médiane.
- Si le nombre de valeurs est pair, la médiane est généralement définie comme la moyenne arithmétique des deux nombres du milieu, qui sont alors appelées la médiane inférieure et supérieure .
Une propriété importante de la médiane est sa robustesse aux valeurs aberrantes .
- Exemple : Sept lectures non triées 4, 1, 15, 2, 4, 5, 4 sont triées par taille : 1, 2, 4, 4 , 4, 5, 15 ; La médiane (également la médiane supérieure et inférieure) est la valeur du milieu, c'est-à-dire 4. Si dans l'exemple un 4 a été remplacé par 46 en raison d'une erreur, la médiane ne change pas : 1, 2, 4, 4 , 5 , 15, 46. La moyenne arithmétique, quant à elle, saute de 5 à 11.
Comparaison avec d'autres mesures de tendance centrale
La médiane est un quantile spécial , à savoir le 1 ⁄ 2 -quantile. D'autres mesures importantes de la position sont la moyenne arithmétique et le mode .
Par rapport à la moyenne arithmétique, souvent appelée la moyenne, la médiane est plus robuste aux valeurs aberrantes (valeurs extrêmement déviantes) et peut également être appliquée à des variables à échelle ordinale . Le terme médian (du latin medianus 'situé au milieu', 'celui du milieu') vient de la géométrie , où il désigne aussi une frontière entre deux moitiés de même taille.
zones d'application
Contrairement à la moyenne arithmétique, la médiane peut également être utilisée pour des variables à échelle ordinale telles que les notes, pour lesquelles il n'y a pas de différence quantitative. Cependant, la médiane peut également être utilisée pour les données à échelle d' intervalle et de ratio et présente alors des inconvénients et des avantages par rapport à la moyenne arithmétique en tant que mesure de la situation. La médiane ne peut pas être utilisée pour des variables qui ne sont que nominalement mises à l'échelle et dont les valeurs n'ont pas de classement naturel, comme une variable pays de naissance. Ici, le mode est la seule mesure de position qui peut être déterminée.
La médiane est utilisée en statistique et en théorie des probabilités dans trois sens différents :
- comme mesure de statistiques descriptives pour décrire une liste concrète de valeurs d'échantillon .
- en théorie des probabilités comme la médiane d'une distribution de probabilité ou d'une variable aléatoire . Ici, la médiane représente une alternative à la valeur attendue pour spécifier une "valeur moyenne".
- dans les statistiques mathématiques comme médiane d'un échantillon aléatoire pour l' estimation robuste de distributions inconnues.
médiane d'un échantillon
Une valeur est la médiane d'un échantillon si au moins la moitié des éléments de l'échantillon ne sont pas supérieurs à et au moins la moitié ne sont pas inférieurs à .
Si l'on trie les valeurs d'observation par taille, c'est-à-dire si l'on passe à l' échantillon ordonné par rang , alors pour un nombre impair d'observations la médiane est la valeur de l'observation située au milieu de cette séquence . Si le nombre d'observations est pair, il n'y a pas un seul élément médian, mais deux. Ici, les valeurs des deux observations médianes et toutes les valeurs intermédiaires (bien qu'elles ne se soient peut-être produites dans aucune observation) sont des médianes d'échantillon, puisque toutes ces valeurs remplissent la condition ci-dessus.
Dans le cas de variables mesurées à échelle cardinale (c'est-à-dire s'il est possible de calculer la différence entre les valeurs mesurées), la moyenne arithmétique des deux valeurs d'observation moyennes est généralement utilisée dans le cas d'un nombre pair d'observations. La médiane d'un échantillon ordonné de valeurs mesurées est alors
Cette définition présente l'avantage que la moyenne arithmétique et la médiane sont identiques dans la valeur attendue pour des échantillons aléatoires issus de distributions symétriques .
médiane supérieure et inférieure
Souvent, on veut s'assurer que la médiane fait partie de l'échantillon. Dans ce cas, comme alternative à la définition ci-dessus, s'il y a un nombre pair d'éléments, la médiane inférieure ou la médiane supérieure est sélectionnée comme médiane . Dans le cas d'un nombre impair d'observations, bien sûr, la même chose s'applique que ci-dessus .
A l' aide de parenthèses gaussiennes , les indices peuvent également être exprimés de manière relativement compacte par eux-mêmes :
Cette détermination de la médiane joue un rôle majeur dans les systèmes de bases de données, comme par ex. B. dans les requêtes SELECT utilisant la médiane des médianes.
Les caractéristiques
La médiane , et dans le cas d'un nombre pair de valeurs mesurées toutes les valeurs avec , minimisent la somme des écarts absolus, c'est-à-dire , pour n'importe lequel
La médiane est à la base de la méthode des moindres écarts absolus et des méthodes de régression robuste . La moyenne arithmétique, d'autre part, minimise la somme des carrés , est la base de la méthode des moindres carrés et de l'analyse de régression , et est plus facile à manipuler mathématiquement, mais n'est pas robuste aux valeurs aberrantes.
Comme décrit ci-dessus, la médiane peut être déterminée de manière algorithmique en triant les valeurs mesurées. Ceci est généralement associé à un effort , il n'est possible que sur des classes particulières de données d'entrée (voir algorithme de tri ). Cependant, il existe également des algorithmes pour déterminer les quantiles avec un effort linéaire dans le pire des cas , ainsi que des algorithmes d'estimation, par exemple la méthode Cornish-Fisher .
Médiane des données groupées
Surtout dans les sciences sociales , la médiane est souvent estimée pour les statistiques, car toutes les données ne sont pas données explicitement et exactement, mais ne sont disponibles que regroupées par intervalles . Par exemple, les enquêtes demandent rarement le salaire exact, mais uniquement la classe de revenu, c'est-à-dire la fourchette dans laquelle se situe le salaire. En général, si seules les fréquences de chaque classe sont connues, alors la médiane d'un tel échantillon ne peut être qu'approximative. Soit le nombre de toutes les données, le nombre respectif de données du -ème groupe et /ou les limites d'intervalle supérieures ou inférieures correspondantes. D'abord, maintenant leclasse médiane (ou groupe médian ) déterminée, i. c'est-à-dire le groupe auquel appartient la médiane (comme défini ci-dessus, de manière conventionnelle), par ex. B. le -ème groupe. Le nombre est déterminé par le fait que , mais tient. Si aucune autre information n'est donnée sur la distribution des données, par ex. B. Postule une distribution uniforme , de sorte que l'interpolation linéaire peut être utilisée comme outil pour obtenir une estimation de la médiane des données groupées :
Si aucune autre information n'est donnée sur la distribution des données, toute autre distribution en dehors de la distribution uniforme peut également être présente et donc toute autre valeur dans le -ième intervalle peut être la médiane.
Contrairement à la définition conventionnelle de la médiane, cela ne doit pas nécessairement être un élément de l'ensemble de données réel, qui n'est généralement même pas connu.
Exemple
Revenu :
classe ( ) | plage ( à ) | Taille du groupe ( ) |
---|---|---|
1 | au moins 0, moins de 1500 | 160 |
2 | au moins 1500, moins de 2500 | 320 |
3 | au moins 2500, moins de 3500 | 212 |
Vous calculez
La médiane est donc dans la 2e classe (c'est-à-dire ) puisque la première classe ne compte que 160 éléments. Il en résulte une estimation de la médiane
Étant donné que la distribution spécifique des données dans les intervalles est inconnue, toute autre valeur dans le 2e intervalle peut également être la médiane. La valeur 2081,25 calculée à titre d'exemple peut donc être jusqu'à 581,25 trop grande et jusqu'à 418,75 trop petite, de sorte que l'erreur d'estimation peut aller jusqu'à 28 %.
Une illustration de cette méthode de détermination de la médiane pour des données groupées est la détermination graphique à l'aide de la courbe cumulative . La valeur d' abscisse qui appartient à la valeur d'ordonnée est recherchée ici . Si la valeur est plus petite et paire, la valeur de l'ordonnée peut également être sélectionnée à la place.
Autres variantes
- La fonction de bien -être est une alternative à la médiane pour trouver le revenu de masse à partir d'une distribution de revenu donnée.
- Une autre façon de traiter les valeurs extrêmes que la médiane consiste à utiliser une moyenne tronquée , qui est obtenue en supprimant les valeurs les plus petites et les plus grandes avant le calcul (généralement 5% des valeurs sont omises). [1]
- Selon Butler [2] , il existe également une définition plus stricte de la médiane (ce qui est moins courant), qui dit que la médiane est la valeur pour laquelle le nombre de valeurs plus petites dans la série est égal au nombre de valeurs plus grandes dans la série . rangée . Pour les cas particuliers tels que 3, 3, 3, 3, 4 ou 1, 2, 3, 3, 3, il existe une procédure qui peut être utilisée pour calculer une médiane unique tout en conservant la définition la plus stricte. [3]
Médiane et moyenne arithmétique : exemple très simple
Dans un groupe de dix personnes, chacun a des revenus mensuels différents. Une personne reçoit 1 000 000 €, les neuf autres reçoivent 1 000 €, 2 000 €, 3 000 € etc. jusqu'à 9 000 €.
La moyenne arithmétique, la "moyenne" - le revenu mensuel de chacune des dix personnes avec la somme de tous les revenus répartis également entre elles - est de 104 500 € dans ce cas. Cependant, une seule personne sur dix gagne plus que cela, les neuf autres nettement moins.
La médiane, en revanche, est de 5 500 €. Cinq personnes gagnent plus que cela, cinq personnes de moins. La médiane marque la limite entre la moitié des revenus les plus élevés et la moitié des revenus les plus faibles.
liens web
- Explications détaillées sur la façon de calculer la médiane sur le "sentier": Wikibooks
- Utilisation des propriétés robustes de la médiane à l'aide de l'exemple de l' ajustement circulaire. ( Mémoire du 2 avril 2010 aux archives Internet ).
- Eric W. Weisstein : Médiane statistique . Dans : MathWorld (anglais).
- AV Prokhorov : médiane (en statistiques) . Dans : Michiel Hazewinkel (éd.) : Encyclopedia of Mathematics . Springer-Verlag et EMS Press, Berlin 2002, ISBN 978-1-55608-010-4 (anglais, en ligne ).
les détails
- ↑ Hans Lohninger : Bases des statistiques. signifie .
- ↑ Christopher Butler, Statistiques en linguistique . 1985
- ↑ Tendance centrale. (N'est plus disponible en ligne.) Archivé de l' original le 2013-01-16 ; récupéré le 9 mai 2016 .