Hogyan (és miért) az Outliers funkció használata az Excelben
A kimenet egy olyan érték, amely lényegesen magasabb vagy alacsonyabb, mint az adataiban szereplő legtöbb érték. Ha Excel-t használ az adatok elemzésére, akkor a kiugró értékek az eredményeket ferdíthetik. Például az adatkészlet átlagának átlaga valóban tükrözi az Ön értékeit. Az Excel néhány hasznos funkciót biztosít a kiugró adatok kezeléséhez, ezért nézzük meg.
Gyors példa
Az alábbi képen a kiugró értékek ésszerűen könnyen észrevehetőek - a Eric-hez rendelt két érték és a Ryan értékének 173 értéke. Ilyen adatkészletben elég könnyű megtalálni és kezelni ezeket az eltéréseket kézzel.
Nagyobb adatcsoportban ez nem így lesz. Fontos a kiugró adatok azonosítása és a statisztikai számításokból való eltávolítása, és ezt nézzük meg, hogy hogyan kell ezt a cikket tenni ebben a cikkben.
Hogyan lehet megtalálni az Outliers adatokat az adatokban
Az adatkészlet kiugró részeinek megkereséséhez az alábbi lépéseket tesszük:
- Számítsuk ki az 1. és a 3. kvartiliseket (arról beszélünk, hogy mit jelentenek egy kicsit).
- Értékelje az interkvartilis tartományt (ezeket egy kicsit tovább fogjuk magyarázni).
- Adja meg az adattartomány felső és alsó határait.
- Használja ezeket a határokat a távoli adatpontok azonosításához.
Ezen értékek tárolására az alábbi képen látható adatállomány jobb oldalán található cellatartomány kerül felhasználásra.
Kezdjük el.
Első lépés: Számítsa ki a kvartiliseket
Ha az adatokat negyedre osztja, akkor mindegyik csoportot kvartilisnek nevezik. A tartományban a legalacsonyabb 25% -uk az első negyedet, a következő 25% -át a második kvartilisé, és így tovább. Először ezt a lépést tesszük, mert a legszélesebb körben használt meghatározás egy olyan adatpont, amely több mint 1,5 interkvartilis tartományt (IQR) tartalmaz az 1. kvartilis alatt, és 1,5 interkvartilis tartományt a 3. kvartilis felett. Ezen értékek meghatározásához először meg kell találnunk, hogy mi a kvartilis.
Az Excel QUARTILE funkciót biztosít a kvartilisek kiszámításához. Két információt igényel: a tömböt és a kvartot.
= QUARTILE (tömb, quart)
A sor az értékek tartománya. És a kvart egy olyan szám, amely a visszatérni kívánt kvartilt képviseli (pl. 1 az 1-nekutca kvartilis, 2 a 2. kvartilis számára stb.).
Jegyzet: Az Excel 2010-ben a Microsoft kiadta a QUARTILE.INC és a QUARTILE.EXC funkciókat a QUARTILE funkció javításaként. A QUARTILE visszafelé kompatibilis, ha több Excel-verziót használ.
Térjünk vissza a példaasztalunkra.
Az 1 kiszámításautca Kvartilis az alábbi képletet használhatjuk az F2 cellában.
= QUARTILE (B2: B14,1)
A képlet megadásakor az Excel a quart argumentum beállításainak listáját tartalmazza.
A 3 kiszámításard kvartilis, akkor az F3 cellában az előzőhez hasonló képletet is megadhatunk, de egy helyett egy helyett.
= QUARTILE (B2: B14,3)
Most megvan a kvartilis adatpontok a cellákban.
Második lépés: Értékelje az interkvartilis tartományt
Az interkvartilis tartomány (vagy IQR) az adatok 50% -ának középértéke. Ez az 1. kvartilis érték és a 3. kvartilis érték közötti különbség.
Egy egyszerű képletet fogunk használni az F4 cellába, amely kivonja az 1-etutca kvartilis a 3rd kvartilis:
= F3-F2
Most láthatóvá válik az interkvartilis tartomány.
Harmadik lépés: Vissza az alsó és felső határokat
Az alsó és felső határok a használni kívánt adattartomány legkisebb és legnagyobb értékei. A határértékeknél kisebb vagy nagyobb értékek a kiugró értékek.
Az alsó határértéket az F5 cellában kiszámítjuk az IQR érték 1,5-ös szorzatával, majd a Q1 adatpontból való levonásával:
= 2- (1,5 * F4)
Jegyzet: Az ebben a képletben szereplő zárójelek nem szükségesek, mert a szorzó rész kiszámítása a kivonási rész előtt történik, de a képletet könnyebb olvasni.
Ahhoz, hogy kiszámítsuk az F6 cellában lévő felső határértéket, ismételten megszorozzuk az IQR-t, de ezúttal hozzáad a Q3 adatponthoz:
= F3 + (1,5 * F4)
Negyedik lépés: Az Outliers azonosítása
Most, hogy megvan az összes alapul szolgáló adatunk, itt az ideje, hogy azonosítsuk a távoli adatpontjainkat, amelyek alacsonyabbak az alsó határértéknél, vagy magasabbak, mint a felső határérték..
Ezt a logikai tesztet az OR funkcióval fogjuk használni, és az alábbi kritériumoknak megfelelő értékeket jelenítjük meg a következő képlet beírásával: C2:
= Vagy (B2 $ F $ 6)
Ezután átmásoljuk ezt az értéket a C3-C14 celláinkba. A TRUE érték egy kimenetre utal, és amint láthatjuk, két adataink vannak.
A kiugró értékek figyelmen kívül hagyása az átlagos átlag kiszámításakor
A QUARTILE funkció használatával számítsuk ki az IQR-t, és dolgozzunk a legszélesebb körben használt meghatározással. Az értékek átlagának átlagának kiszámításánál és a kiugró értékek figyelmen kívül hagyásánál gyorsabb és könnyebb funkció is van. Ez a technika nem fogja azonosítani az előbbieket, de ez lehetővé teszi számunkra, hogy rugalmasak legyünk azzal, amit mi is figyelembe vehetünk a túlnyomórészt.
A szükséges funkciót TRIMMEAN néven hívjuk, és az alábbi szintaxist láthatjuk:
= TRIMMEAN (tömb, százalék)
A sor az átlagolt értékek tartománya. A százalék az adatkészletek százalékos aránya az adathalmaz felső és alsó részéből való kizáráshoz (megadhatja azt százalékban vagy tizedes értékben).
Az alábbi képletet a példánkban a D3 cellába adtuk, hogy kiszámítsuk az átlagot és kizárjuk a kiugró értékek 20% -át.
= TRIMMEAN (B2: B14, 20%)
Itt két különböző funkciója van a kiugró adatok kezelésére. Függetlenül attól, hogy bizonyos jelentési igényekre szeretné-e azonosítani őket, vagy kizárni őket számításokból, például átlagokból, az Excel funkciója megfelel az Ön igényeinek.