Homepage » hogyan kell » Hogyan (és miért) az Outliers funkció használata az Excelben

    Hogyan (és miért) az Outliers funkció használata az Excelben

    A kimenet egy olyan érték, amely lényegesen magasabb vagy alacsonyabb, mint az adataiban szereplő legtöbb érték. Ha Excel-t használ az adatok elemzésére, akkor a kiugró értékek az eredményeket ferdíthetik. Például az adatkészlet átlagának átlaga valóban tükrözi az Ön értékeit. Az Excel néhány hasznos funkciót biztosít a kiugró adatok kezeléséhez, ezért nézzük meg.

    Gyors példa

    Az alábbi képen a kiugró értékek ésszerűen könnyen észrevehetőek - a Eric-hez rendelt két érték és a Ryan értékének 173 értéke. Ilyen adatkészletben elég könnyű megtalálni és kezelni ezeket az eltéréseket kézzel.

    Nagyobb adatcsoportban ez nem így lesz. Fontos a kiugró adatok azonosítása és a statisztikai számításokból való eltávolítása, és ezt nézzük meg, hogy hogyan kell ezt a cikket tenni ebben a cikkben.

    Hogyan lehet megtalálni az Outliers adatokat az adatokban

    Az adatkészlet kiugró részeinek megkereséséhez az alábbi lépéseket tesszük:

    1. Számítsuk ki az 1. és a 3. kvartiliseket (arról beszélünk, hogy mit jelentenek egy kicsit).
    2. Értékelje az interkvartilis tartományt (ezeket egy kicsit tovább fogjuk magyarázni).
    3. Adja meg az adattartomány felső és alsó határait.
    4. Használja ezeket a határokat a távoli adatpontok azonosításához.

    Ezen értékek tárolására az alábbi képen látható adatállomány jobb oldalán található cellatartomány kerül felhasználásra.

    Kezdjük el.

    Első lépés: Számítsa ki a kvartiliseket

    Ha az adatokat negyedre osztja, akkor mindegyik csoportot kvartilisnek nevezik. A tartományban a legalacsonyabb 25% -uk az első negyedet, a következő 25% -át a második kvartilisé, és így tovább. Először ezt a lépést tesszük, mert a legszélesebb körben használt meghatározás egy olyan adatpont, amely több mint 1,5 interkvartilis tartományt (IQR) tartalmaz az 1. kvartilis alatt, és 1,5 interkvartilis tartományt a 3. kvartilis felett. Ezen értékek meghatározásához először meg kell találnunk, hogy mi a kvartilis.

    Az Excel QUARTILE funkciót biztosít a kvartilisek kiszámításához. Két információt igényel: a tömböt és a kvartot.

    = QUARTILE (tömb, quart)

    A sor az értékek tartománya. És a kvart egy olyan szám, amely a visszatérni kívánt kvartilt képviseli (pl. 1 az 1-nekutca kvartilis, 2 a 2. kvartilis számára stb.).

    Jegyzet: Az Excel 2010-ben a Microsoft kiadta a QUARTILE.INC és a QUARTILE.EXC funkciókat a QUARTILE funkció javításaként. A QUARTILE visszafelé kompatibilis, ha több Excel-verziót használ.

    Térjünk vissza a példaasztalunkra.

    Az 1 kiszámításautca Kvartilis az alábbi képletet használhatjuk az F2 cellában.

    = QUARTILE (B2: B14,1)

    A képlet megadásakor az Excel a quart argumentum beállításainak listáját tartalmazza.

    A 3 kiszámításard kvartilis, akkor az F3 cellában az előzőhez hasonló képletet is megadhatunk, de egy helyett egy helyett.

    = QUARTILE (B2: B14,3)

    Most megvan a kvartilis adatpontok a cellákban.

    Második lépés: Értékelje az interkvartilis tartományt

    Az interkvartilis tartomány (vagy IQR) az adatok 50% -ának középértéke. Ez az 1. kvartilis érték és a 3. kvartilis érték közötti különbség.

    Egy egyszerű képletet fogunk használni az F4 cellába, amely kivonja az 1-etutca kvartilis a 3rd kvartilis:

    = F3-F2

    Most láthatóvá válik az interkvartilis tartomány.

    Harmadik lépés: Vissza az alsó és felső határokat

    Az alsó és felső határok a használni kívánt adattartomány legkisebb és legnagyobb értékei. A határértékeknél kisebb vagy nagyobb értékek a kiugró értékek.

    Az alsó határértéket az F5 cellában kiszámítjuk az IQR érték 1,5-ös szorzatával, majd a Q1 adatpontból való levonásával:

    = 2- (1,5 * F4)

    Jegyzet: Az ebben a képletben szereplő zárójelek nem szükségesek, mert a szorzó rész kiszámítása a kivonási rész előtt történik, de a képletet könnyebb olvasni.

    Ahhoz, hogy kiszámítsuk az F6 cellában lévő felső határértéket, ismételten megszorozzuk az IQR-t, de ezúttal hozzáad a Q3 adatponthoz:

    = F3 + (1,5 * F4)

    Negyedik lépés: Az Outliers azonosítása

    Most, hogy megvan az összes alapul szolgáló adatunk, itt az ideje, hogy azonosítsuk a távoli adatpontjainkat, amelyek alacsonyabbak az alsó határértéknél, vagy magasabbak, mint a felső határérték..

    Ezt a logikai tesztet az OR funkcióval fogjuk használni, és az alábbi kritériumoknak megfelelő értékeket jelenítjük meg a következő képlet beírásával: C2:

    = Vagy (B2 $ F $ 6)

    Ezután átmásoljuk ezt az értéket a C3-C14 celláinkba. A TRUE érték egy kimenetre utal, és amint láthatjuk, két adataink vannak.

    A kiugró értékek figyelmen kívül hagyása az átlagos átlag kiszámításakor

    A QUARTILE funkció használatával számítsuk ki az IQR-t, és dolgozzunk a legszélesebb körben használt meghatározással. Az értékek átlagának átlagának kiszámításánál és a kiugró értékek figyelmen kívül hagyásánál gyorsabb és könnyebb funkció is van. Ez a technika nem fogja azonosítani az előbbieket, de ez lehetővé teszi számunkra, hogy rugalmasak legyünk azzal, amit mi is figyelembe vehetünk a túlnyomórészt.

    A szükséges funkciót TRIMMEAN néven hívjuk, és az alábbi szintaxist láthatjuk:

    = TRIMMEAN (tömb, százalék)

    A sor az átlagolt értékek tartománya. A százalék az adatkészletek százalékos aránya az adathalmaz felső és alsó részéből való kizáráshoz (megadhatja azt százalékban vagy tizedes értékben).

    Az alábbi képletet a példánkban a D3 cellába adtuk, hogy kiszámítsuk az átlagot és kizárjuk a kiugró értékek 20% -át.

    = TRIMMEAN (B2: B14, 20%)


    Itt két különböző funkciója van a kiugró adatok kezelésére. Függetlenül attól, hogy bizonyos jelentési igényekre szeretné-e azonosítani őket, vagy kizárni őket számításokból, például átlagokból, az Excel funkciója megfelel az Ön igényeinek.