Formula Outlier - Korak za korakom Izračun odstopanja (s primerom)

Formula Outlier ponuja grafično orodje za izračun podatkov, ki se nahajajo zunaj danega niza porazdelitve, ki je lahko notranja ali zunanja stran, odvisno od spremenljivk.

Kaj je formula Outlier?

Odstopanje je podatkovna točka danega vzorca ali opazovanja ali v porazdelitvi, ki leži zunaj celotnega vzorca. Pogosto uporabljeno pravilo, ki pravi, da se bo podatkovna točka štela za odstopanje, če ima več kot 1,5 IQR pod prvim kvartilom ali nad tretjim kvartilom.

Drugače rečeno, najnižji odstopanja naj bodo pod Q1-1,5 IQR, visoki pa naj bodo Q3 + 1,5IQR

Treba je izračunati mediano, kvartile, vključno z IQR, Q1 in Q3.

Formula odstopanja je predstavljena na naslednji način:

Formula za Q1 = ¼ (n + 1) th izraz  Formula za Q3 = ž (n + 1) th izraz  Formula za Q2 = Q3 - Q1

Korak za korakom Izračun Outlier

Za izračun odstopanja je treba upoštevati spodnje korake.

  • 1. korak: Najprej izračunajte kvartile, tj. Q1, Q2 in interkvartil
  • 2. korak: Zdaj izračunajte vrednost Q2 * 1,5
  • 3. korak: Zdaj od vrednosti, izračunane v 2. koraku, odštejte vrednost Q1
  • 4. korak: Tu dodajte Q3 z vrednostjo, izračunano v 2. koraku
  • 5. korak: Ustvarite obseg vrednosti, izračunanih v korakih 3 in 4
  • 6. korak: Razporedite podatke v naraščajočem vrstnem redu
  • 7. korak: Preverite, ali obstajajo vrednosti, ki so pod ali višje od obsega, ustvarjenega v 5. koraku.

Primer

Upoštevajte nabor podatkov z naslednjimi številkami: 10, 2, 4, 7, 8, 5, 11, 3, 12. Izračunati morate vse izstopajoče vrednosti.

Rešitev:

Najprej moramo podatke razporediti v naraščajočem vrstnem redu, da poiščemo mediano, ki bo za nas Q2.

2, 3, 4, 5, 7, 8, 10, 11, 12

Zdaj, ker je število opazovanj je čudno, kar je 9, bi bila mediana leži na 5 th položaj, ki je 7, in enako bo Q2 za ta primer.

Zato je izračun Q1 naslednji -

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 bo -

Q1 = 2,5 izraz

To pomeni, da je Q1 povprečje 2 ND in 3 tretjem položaju stališč, ki je 3 in 4. tod in povprečje Enako (3 + 4) / 2 = 3,5

Zato je izračun Q3 naslednji -

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 bo -

Q3 = 7,5 izraz

To pomeni, da je Q3 povprečje 7 th in 8 th položaj stališč, kar je 10 & 11 tod in povprečje Enako (10 + 11) / 2 = 10,5

Zdaj naj bodo spodnji meji pod Q1-1.5IQR, visoki pa Q3 + 1.5IQR

Torej, vrednosti so 3,5 - (1,5 * 7) = -7 in višji razpon je 10,5 + (1,5 * 7) = 110,25.

Ker ni nobenih opazovanj, ki bi bila nad ali pod 110,25 in -7, v tem vzorcu nimamo nobenih odstopanj.

Primer formule za odstopanje v Excelu (z Excelovo predlogo)

Razredi kreativnega trenerstva razmišljajo o nagrajevanju študentov, ki so med 25%. Vendar se želijo izogniti kakršnim koli odstopanjem. Podatki so za 25 študentov. Z enačbo Outlier ugotovite, ali obstaja odstopanje?

Rešitev:

Spodaj so podani podatki za izračun odstopanja.

Število opazovanj tukaj je 25, naš prvi korak pa bi bil pretvorba zgornjih surovih podatkov v naraščajočem vrstnem redu.

Mediana bo -

Mediana vrednosti = ½ (n + 1)

= ½ = ½ (26)

= 13 TH izraz

Q2 ali mediana je 68,00

Kar je 50% prebivalstva.

Q1 bo -

Q1 = ¼ (n + 1) th člen

= ¼ (25 + 1)

= ¼ (26)

= 6,5 TH izraz, ki je enaka 7 th čas

Q1 je 56,00, kar je spodnjih 25%

Q3 bo -

Na koncu je Q3 = ¾ (n + 1) th

= ¾ (26)

= 19.50 izraz

Tu povprečne potrebe je treba sprejeti, kar je 19 th in 20 th pogoji, ki so 77 in 77, in povprečje enako (77 + 77) / 2 = 77,00

Q3 je 77, kar je najvišjih 25%

Nizko območje

Zdaj naj bodo spodnji meji pod Q1-1.5IQR, visoki pa Q3 + 1.5IQR

High Range -

Torej, vrednosti so 56 - (1,5 * 68) = -46 in višji razpon je 77 + (1,5 * 68) = 179.

Izstopajočih ni.

Ustreznost in uporaba

Zelo pomembno je vedeti, da lahko obstajajo podatki, ki bi se zaradi takšne vrednosti izkrivili. Vzemimo primer opazovanj 2, 4, 6, 101 in zdaj, če nekdo vzame povprečje teh vrednosti, bo 28,25, toda 75% opazovanj leži pod 7, zato bi bila napačna odločitev glede opazovanja ta vzorec.

Tu lahko opazimo, da se zdi, da 101 očitno orisuje, in če je to odstranjeno, bi bilo povprečje 4, kar o vrednostih ali opažanjih pravi, da ležijo v območju 4. Zato je zelo pomembno, da to izvedemo izračun, da se prepreči kakršna koli napačna uporaba podatkov, ki vodijo do podatkov. Statistiki po vsem svetu jih pogosto uporabljajo, kadar koli izvajajo kakršne koli raziskave.

Zanimive Članki...