Histogram – szybka analiza danych statystycznych w praktyce
Czy istnieje narzędzie jakościowe, które ma ogon? Brzmi trochę absurdalnie, ale czemu by nie. Pytanie tylko jakie będzie jego zastosowanie i czy rzeczywiście go potrzebujemy. Mowa oczywiście o ogonie a nie samym narzędziu. To bowiem postaramy się wykorzystać do uporządkowania danych oraz ich późniejszej interpretacji. W jakim celu? Aby zapewnić, że procesy realizują przyjęte założenia. Brzmi znajomo? Powinno. Histogram, bo o nim mowa, to jedno z siedmiu tradycyjnych narzędzi zarządzania jakością. Kaoru Ishikawa, który jest autorem zestawienia wyselekcjonował różne metodologie służące albo rozwiązywaniu problemów albo zapewnieniu prawidłowego działania wspomnianych procesów. Omawiane w tym materiale narzędzie przypisane zostało do tej drugiej grupy. Nie pomoże nam ono co prawda rozwiązać naszego problemu, jednak w bardzo wielu przypadkach dzięki niemu dostaniemy sygnał, że dzieje się coś nie tak, ale zanim jeszcze dany problem wystąpi. Histogram jest jednocześnie ostatnim z grupy wspomnianych siedmiu narzędzi zarządzania jakością, które omawiamy na blogu. Rozpoczniemy od krótkiej genezy narzędzia a następnie przejdziemy do budowy histogramu i sprawdzimy jak go opracować krok po kroku. Pomocny w tym celu będzie nam Excel, który podsuwa nam wprost prawie gotowe rozwiązanie. Tradycyjnie nie braknie przykładów praktycznych, aby lepiej przyswoić omawiany materiał. Miłej lektury!
W skrócie
Czytając ten artykuł dowiesz się:
- Czym właściwie jest histogram oraz jaka jest geneza narzędzia.
- Jak określić liczbę i długość klas.
- Jak prawidłowo zinterpretować histogram, oraz czy zawsze te same dane będą prezentowane w analogiczny sposób.
- Jak w prosty sposób zmodyfikować histogram, aby prezentował on bardziej precyzyjne dane.
Co to jest histogram i jaka jest jego geneza?
Histogram to nic innego jak forma wykresu, której rolą jest graficzne przedstawienie zebranych danych statystycznych. Narzędzie jest proste w przygotowaniu i znacząco ułatwia interpretację danych. Zwłaszcza jeśli te występują w dużych ilościach. Oparte jest ono o wykres XY, gdzie:
– X – zakres wartości zmiennej
– Y – częstotliwość występowania
Dane prezentowane są w formie przylegających do siebie kolumn. Natomiast każda z nich obejmuje osobną klasę (przedział) wyników. Bardziej szczegółowo o tym jak jest zbudowany histogram powiemy sobie w dalszej części artykułu. Zanim to jednak nastąpi sprawdźmy pokrótce jaka jest geneza powstania słowa histogram.
Jego historia sięga końca XIX wieku a dokładniej 1891 roku, kiedy to angielski matematyk Karl Pearson po raz pierwszy użył określenia histogram. Powstało ono na bazie dwóch greckich słów: ιστos (czyt. istos) oraz γραµµα (czyt. gram-ma), które w dosłownym tłumaczeniu oznaczają maszt i coś zapisanego. Jeśli sięgnąć dalej to historia doprowadzi nas do pierwszej publikacji samego wykresu słupkowego, która miała miejsce w 1786 roku. Z dużą dozą prawdopodobieństwa wykresy tego typu stosowane były już dużo wcześniej jednak brak jest aktualnie na to dowodów.
Kolejne artykuły w każdy poniedziałek!
Polub moją stronę na Facebooku i dowiedz się o nich jako pierwszy!
Budowa histogramu krok po kroku
Skoro wiemy już mniej więcej czym jest histogram to przejdźmy do przykładu praktycznego, gdzie stworzymy nasz pierwszy histogram. Aby jednak tego dokonać niezbędne będą obserwacje, czyli w naszym przypadku wyniki pomiarów.
Otrzymaliśmy reklamację od naszego klienta dotyczącą zbyt dużej średnicy zewnętrznej wałka. Okazało się, że w ostatnio wysłanej partii obejmującej 50 sztuk znajdowały się dwie niezgodne części. Nie zostały one wychwycone, bo rok wcześniej dla tego wymiaru wprowadziliśmy kontrolę wyrywkową.
Ponieważ klient pilnie potrzebuje dwóch dodatkowych sztuk, aby dokończyć montaż postanowiliśmy sprawdzić nasz stan magazynowy. Znajduje się tam gotowa do wysyłki kolejna partia 50 sztuk. Tym razem jednak niezbędne będzie zacieśnienie poziomu kontroli i wykonanie pomiaru dla każdego wałka. Wymagania konstrukcyjne dla tej charakterystyki to:
– wymiar nominalny: Ø 50 [mm]
– tolerancja: ± 0,3 [mm]
Przed nami kilka kolejnych kroków, które rozpoczniemy od zebrania niezbędnych danych a skończymy na wykonaniu odpowiedniej analizy stosując histogram.
Krok 1. Zebranie obserwacji
Otrzymaliśmy wyniki z działu kontroli jakości, gdzie nie stwierdzono niezgodnych sztuk. Do ich zebrania zastosowano inne narzędzie jakościowe: arkusz kontrolny. Jako ciekawostkę można podać fakt, że istnieje dedykowany arkusz kontrolny, gdzie dane można zbierać w formie rozkładu prawdopodobieństwa. Jednak w tym wypadku celowo go nie użyjemy. Jeśli go jeszcze nie znacie to zapraszam do przeczytania osobnego artykułu na blogu, gdzie omówionych zostało pięć różnych typów arkuszy kontrolnych:
Arkusz Kontrolny – jak zbierać dane, aby robić to lepiej
Możemy zatem wysłać dwie dodatkowe części do naszego klienta. Dla nas to jednak nie koniec. Właściwie dopiero w tym momencie przechodzimy do działania. Sprawdźmy najpierw jakie były wyniki pomiarów:
Numer pomiaru | Wynik | Numer pomiaru | Wynik |
---|---|---|---|
1 | 50,04 | 26 | 50,29 |
2 | 50,28 | 27 | 50,28 |
3 | 49,72 | 28 | 50,27 |
4 | 50,29 | 29 | 50,29 |
5 | 50,03 | 30 | 50,29 |
6 | 50,29 | 31 | 49,89 |
7 | 50,13 | 32 | 50,28 |
8 | 50,29 | 33 | 50,29 |
9 | 50,20 | 34 | 50,15 |
10 | 50,00 | 35 | 50,29 |
11 | 50,27 | 36 | 50,10 |
12 | 50,22 | 37 | 50,24 |
13 | 50,25 | 38 | 50,29 |
14 | 50,29 | 39 | 50,29 |
15 | 50,26 | 40 | 50,28 |
16 | 49,89 | 41 | 50,27 |
17 | 50,28 | 42 | 50,23 |
18 | 50,24 | 43 | 50,04 |
19 | 50,20 | 44 | 50,29 |
20 | 50,29 | 45 | 50,29 |
21 | 50,29 | 46 | 50,21 |
22 | 50,25 | 47 | 50,29 |
23 | 50,28 | 48 | 50,28 |
24 | 50,06 | 49 | 49,84 |
25 | 50,00 | 50 | 50,29 |
Część wyników znajduje się blisko górnej a część w pobliżu dolnej granicy tolerancji jednakże skoro pomiary potwierdziły zgodność każdego wyrobu to teoretycznie nie powinno być problemu. Czy jednak na pewno? Aby się o tym przekonać niezbędne będzie bardziej szczegółowe wykonanie analizy zebranych danych. Pomocny w tym będzie właśnie histogram.
Krok 2. Ustalenie liczby klas
Zanim jeszcze posegregujemy nasze dane niezbędne będzie określenie liczby klas zwanych również przedziałami. Oznacza się je literą k. W tym celu dość powszechne jest stosowanie wzoru:
k = √n, gdzie n określa liczbę obserwacji.
Bazując na powyższym liczba przedziałów dla naszych 50 obserwacji wynosi: 7,071068. Jednak ze względu na proste pole tolerancji dużo praktyczniejsze będzie zastosowanie 6 przedziałów.
Krok 3. Określenie długości klas
Podstawową zasadą jaką musimy przestrzegać jest zapewnienie, że każda z klas jest tej samej długości. Pewną ciekawostką jest fakt, że długością nazywamy szerokość jaką będzie miała każda z klas. Aby ją obliczyć potrzebować będziemy liczbę klas, którą już określiliśmy oraz rozstęp.
Rozstęp to nic innego jak różnica między największą i najmniejszą obserwacją. Obliczymy go również ze wzoru jednak zanim to zrobimy niezbędne będzie określenie wspomnianych wartości. Bazując na naszym przykładzie będą to odpowiednio:
xmax = 50,29 [mm]
xmin = 49,72
Teraz możemy już policzyć rozstęp korzystając z wspomnianego wzoru:
R = xmax – xmin
Zatem, w naszym przypadku rozstęp wynosi:
R = 50,29 – 49,72 = 0,58 [mm]
Mamy już wszystkie brakujące elementy co pozwala nam na obliczenie długości klas w naszym histogramie. W tym celu użyjemy następującego wzoru:
W = R/k
W przypadku naszej analizy długość klasy wynosi:
W = 0,57/6 = 0,095 [mm]
Poniżej zestawienie wszystkich klas. Początek pierwszej klasy opiera się o wartość xmin, zaś koniec ostatniej o xmax.
Początek klasy [mm] | Koniec klasy [mm] |
---|---|
49,720 | 49,815 |
49,815 | 49,910 |
49,910 | 50,005 |
50,005 | 50,100 |
50,100 | 50,195 |
50,195 | 50,290 |
Długość klas ma istotne znaczenie jeśli chodzi o interpretację histogramu, o czym przekonamy się w kroku szóstym.
Krok 4. Określenie częstotliwości występowania
Pozostał nam ostatni krok zanim narysujemy nasz histogram. Zebrane obserwacje będziemy musieli posegregować i przypisać do każdej z klas. Właściwie już na tym etapie otrzymamy wynik naszej analizy, który da nam odpowiedź na pytanie, czy z naszym procesem dzieje się coś nie tak. Jednakże dość często pewne trendy będziemy w stanie zaobserwować dopiero na wykresie. Stworzymy zatem tabele częstotliwości występowania. Wartości graniczne przypisane zostaną do klasy o mniejszej wartości.
Początek klasy [mm] | Koniec klasy [mm] | Częstotliwość |
---|---|---|
49,720 | 49,815 | 1 |
49,815 | 49,910 | 3 |
49,910 | 50,005 | 2 |
50,005 | 50,100 | 5 |
50,100 | 50,195 | 2 |
50,195 | 50,290 | 37 |
Krok 5. Narysowanie histogramu
Posiadając powyższe dane do stworzenia histogramu wystarczy nam nawet kartka i długopis. Możemy posłużyć się także oprogramowaniem typu Excel, które pozwoli nam na szybsze stworzenie wykresu a nawet teoretycznie na pominięcie niektórych z dotychczasowych kroków. Wykonany histogram często jednak będzie wymagał wprowadzenia dodatkowej korekcji, jak chociażby w liczbie klas lub zmiany ich długości. Dlatego warto wcześniej wykonać wszystkie obliczenia zwłaszcza, że nie są one zbyt czasochłonne.
Poniższy rysunek przedstawia histogram stworzony na bazie naszych wcześniejszych obliczeń:
Krok 6. Interpretacja histogramu
Ocena otrzymanych wyników powinna polegać na weryfikacji kształtu histogramu, jego zmienności a także jeśli zajdzie taka potrzeba średniej. Nie zawsze jednak tak jest. W niektórych przypadkach podczas interpretacji otrzymanych wyników analizowany jest wyłącznie sam kształt histogramu. I takie właśnie podejście możemy zastosować w przypadku narysowanego przed chwilą histogramu. Na jego podstawie widzimy, że średnica zewnętrzna dla większości zmierzonych wałków znajduje się blisko górnej granicy tolerancji. Dzięki temu wiemy również, że bez wprowadzenia zmian w procesie będziemy mieli bardzo duże ryzyko ponownego wystąpienia niezgodnych części.
Podejście bazujące wyłączenie na ocenie kształtu histogramu może być wystarczające, ale równie dobrze może się okazać, że na podstawie takich samych wyników obserwacji stworzymy różne histogramy. Jak? Wystarczy zmienić długość klas. Możemy to zaobserwować na poniższym przykładzie, gdzie długość klas została zwiększona o 50%.
Podczas oceny kształtu histogramu możemy spotkać się z kilkoma jego typami. Będą to:
– symetryczny – o wyglądzie przypominającym dzwon lub górę, będący lub zbliżony do rozkładu normalnego
– skośny – wartość średnia jest znacząco przesunięta w lewo lub prawo, zaś po przeciwległej stronie występuje charakterystyczny ogon
– jednorodny – częstotliwość występowania obserwacji w każdym z przedziałów jest jednakowa, lub bardzo zbliżona.
Kształt histogramu może mieć również dwa wierzchołki. Z takim przypadkiem spotkamy się zwłaszcza w przypadku dużej liczby klas oraz znaczącej liczby obserwacji.
Sam histogram może mieć również luki w efekcie prezentując wyniki odstające. W takim wypadku warto zweryfikować, czy posiadane obserwacje są kompletne, lub też czy odstająca wartość nie jest wynikiem błędu pomiaru. Wynik odstający widoczny jest na poniższym histogramie.
Kolejną kwestią jest zmienność. Zasada w tym przypadku jest prosta. Im szerszy jest histogram, czyli im więcej jest klas zawierających obserwacje tym większa jest zmienność. Analogicznie im węższy tym mniejsza jest zmienność. Zmienność jest ściśle powiązana z odchyleniem standardowym, które rośnie wraz ze wzrostem tej cechy.
Ostatnim punktem analizy jest średnia wartość cechy. Warto wziąć ją pod uwagę jeśli histogram wykonywany jest okresowo dla pewnej populacji danych – przykładowo dla każdej partii.
Jak udoskonalić histogram?
Histogram dzięki swojej prostocie pozwala na wykonanie dość szybkiej analizy zebranych danych. Prezentowane wyniki będą jednak dość ogólne. Jest to problematyczne zwłaszcza w kontekście oceny wyników pomiarów. Jak wiadomo każda charakterystyka wymiarowa posiada dwie a trochę rzadziej wyłącznie jedną granicę tolerancji. Z tym drugim przypadkiem możemy się spotkać na przykład podczas pomiarów chropowatości powierzchni, gdzie często wymagania mówią o maksymalnej dopuszczalnej wartości. Stosując histogram do analizy takich danych mamy co prawda pewien obraz dotyczący rozkładu wyników pomiarów jednakże nie zawiera on zbyt wielu szczegółów. Właściwie to może nawet zostać w pewien sposób zaburzony poprzez nieodpowiedni dobór ilości lub długości przedziałów. Istotne w takich przypadku będą jednak te klasy, które graniczą z maksymalną lub minimalną wartością tolerancji. Właśnie z takich przypadkiem spotkaliśmy się w analizowanym przykładzie. Jak udało nam się ustalić spora ilość obserwacji znalazła się w ostatniej klasie. Jednakże ze względu na szerokość przedziału wynoszącą 0,095 mm nie do końca wiemy jak źle jest. Histogram bowiem informuje nas wyłącznie o częstotliwości występowania w danej klasie. Zatem wyniki zawarte w niej mogą być rozłożone po całym zakresie lub też skumulowane blisko górnego końca danego przedziału. Pewnym rozwiązaniem, które pomogłoby udoskonalić histogram mogłoby być obliczanie dodatkowej wartości średniej dla przedziałów granicznych lub też podawanie procentowego udziału wyników w danej klasie, które znajdują się w pewnej odległości od granicy tolerancji. Innym rozwiązaniem, które może wydawać się skuteczne zwłaszcza w przypadku dużej ilości obserwacji dla każdej z klas, mogłoby być zastosowanie gradientu kolorystycznego na danym słupku. Pozwoliłoby to na przekazanie w sposób graficzny prostej informacji o rozkładzie wyników w danej klasie. Kolejnym rozwiązaniem tego problemu może być wykonanie dodatkowych dwóch histogramów, które obrazowałyby rozkład obserwacji w danej klasie. Jednakże tutaj również musimy pamiętać, aby ilość posiadanych wyników nie była zbyt mała.
Podsumowując…
Histogram to dość proste i powszechnie stosowane narzędzie, które pozwala na wykonanie analizy zebranych danych liczbowych. Stosowany jest nie tylko w przemyśle i szeroko pojętym zarządzaniu jakością, ale również do prezentacji różnego typu danych statystycznych a nawet w fotografii opisując przestrzeń tonalną zdjęcia. Graficzna forma pozwala na łatwą interpretację otrzymanych wyników nawet przez osoby, które nigdy wcześniej nie spotkały się z tym narzędziem. Histogram nie jest jednak pozbawiony wad. Prezentuje bowiem wyłącznie przedziały wyników, ale bez informacji o tym ile z obserwacji znajduje się na granicach każdego z nich. Ma to znaczenie zwłaszcza w przypadku oceny badanej charakterystyki wyrobu, gdzie spora ilość pomiarów wystąpiła blisko górnej, bądź dolnej tolerancji. Dodatkowo poprzez zmianę ilości lub długości klas można w pewien sposób manipulować kształtem histogramu. A jakie są Wasze doświadczenia ze stosowaniem tego narzędzia? Czy spełnia ono swoją rolę, czy jednak preferujecie inne metodologie do analizy danych. Podzielcie się swoimi opiniami w sekcji komentarzy poniżej. Do zobaczenia w następny poniedziałek!
Inne materiały opisujące narzędzia jakościowe znajdziecie klikając w poniższy baner: