Rozpoznawanie stanu emocjonalnego z wykorzystaniem sygnału EEG

Autor: Krzysztof Nomejko
Prowadzący: dr inż. Witold Paluszyński
Raport wykonany w ramach projektu z przedmiotu "Metody i Algorytmy Sztucznej Inteligencji".
30.01.2014

Recognition of emotional state using EEG signal data

Author: Krzysztof Nomejko
Instructor: Witold Paluszyński, PhD
The project described in this report has been completed to fulfill the requirements for the course: Methods of artificial intelligence.
30.01.2014

Abstract

In this project we wanted to implement the machine learning of emotional states from the EEG signal data. The first approach was based on the method described in [1]. Authors of [1] used the set of six parameters (shown in the picture 1). To do this, we used the DEAP database (described in [2]), which is free for non-comercial use, and conducted all of the experiments on it. The primal goal, however, was not achieved and it could not be strictly verified what is the cause of this.

Also, two other methods were presented. First one tried to recreate [1] as well, but with different set of parameters, which also failed. The second one was taken directly from [2], and involved classification of high/low valence and high/low arousal (in the PAD (pleasure-arousal-dominance) space [3]) with the described set of 216 parameters. Classification of the arousal state brought the best results.

The overall conclusion is to try developing a better set of parameters for high/low valence and high/low arousal classification, as it still needs a major improvement, but seems to be promising.


Opis zadania

Celem zadania było przeprowadzenie uczenia maszynowego pod kątem rozpoznawania stanów emocjonalnych na bazie sygnału elektroencefalograficznego. Początkowo postanowiono opierać się na metodzie wykorzystanej w pracy [1]. Opisuje ona metodę parametryzacji surowego sygnału elektroencefalograficznego (EEG) pod kątem rozpoznawania emocji: szczęścia, smutku i stanu zrelaksowania z wykorzystaniem uczenia maszynowego. Zaproponowano w niej użycie zestawu 6 parametrów (patrz rys. 1) do ekstrakcji cech sygnału. Dane pomiarowe do badań zebrano z użyciem elektrod T3, T4, P4 i F4 (opis wg. systemu 10-20, który normalizuje umiejscowienie elektrod w pomiarach EEG w procentowych odległościach między punktami na ludzkiej głowie, więcej informacji na ten temat można znaleźć w dokumencie [6]). W celu wywołania żądanego stanu emocjonalnego w trakcie akwizycji danych badanych pobudzano poprzez wyświetlanie fragmentów wideoklipów o silnym nacechowaniu emocjonalnym.

parametryzacja
Rysunek 1: Parametry służące do ekstrakcji cech sygnału zaproponowane w [1].

Jak pokazano w dalszej części pracy [1], znaczącą wagę dla klasyfikacji próbek przy uczeniu maszynowym miały jedynie parametry γ i δ. Pominięcie pozostałych z nich powodowało marginalny wzrostu błędu.

Jako materiał do parametryzacji wykorzystano bazę danych opisaną w pracy [2]. Baza DEAP jest bazą pomiarów sygnałów fizjologicznych stworzoną pod kątem badań nad analizą emocji. Twórcy udostępniają ją za darmo do celów niekomercyjnych (dostęp uzyskać można po przesłaniu skanu podpisanej licencji EULA). Zawiera ona wektory pomiarów, na które składają się: 32 sygnały EEG (rozmieszczone wg. systemu 10-20), oporność skóry, sygnały EOG (śledzenie ruchu gałek ocznych, artefakty z tego sygnału mogą pojawiać się jako zakłócenia w odczytach z pobliskich elektrod EEG), temperatura ciała, tempo i głębokość oddechu oraz dane z pletysmografu (pomiar ukrwienia skóry). Zamieszczone są również stowarzyszone wartości oceny afektywnej. Pomiary przeprowadzono dla 32 badanych, każdy z nich oglądał 40 minutowej długości fragmentów wideoklipów muzycznych, po każdym z nich dokonując oceny swojego stanu emocjonalnego podczas projekcji poprzez rzutowanie go na przestrzeń PAD [3] w zakresie 1-9, oraz oceniając stopień polubienia danego utworu, również w skali 1-9.

system 10-20
Rysunek 2: Przykład rozmieszczenia elektrod do pomiaru EEG w systemie 10-20.

Przestrzeń PAD (pleasure-arousal-dominance) służy do oceny stanów afektywnych. Można w niej wyróżniać obszary odpowiadające poszczególnym emocjom podstawowym, co stanowi o jej wysokiej wartości jako narzędzia, bowiem jej użycie zamiast tradycyjnej klasyfikacji emocji nie powoduje zatracenia informacji np. o nasileniu stanu emocjonalnego. Pozwoliła ona między innymi na zastosowanie innego podejścia do klasyfikacji próbek podczas użycia bazy DEAP w tym projekcie.

W niniejszym projekcie, oprócz podejścia z pracy [1], spróbowano również kilku innych sposobów parametryzacji sygnału EEG, wybrane z nich zostaną opisane w celu porównania w tym raporcie. Obróbki danych w celu obliczenia parametrów próbek dokonywano z użyciem środowiska Octave [5] (na licencji GNU), a uczenia maszynowego dokonywano z wykorzystaniem toolkitu Weka [4] (na licencji GNU). W celu umożliwienia bezpośredniego porównania różnych metod parametryzacji we wszystkich przypadkach podane wyniki otrzymane są poprzez użycie naiwnego klasyfikatora bayesowskiego z użyciem 80% próbek jako zbioru uczącego oraz 20% jako zbioru testowego.

Krótki przegląd tematu

Temat uczenia maszynowego rozpoznawania emocji z wykorzystaniem sygnału elektroencefalograficznego był już kilkukrotnie opracowywany. Informacje na ten temat można znaleźć chociażby w pracy [1], ale również i [8]. Stanowi ona przystępny opis zagadnienia, znaleźć tam można skondensowany zbiór wiadomosci potrzebnych na wstępie, jak i również prezentację wyników przeprowadzonych badań.

Podejście 1

W podejściu 1 zastosowano parametry γ i δ, podane wzorami na rys. 1. W pracy [1] długość okna sygnału, dla którego wyliczano parametry, została podana jako ilość próbek, jednak nie podano częstotliwości próbkowania sygnału. W związku z tym, że pierwotna długość okna nie dała się odtworzyć, zastosowano okno długości 10 sekund. Jako wartość parametru overlapping dla okien przyjęto 50%.

Z racji braku szczegółowych informacji o pobudzeniu dla emocji relaxed nie można jednoznacznie określić odpowiadającego jej obszaru w przestrzeni PAD. W związku z tym przyjęto następujące klasy, reprezentujące odpowiednie podprzestrzenie przestrzeni PAD:

Jak widać, klasę relaxed zastąpiono klasą other, która reprezentuje wszystkie inne stany emocjonalne, niż happy i sad.

W tabeli 1 przedstawiono wyniki dla klasyfikacji z użyciem parametrów γ i δ dla wszystkich 32 dostępnych w bazie DEAP kanałów sygnału EEG, natomiast w tabeli 2 znajdują się wyniki otrzymane przy użyciu jedynie 4 kanałów użytych w pracy [1]. Otrzymujemy odpowiednio 64 i 16 parametrów dla każdej próbki.

Otrzymane wyniki nie pozwalają stwierdzić, że zastosowane podejście jest prawidłowe. W związku z brakiem w pracy [1] wielu kluczowych informacji, jak i też niemożnością oceny użytych w niej pomiarów, nie udało się odtworzyć zawartych w niej wyników. Wydaje się, że nie możemy też w jednoznaczny sposób określić, czy błędne jest podejście do parametryzacji sygnału, czy też powodem są inne czynniki.

Tabela 1: podejście 1, 32 kanały
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
happysadother
5391869happy0.3530.048
4715681sad0.152
141855318other0.282

śr. waż.0.353
Tabela 2: podejście 1, 4 kanały jak w pracy [1]
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
happysadother
4206200happy0.3570.094
36234212sad0.102
94218831other0.548

śr. waż.0.419

Podejście 2

Podejście prezentowane jako drugie opiera się na założeniu, że zastosowanie parametrów γ i δ powoduje zbyt dużą utratę informacji. Ich wartość rośnie zarówno ze wzrostem amplitudy sygnału, jak i częstotliwości. Jeśli chcemy rozdzielić te informacje, rozwiązaniem może być przejście do dziedziny częstotliwości i badanie amplitudy sygnału w jej funkcji. W tym podejściu dla każdego z kanałów sygnału wyliczono następujące parametry, reprezentujące średnią amplitudę widma częstotliwościowego sygnału w jego 3 przedziałach:

Przedziały te odpowiadają różnym rodzajom aktywności mózgu ([7]), co pozwala przypuszczać, iż prezentowany sposób parametryzacji będzie lepszym sposobem ekstrakcji pożądanych cech sygnału EEG. Otrzymano wektor 96 parametrów. Zastosowano te same klasy, co w podejściu 1. W tabelach 3 i 4 przedstawiono wyniki klasyfikacji dla okien sygnału długości odpowiednio 10 i 60 sekund.

Ponownie otrzymane wyniki obarczone są bardzo dużymi błędami. Jak widać, zmiana użytych parametrów nie wpłynęła w widoczny sposób na jakość klasyfikacji. Możliwe jest, że problemem są przyjęte klasy.

Tabela 3: podejście 2, okno 10 sekund
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
happysadother
48736103happy0.3620.036
39978131sad0.189
1175105511other0.403

śr. waż.0.352
Tabela 4: podejście 2, okno 60 sekund
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
happysadother
1419happy0.0330.054
2488sad0.366
611545other0.395

śr. waż.0.322

Podejście 3

Trzecie prezentowane podejście zostało zaprezentowane przez autorów bazy DEAP w pracy [2]. Klasami są w tym wypadku:

lub:

Jako parametry zastosowano:

Dla 32 kanałów daje to wektor 216 parametrów. Zastosowana długość okna sygnału to 60 sekund.

Otrzymane wyniki dla klasyfikacji high/low valence (tabela 5) są nieznacznie lepsze, niż uzyskiwane dla poprzednich przypadków. Znaczną poprawę widać dla przypadku high/low arousal (tabela 6), gdzie wartości f-measure dla obu klas są już większe niż 0.5. Z tego też powodu zdecydowano się na zredukowanie wektora parametrów o wartości dla konkretnych kanałów, jeśli przynosiło to poprawę otrzymywanych w klasyfikacji wyników. W końcowej wersji zredukowano wektor parametrów do 140 elementów, usuwając kanały FZ, CZ, PZ, OZ (elektrody umieszczone wzdłuż szczeliny podłużnej mózgu), jak i również pary F7/F8, FC5/FC6, F3/F4 oraz T7/T8. Uzyskano wyniki przedstawione w tabeli 7. Jak widać, udało się nieznacznie poprawić jakość klasyfikacji.

Tabela 5: klasyfikacja wg. wartości valence
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
valence
high
valence
low
11441valence
high
0.6710.148
7149valence
low
0.467

śr. waż.0.582
Tabela 6: klasyfikacja wg. wartości arousal, 32 kanały
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
arousal
high
arousal
low
10353arousal
high
0.6480.270
5960arousal
low
0.517

śr. waż.0.591
Tabela 7: klasyfikacja wg. wartości arousal, 20 kanałów
Macierz pomyłekF-measureKappa
statistic
zaklasyfikowano jakoklasa
arousal
high
arousal
low
10947arousal
high
0.6750.214
5861arousal
low
0.537

śr. waż.0.615

Wnioski

W projekcie uzyskano gorsze wyniki, niż zaprezentowane w pracy [1]. Problemem może być tu pominięcie przez autorów pewnych kluczowych dla tematu informacji, nie pozwalających na zweryfikowanie zarówno zastosowanej metody, jak i otrzymanych wyników. Najlepsze jakościowo wyniki otrzymano po zastosowaniu metody z pracy [2], dla klas high/low arousal. Mimo tego, błędy wciąż są bardzo duże i wymagają dalszej pracy nad podejściem do tematu.

Dobrym podejściem, jeśli chodzi o kierunek rozwoju prac w temacie, mogą być próby uczenia rozpoznawania wartości z poszczególnych osi przestrzeni PAD, które będzie można zapewne potem z powodzeniem rzutować na poszczególne emocje, znając ich położenie w przestrzeni. W takim wypadku, następnym krokiem powinno być udoskonalenie metody parametryzacji sygnału pod kątem użycia danych klas.


Źródła

  1. Ma Li, Quek Chai, Teo Kaixiang, Abdul Wahab and Huseyin Abut, "EEG Emotion Recognition System" (rozdział 10 ksiązki "In-Vehicle Corpus and Signal Processing for Driver Behavior"), 2009,
  2. Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt, Ioannis Patras, "DEAP: A Database for Emotion Analysis using Physiological Signals", 2012,
  3. Albert Mehrabian, "Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in temperament", 1996,
  4. Strona domowa toolkitu Weka,
  5. Strona domowa środowiska Octave,
  6. Instrukcja pozycjonowania elektrod w systemie 10-20,
  7. Mark Quigg, "Eeg Pearls", 2006,
  8. Danny Oude Bos, "EEG-based Emotion Recognition - The Influence of Visual and Auditory Stimuli", 2006.

Valid HTML 4.01 Strict