Jak mierzymy sentyment bez chmury
Od PolEmo do czatu na Messengerze. Nasz silnik działa w 100% w Twojej przeglądarce — zero serwerów, zero GPU, pełna prywatność.
794 000 wiadomości · 13 000 słów · 12 faz · 0 serwerów
794K
wiadomości
13K
form leksykalnych
12
faz pipeline'u
0
serwerów
Wpiszesz ,,kurwa ale fajnie xd'' — i co algorytm z tym zrobi?
Standardowe narzędzia analizy sentymentu (VADER, SentiStrength, a nawet polski model HerBERT) widzą w tym zdaniu same negatywne sygnały. ,,Kurwa'' — wulgaryzm, negatywny. ,,Ale'' — spójnik adversatywny. Wynik: mocno negatywny.
Problem polega na tym, że w polskim chacie ,,kurwa'' to wypełniacz — jak angielskie ,,um'' czy ,,like''. A ,,xd'' to nie emotikon rozbawienia — to marker modalności, sygnalizujący rejestr luźny. Nasz silnik to rozumie.
Wartość bezwzględna sentymentu · HerBERT: −0.95 (negatywny) · PodTeksT: +0.35 (pozytywny)
Skąd bierzemy 13 000 słów?
Leksykon sentymentu PodTeksT powstał z fuzji 6 otwartych źródeł lingwistycznych. Każde słowo ma wagę od −3 (silnie negatywne) do +3 (silnie pozytywne). System generuje warianty bez polskich znaków diakrytycznych (,,szczesliwy'' obok ,,szczęśliwy''), formy odmienione oraz korekty literówek QWERTY o odległości edycyjnej 1.
"Afektywne normy dla 2902 polskich słów uzyskane od 400 uczestników na 9-punktowych skalach walencji, pobudzenia i wyobrażalności."
— Riegel i in. (2015), Nencki Affective Word List
XD — 15% Twoich wiadomości
Co siódma wiadomość w polskim chacie zawiera wariant XD. Wcześniejsze wersje naszego silnika traktowały każde XD jako sygnał pozytywny. To oznaczało, że 15% danych miało sztucznie zawyżony sentyment.
Wiadomość ,,sterydy mi stawy rozjebały xd'' wyraża realne cierpienie fizyczne. XD pełni tu funkcję mechanizmu radzenia sobie — tłumi, ale nie kasuje ból. Nowy silnik to rozumie: zamiast zerowania negatywnych słów, tłumi ich wagę o 30% (słowa somatyczne) lub 50% (pozostałe).
xdhabitual · 8.6%
Marker modalności. Zero wpływu na sentyment.
XDgenuine · 1.7%
Rzeczywiste rozbawienie. Lekko pozytywny.
xdddd+ironic · 1.9%
Emfatyczna ironia lub coping. Zachowuje negatyw.
Więcej o XD: xd ≠ XD ≠ XDDDDDD
Narzekanie to miłość
Jolanta Antas (2002) zidentyfikowała narzekanie jako dominujący rytuał grzecznościowy w polskiej komunikacji. Kiedy dwoje Polaków narzeka razem na pogodę, uczelnię czy korki — to nie jest wyrażanie negatywnych emocji. To jest budowanie bliskości.
Osoba A: ,,Pogoda jest okropna dzisiaj''
Osoba B: ,,No masakra, ja się odmrażam''
Słownik
−0.4
negatywne
PodTeksT
+0.2
bonding
Nasz silnik sprawdza: czy oboje narzekają? Czy na temat zewnętrzny (nie na siebie)? Jeśli tak — reklasyfikuje sekwencję jako pozytywną. Kluczowa heurystyka: brak zaimków drugiej osoby (,,ty'', ,,cię'', ,,twój'') = narzekanie na świat, nie na partnera.
Benchmark: my vs BERT
Porównaliśmy nasz silnik z modelem HerBERT — polskim BERTem dostrojonym na recenzjach produktów. Na 80 epizodach z realnych rozmów Messenger (2366 turnów, 31 konwersacji) wyniki wyglądają tak:
| Metryka | PodTeksT | HerBERT |
|---|---|---|
| MAE (im mniej tym lepiej) | 0.617 | 2.974 |
| Bias | −0.16 | −2.97 |
| Bliżej prawdy (/80) | 75 | 5 |
Czego nie umiemy
Przetestowaliśmy silnik na 57 kontrolowanych scenariuszach z pasywną agresją, wygasaniem relacji i ukrytymi konfliktami. Tu wygrał HerBERT — 49% trafność vs nasze 25%.
Dlaczego? Bo ,,Rób jak chcesz'' to dwa neutralne słowa. ,,Spoko.'' z kropką to jedno neutralne słowo. Ale każdy Polak wie, że to nie jest neutralne. Słownik tego nie widzi. To jest nasz sufit — i dlatego budujemy dalej.
24.6%
PodTeksT na TCTM
49.1%
HerBERT na TCTM
"Podejście słownikowe dominuje na nieformalnym chacie, neuronalne na strukturalnych scenariuszach. Komplementarność, nie konkurencja."
— Wyniki benchmarku PodTeksT (2026)
Chcesz zobaczyć jak Twoje wiadomości wyglądają w oczach algorytmu?
Wrzuć swój czat