Przejdź do treści

Jak mierzymy sentyment bez chmury

Od PolEmo do czatu na Messengerze. Nasz silnik działa w 100% w Twojej przeglądarce — zero serwerów, zero GPU, pełna prywatność.

794 000 wiadomości · 13 000 słów · 12 faz · 0 serwerów

794K

wiadomości

13K

form leksykalnych

12

faz pipeline'u

0

serwerów

Wpiszesz ,,kurwa ale fajnie xd'' — i co algorytm z tym zrobi?

Standardowe narzędzia analizy sentymentu (VADER, SentiStrength, a nawet polski model HerBERT) widzą w tym zdaniu same negatywne sygnały. ,,Kurwa'' — wulgaryzm, negatywny. ,,Ale'' — spójnik adversatywny. Wynik: mocno negatywny.

Problem polega na tym, że w polskim chacie ,,kurwa'' to wypełniacz — jak angielskie ,,um'' czy ,,like''. A ,,xd'' to nie emotikon rozbawienia — to marker modalności, sygnalizujący rejestr luźny. Nasz silnik to rozumie.

kurwaneutralalespójnikfajniepozytywnyxdmarker
HerBERT
95.0%
PodTeksT
35.0%

Wartość bezwzględna sentymentu · HerBERT: −0.95 (negatywny) · PodTeksT: +0.35 (pozytywny)

Skąd bierzemy 13 000 słów?

Leksykon sentymentu PodTeksT powstał z fuzji 6 otwartych źródeł lingwistycznych. Każde słowo ma wagę od −3 (silnie negatywne) do +3 (silnie pozytywne). System generuje warianty bez polskich znaków diakrytycznych (,,szczesliwy'' obok ,,szczęśliwy''), formy odmienione oraz korekty literówek QWERTY o odległości edycyjnej 1.

plWordNet 3.0 (6656)
51.2%
NAWL (2902)
22.3%
plWordNet-emo (1200)
9.2%
sentiment-polish (900)
6.9%
Rozszerzenia PL (800)
6.2%
Leksykon ręczny (542)
4.2%

"Afektywne normy dla 2902 polskich słów uzyskane od 400 uczestników na 9-punktowych skalach walencji, pobudzenia i wyobrażalności."

Riegel i in. (2015), Nencki Affective Word List

XD — 15% Twoich wiadomości

Co siódma wiadomość w polskim chacie zawiera wariant XD. Wcześniejsze wersje naszego silnika traktowały każde XD jako sygnał pozytywny. To oznaczało, że 15% danych miało sztucznie zawyżony sentyment.

Wiadomość ,,sterydy mi stawy rozjebały xd'' wyraża realne cierpienie fizyczne. XD pełni tu funkcję mechanizmu radzenia sobie — tłumi, ale nie kasuje ból. Nowy silnik to rozumie: zamiast zerowania negatywnych słów, tłumi ich wagę o 30% (słowa somatyczne) lub 50% (pozostałe).

xd

habitual · 8.6%

Marker modalności. Zero wpływu na sentyment.

XD

genuine · 1.7%

Rzeczywiste rozbawienie. Lekko pozytywny.

xdddd+

ironic · 1.9%

Emfatyczna ironia lub coping. Zachowuje negatyw.

Więcej o XD: xd ≠ XD ≠ XDDDDDD

Narzekanie to miłość

Jolanta Antas (2002) zidentyfikowała narzekanie jako dominujący rytuał grzecznościowy w polskiej komunikacji. Kiedy dwoje Polaków narzeka razem na pogodę, uczelnię czy korki — to nie jest wyrażanie negatywnych emocji. To jest budowanie bliskości.

Osoba A: ,,Pogoda jest okropna dzisiaj''

Osoba B: ,,No masakra, ja się odmrażam''

Słownik

−0.4

negatywne

PodTeksT

+0.2

bonding

Nasz silnik sprawdza: czy oboje narzekają? Czy na temat zewnętrzny (nie na siebie)? Jeśli tak — reklasyfikuje sekwencję jako pozytywną. Kluczowa heurystyka: brak zaimków drugiej osoby (,,ty'', ,,cię'', ,,twój'') = narzekanie na świat, nie na partnera.

Benchmark: my vs BERT

Porównaliśmy nasz silnik z modelem HerBERT — polskim BERTem dostrojonym na recenzjach produktów. Na 80 epizodach z realnych rozmów Messenger (2366 turnów, 31 konwersacji) wyniki wyglądają tak:

MetrykaPodTeksTHerBERT
MAE (im mniej tym lepiej)0.6172.974
Bias−0.16−2.97
Bliżej prawdy (/80)755
Uczciwe zastrzeżenie: HerBERT był trenowany na recenzjach produktów, nie na chatach. To nie jest fair fight — porównujemy wędkarza na jeziorze z wędkarzem na pustyni. Dlatego nie piszemy ,,4.8x lepszy'' — piszemy, że podejścia się uzupełniają.

Czego nie umiemy

Przetestowaliśmy silnik na 57 kontrolowanych scenariuszach z pasywną agresją, wygasaniem relacji i ukrytymi konfliktami. Tu wygrał HerBERT — 49% trafność vs nasze 25%.

Dlaczego? Bo ,,Rób jak chcesz'' to dwa neutralne słowa. ,,Spoko.'' z kropką to jedno neutralne słowo. Ale każdy Polak wie, że to nie jest neutralne. Słownik tego nie widzi. To jest nasz sufit — i dlatego budujemy dalej.

24.6%

PodTeksT na TCTM

49.1%

HerBERT na TCTM

"Podejście słownikowe dominuje na nieformalnym chacie, neuronalne na strukturalnych scenariuszach. Komplementarność, nie konkurencja."

Wyniki benchmarku PodTeksT (2026)

Chcesz zobaczyć jak Twoje wiadomości wyglądają w oczach algorytmu?

Wrzuć swój czat

odkryj to, co kryje się między wierszami

Redakcja nie ponosi odpowiedzialności za skutki emocjonalne lektury.

Wyniki orientacyjne · podtekst.app

Używamy plików cookie do analizy ruchu (Google Analytics, PostHog). Żadne dane osobowe nie są zbierane. Polityka prywatności