warstw słownikowych

13K

form leksykalnych

faz pipeline'u

GPU

Wpiszesz ,,kurwa ale fajnie xd'' — i co algorytm z tym zrobi?

Standardowe narzędzia analizy sentymentu (VADER, SentiStrength, a nawet polski model HerBERT) widzą w tym zdaniu same negatywne sygnały. ,,Kurwa'' — wulgaryzm, negatywny. ,,Ale'' — spójnik adversatywny. Wynik: mocno negatywny.

Problem polega na tym, że w polskim chacie ,,kurwa'' to wypełniacz — jak angielskie ,,um'' czy ,,like''. A ,,xd'' to nie emotikon rozbawienia — to marker modalności, sygnalizujący rejestr luźny. Nasz silnik to rozumie.

kurwaneutralalespójnikfajniepozytywnyxdmarker

HerBERT

95.0%

PodTeksT

35.0%

Wartość bezwzględna sentymentu · HerBERT: −0.95 (negatywny) · PodTeksT: +0.35 (pozytywny)

Skąd bierzemy 13 000 słów?

Leksykon sentymentu PodTeksT powstał z fuzji 6 otwartych źródeł lingwistycznych. Każde słowo ma wagę od −3 (silnie negatywne) do +3 (silnie pozytywne). System generuje warianty bez polskich znaków diakrytycznych (,,szczesliwy'' obok ,,szczęśliwy''), formy odmienione oraz korekty literówek QWERTY o odległości edycyjnej 1.

plWordNet 3.0 (6656)

51.2%

NAWL (2902)

22.3%

plWordNet-emo (1200)

9.2%

sentiment-polish (900)

6.9%

Rozszerzenia PL (800)

6.2%

Leksykon ręczny (542)

4.2%

"Afektywne normy dla 2902 polskich słów uzyskane od 400 uczestników na 9-punktowych skalach walencji, pobudzenia i wyobrażalności."
— Riegel i in. (2015), Nencki Affective Word List

XD — 15% Twoich wiadomości

Co siódma wiadomość w polskim chacie zawiera wariant XD. Wcześniejsze wersje naszego silnika traktowały każde XD jako sygnał pozytywny. To oznaczało, że 15% danych miało sztucznie zawyżony sentyment.

Wiadomość ,,sterydy mi stawy rozjebały xd'' wyraża realne cierpienie fizyczne. XD pełni tu funkcję mechanizmu radzenia sobie — tłumi, ale nie kasuje ból. Nowy silnik to rozumie: zamiast zerowania negatywnych słów, tłumi ich wagę o 30% (słowa somatyczne) lub 50% (pozostałe).

xd

habitual · 8.6%

Marker modalności. Zero wpływu na sentyment.

XD

genuine · 1.7%

Rzeczywiste rozbawienie. Lekko pozytywny.

xdddd+

ironic · 1.9%

Emfatyczna ironia lub coping. Zachowuje negatyw.

Więcej o XD: xd ≠ XD ≠ XDDDDDD

Narzekanie to miłość

Jolanta Antas (2002) zidentyfikowała narzekanie jako dominujący rytuał grzecznościowy w polskiej komunikacji. Kiedy dwoje Polaków narzeka razem na pogodę, uczelnię czy korki — to nie jest wyrażanie negatywnych emocji. To jest budowanie bliskości.

Osoba A: ,,Pogoda jest okropna dzisiaj''

Osoba B: ,,No masakra, ja się odmrażam''

Słownik

−0.4

negatywne

PodTeksT

+0.2

bonding

Nasz silnik sprawdza: czy oboje narzekają? Czy na temat zewnętrzny (nie na siebie)? Jeśli tak — reklasyfikuje sekwencję jako pozytywną. Kluczowa heurystyka: brak zaimków drugiej osoby (,,ty'', ,,cię'', ,,twój'') = narzekanie na świat, nie na partnera.

Benchmark: my vs BERT

Porównaliśmy nasz silnik z modelem HerBERT — polskim BERTem dostrojonym na recenzjach produktów. Na 80 epizodach z realnych rozmów Messenger (2366 turnów, 31 konwersacji) wyniki wyglądają tak:

Metryka	PodTeksT	HerBERT
MAE (im mniej tym lepiej)	0.617	2.974
Bias	−0.16	−2.97
Bliżej prawdy (/80)	75	5

Uczciwe zastrzeżenie:HerBERT był trenowany na recenzjach produktów, nie na chatach. To nie jest fair fight — porównujemy wędkarza na jeziorze z wędkarzem na pustyni. Dlatego nie piszemy ,,4.8x lepszy'' — piszemy, że podejścia się uzupełniają.

Czego nie umiemy

Przetestowaliśmy silnik na 57 kontrolowanych scenariuszach z pasywną agresją, wygasaniem relacji i ukrytymi konfliktami. Tu wygrał HerBERT — 49% trafność vs nasze 25%.

Dlaczego? Bo ,,Rób jak chcesz'' to dwa neutralne słowa. ,,Spoko.'' z kropką to jedno neutralne słowo. Ale każdy Polak wie, że to nie jest neutralne. Słownik tego nie widzi. To jest nasz sufit — i dlatego budujemy dalej.

24.6%

PodTeksT na TCTM

49.1%

HerBERT na TCTM

"Podejście słownikowe dominuje na nieformalnym chacie, neuronalne na strukturalnych scenariuszach. Komplementarność, nie konkurencja."
— Wyniki benchmarku PodTeksT (2026)

Chcesz zobaczyć jak Twoje wiadomości wyglądają w oczach algorytmu?

Wrzuć swój czat

Jak mierzymy sentyment bez chmury