ČT 24: Studio 6, ranní vysílání

Dne 31. ledna 2023 jsme v ranním vysílání České televize představili výsledky našeho výzkumu.

Odkaz

Přepis rozhovoru:

J. Krásná: Podle bežně téměř neviditelných klíčových slov poznat, kdo je skutečným autorem textu, nebo zjistit o něm informace, které by jinak zůstaly skryté. Tak to umí nová technologie týmu lingvistů z Filozofické fakulty Univerzity Palackého v Olomouci, kterou si patentovali ve Spojených státech. Pomocí umělé inteligence hledá vzorce v textech a pomůže tak třeba personalistům při výběru zaměstnanců, prodejcům při cílení reklamy nebo vyšetřovatelům. Jak přesně funguje a v čem vyniká proti ostatním metodám, to nám vysvětlí autoři Martina Benešová a Dan Faltýnek z Katedry obecné lingvistiky Filozofické fakulty Univerzity Palackého v Olomouci. Dobrý den Vám oběma

M.Benešová: Dobrý den, zdravíme Vás z Ostravy.
D. Faltýnek: Dobrý den.

J. Krásná: Vaše metoda má dvojí využití, to první umožní identifikovat autora textu, co všechno je k tomu potřeba?

D. Faltýnek: No v podstatě potřebujeme jen delší úsek textu na to, abychom z něj vybrali základní vlastnosti, které sledujeme a na základě tady těchto textových otisků prstů potom už můžeme oproti ostatním autorům toho konkrétního nějakým způsobem ztotožnit s nějakou mírou pravděpodobnosti, kterou máme natrénovanou na nějakém testovacím vzorku.

J. Krásná: Ten delší úsek textu, kolik to může být třeba slov?

M. Benešová: Tohle je prozatím ve fázi testování, nicméně teď jsme si jisti, že kolem šesti tisíc slov už nám bude postačovat, ale ukazuje se, podle těch našich posledních analýz, že půjdeme i níž s tou mírou.

J. Krásná: Důležitá jsou i klíčová slova. Jenom pro příklad, jaká to typicky jsou?

D. Faltýnek: Můžou to být zájmena, můžou to být slovesa, u někoho jsou to více obsahová slova, různá témata, na které se zaměřuje, u někoho to můžou být spíš prostředky textové výstavby, jimiž ten text staví a pomáhá si vytvářet věty nebo je navazovat. To záleží.

M. Benešová: Ano, to jsou prostě slova, kterými se ten jednotlivec, ten autor, nevědomě projevuje a nevědomě je opakuje po delších úsecích své textové produkce. Nemůžeme vyloženě říct, že je to třeba podstatné jméno nebo zájmeno. Pro každého je to subjektivní a to je právě ten o tisk jednotlivce v textu.

J. Krásná: A záleží na tom, jak často jsou rozmístěná nebo kde v tom textu jsou?

D. Faltýnek: To je velmi podstatné. My se právě zaměřujeme na prostředky, které jsou velmi vzdálené, takže si je autor neuvědomuje a není si plně vědom toho, že je do textu vkládá. A právě tyto prostředky my z textu vyjímáme a na základě nich, jsme si poměrně jisti, že mluví zrovna Karel a ne Petr.

J. Krásná: Druhé využití je k takzvanému profilování. Vy z textu dokážete říct i o neznámém člověku některé informace, tak to nám taky popište, jaké informace například?

M. Benešová: Jelikož se autor těmito slovy, těmito klíčovými nevědomě projevuje v tom textu, tak on nevědomě odhaluje nějaká témata, která ho tíží, nebo o kterých ani neví, což už se nám ukázalo na různých textech. My jsme třeba analyzovali, ono to je takové populární, i když poněkud smutné, my jsme analyzovali některé masové vrahy nebo jsme analyzovali známé autory. Ukázalo se třeba u těch masových vrahů, že se v těch textech, které produkovali před těmi činy, že se objevily třeba místa toho zločinu, nebo ta témata, která je tíží, která je k tomu vedou.

J. Krásná: Já jsem zaznamenala, že umíte určit třeba i věkovou skupinu. To si umím představit, protože já používám jiní slova, než třeba můj osmnáctiletý syn. Nicméně umíte třeba taky určit pohlaví?

D. Faltýnek: I to je možné. V případě pohlaví a češtiny je to poměrně jednoduché, protože v češtině máme gramatický rod, ale samozřejmě pohlaví, věk jsou jedny ze základních vlastností, které se považují za nutné při automatické analýze textu, a to je důležité, protože ta metoda, kterou my vyvíjíme, je plně automatizovaná. Není nutné, aby u ní seděl člověk, pouze dává potom data konkrétnímu
interpretovi proto, aby z nich vytěžil další informace, ať už je to v oblasti HR, nebo při vyšetřování, nebo při dalších činnostech.

M. Benešová: Nicméně k tomuhle bych ještě dodala, že tahle ta metoda je jazykově nezávislá, takže sice jsme se tady bavili o češtině, že v češtině ten rod je poměrně snadné určit, ale prostě tahle metoda funguje nezávisle, právě z té podstaty, nezávisle na jazyce.

J. Krásná: No a je tedy důležité, jaký ten příspěvek je, odkud, řekněme, pochází, jestli právě třeba ze sociálních sítí, nebo je to novinový článek?

D. Faltýnek: Nejlepší je, když je to přirozená komunikace, tu máme nejradši, protože těch znaků je nejvíc, ale můžeme využít v podstatě jakékoliv psané, mluvené texty, protože autor, ať chce nebo nechce, tak vždy v tom textu zanechá ten svůj otisk prstu.

M. Benešová: Je důležité, pokud chceme odhalit toho jednotlivce, pokud chceme identifikovat ten jeho profil, ten otisk v tom textu, tak je důležité, aby to byl text, který produkoval právě ten autor, právě ten jednotlivec a jinak už v zásadě nic dalšího není podstatné.

J. Krásná: Vy jste si tuto technologii patentovali, tak podotázka, zdali má nějaký název a co pro vás tento krok, znamená to, že jste ji patentovali?

D. Faltýnek: Přímo název nemá, ale je to v podstatě metoda personalizace osoby na konkrétní osoby v digitální komunikaci, kdy jsme schopni rozpoznat jednotlivce úplně zvlášť a jsme schopni cílit na něj digitální komunikaci, což současné technologie, Googlu, Adobe a dalších těchto hráčů na trhu, neumí, nedokáží rozpoznat na základě jazykové produkce konkrétního člověka, to umíme my, včetně
těch konkrétních klíčových témat a jsme schopni potom toho člověka ovlivňovat, cílit na něj, konkrétně ten obsah.

M. Benešová: Nicméně to, že jsme to patentovali, to pro nás znamená, protože tahle ta technologie jedinečná, jak už jsme říkali, tak to znamená, že se jí snažíme ochránit a co se týká toho názvu, tak ona má široké uplatnění. Je, jak už jste vy říkala HR, potom je to ochrana, oblast ochrany bezpečnosti státu a podobně, tak tyhle ty naše jednotlivé směry, ty aplikace, ty jako už jména mají, třeba Deep sense a Deep projektor a podobně, ale jako taková ta technologie, zamyslíme se nad tím a určitě to nějak nazveme.

J. Krásná: A reakce právě na ten patent, třeba ze zahraničí, už jste zaznamenali nebo od lidí, kteří se touto problematikou zabývají, že by měli zájem
o tuto vaši technologii?

D. Faltýnek: Prozatím nás kontaktovalo jenom americké námořnictvo, díky rektorovi Univerzity Palackého Martinu Procházkovi a s dalšími firmami a subjekty, kteří by toto chtěli využívat, postupně jednáme.

J. Krásná: Vy už se zmínili některé možnosti toho uplatnění nebo využití v praxi, kde asi by měla nejvyšší uplatnění. Možná už tím, kdo o to projevil zájem, jste na to odpověděli?

M. Benešová: Tak ano, v té oblasti bezpečnosti, tak ta detekce toho jednotlivce, případně ochrana před dezinformacemi, tak ta je celkem jasná. Ale je to taky ta personalistika, kde samozřejmě to ušetří náklady na pracovní síly, protože to je automatizovaná záležitost, ten pohovor pracovní se ani nemusí odehrávat v reálném čase. Můžeme sáhnout do minulosti a vzít si reálné texty toho autora produkované z minulosti, může to být třeba i z nějakých chatů a sociální sítí a podobně. Takže samozřejmě i tam. A potom určitě psychoterapie. Nebo pokud třeba bychom mluvili o komunikaci třeba státu s jednotlivcem, pokud jí personalizujete tu komunikaci, oslovíte toho jednotlivce jeho vlastním jazykem, určitě se ta komunikace zjednoduší, je snazší pro tu stranu, která komunikuje, tak pro tu stranu toho osloveného.

J. Krásná: Jednoznačně dokáže tato metoda rozlišit, že text napsal člověk, nikoliv umělá inteligence.

D. Faltýnek: To skutečně umíme, ale tady budou některé jiné metody asi úspěšnější a efektivnější. Každopádně to víme, že to je umělá inteligence nebo člověk právě proto, že nezačne spadat do těch svých konkrétních manýr. To umělé inteligence nemají, to mají právě lidé a díky tomu tady metoda i v této oblasti je použitelná.

M. Benešová: Takže ty vlastnosti, ze kterých vycházíme, se prostě v tom textu neobjeví. Pokud je produkován strojem.

J. Krásná: Ještě Vás poprosím o komentář ke grafu, který tu máme, protože výstupem vlastně toho zkoumání může být graf. My tu máme jeden
konkrétní, který si ukážeme, ten vznikl z textu, jak vy už jste zmiňovala, Elliota Rodgera, který v roce 2014 ve Spojených státech zabil šest lidí, poté se
zastřelil. Když se na ten graf podíváme, tak co z něj lze vyčíst?

M. Benešová: Tak já jsem to tady už předeslala, je to téma, kterého trápilo, jeho trápily ženy a dívky a potom jsou tam taky ty místa. Tomuhle se říká wordcloud a jsou tam právě ta klíčová slova, o kterých jsme tady mluvili a mezi těmi
klíčovými slovy se, k našemu jako dost velkému překvapení, se tam několikrát zopakovalo to místo toho budoucího činu a plus to téma těch žen, které ho trápilo, plus ta rodina, to tady vidíte, otec, matka a škola.

J. Krásná: Martina Benešová, Dan Faltýnek. Velmi pěkně vám oběma děkuji za rozhovor. Gratuluji k tomu úspěchu, který máte za sebou, a přeju,
ať k tomu jaksi přibydou ty další. Na shledanou.

M. Benešová: Děkujeme mnohokrát, mějte se dobře, na shledanou.

D. Faltýnek: Na shledanou.

ČT 24: Studio 6, ranní vysílání

Dne 31. ledna 2023 jsme v ranním vysílání České televize představili výsledky našeho výzkumu.

Odkaz

Přepis rozhovoru:

J. Krásná: Podle bežně téměř neviditelných klíčových slov poznat, kdo je skutečným autorem textu, nebo zjistit o něm informace, které by jinak zůstaly skryté. Tak to umí nová technologie týmu lingvistů z Filozofické fakulty Univerzity Palackého v Olomouci, kterou si patentovali ve Spojených státech. Pomocí umělé inteligence hledá vzorce v textech a pomůže tak třeba personalistům při výběru zaměstnanců, prodejcům při cílení reklamy nebo vyšetřovatelům. Jak přesně funguje a v čem vyniká proti ostatním metodám, to nám vysvětlí autoři Martina Benešová a Dan Faltýnek z Katedry obecné lingvistiky Filozofické fakulty Univerzity Palackého v Olomouci. Dobrý den Vám oběma

M.Benešová: Dobrý den, zdravíme Vás z Ostravy.
D. Faltýnek: Dobrý den.

J. Krásná: Vaše metoda má dvojí využití, to první umožní identifikovat autora textu, co všechno je k tomu potřeba?

D. Faltýnek: No v podstatě potřebujeme jen delší úsek textu na to, abychom z něj vybrali základní vlastnosti, které sledujeme a na základě tady těchto textových otisků prstů potom už můžeme oproti ostatním autorům toho konkrétního nějakým způsobem ztotožnit s nějakou mírou pravděpodobnosti, kterou máme natrénovanou na nějakém testovacím vzorku.

J. Krásná: Ten delší úsek textu, kolik to může být třeba slov?

M. Benešová: Tohle je prozatím ve fázi testování, nicméně teď jsme si jisti, že kolem šesti tisíc slov už nám bude postačovat, ale ukazuje se, podle těch našich posledních analýz, že půjdeme i níž s tou mírou.

J. Krásná: Důležitá jsou i klíčová slova. Jenom pro příklad, jaká to typicky jsou?

D. Faltýnek: Můžou to být zájmena, můžou to být slovesa, u někoho jsou to více obsahová slova, různá témata, na které se zaměřuje, u někoho to můžou být spíš prostředky textové výstavby, jimiž ten text staví a pomáhá si vytvářet věty nebo je navazovat. To záleží.

M. Benešová: Ano, to jsou prostě slova, kterými se ten jednotlivec, ten autor, nevědomě projevuje a nevědomě je opakuje po delších úsecích své textové produkce. Nemůžeme vyloženě říct, že je to třeba podstatné jméno nebo zájmeno. Pro každého je to subjektivní a to je právě ten o tisk jednotlivce v textu.

J. Krásná: A záleží na tom, jak často jsou rozmístěná nebo kde v tom textu jsou?

D. Faltýnek: To je velmi podstatné. My se právě zaměřujeme na prostředky, které jsou velmi vzdálené, takže si je autor neuvědomuje a není si plně vědom toho, že je do textu vkládá. A právě tyto prostředky my z textu vyjímáme a na základě nich, jsme si poměrně jisti, že mluví zrovna Karel a ne Petr.

J. Krásná: Druhé využití je k takzvanému profilování. Vy z textu dokážete říct i o neznámém člověku některé informace, tak to nám taky popište, jaké informace například?

M. Benešová: Jelikož se autor těmito slovy, těmito klíčovými nevědomě projevuje v tom textu, tak on nevědomě odhaluje nějaká témata, která ho tíží, nebo o kterých ani neví, což už se nám ukázalo na různých textech. My jsme třeba analyzovali, ono to je takové populární, i když poněkud smutné, my jsme analyzovali některé masové vrahy nebo jsme analyzovali známé autory. Ukázalo se třeba u těch masových vrahů, že se v těch textech, které produkovali před těmi činy, že se objevily třeba místa toho zločinu, nebo ta témata, která je tíží, která je k tomu vedou.

J. Krásná: Já jsem zaznamenala, že umíte určit třeba i věkovou skupinu. To si umím představit, protože já používám jiní slova, než třeba můj osmnáctiletý syn. Nicméně umíte třeba taky určit pohlaví?

D. Faltýnek: I to je možné. V případě pohlaví a češtiny je to poměrně jednoduché, protože v češtině máme gramatický rod, ale samozřejmě pohlaví, věk jsou jedny ze základních vlastností, které se považují za nutné při automatické analýze textu, a to je důležité, protože ta metoda, kterou my vyvíjíme, je plně automatizovaná. Není nutné, aby u ní seděl člověk, pouze dává potom data konkrétnímu
interpretovi proto, aby z nich vytěžil další informace, ať už je to v oblasti HR, nebo při vyšetřování, nebo při dalších činnostech.

M. Benešová: Nicméně k tomuhle bych ještě dodala, že tahle ta metoda je jazykově nezávislá, takže sice jsme se tady bavili o češtině, že v češtině ten rod je poměrně snadné určit, ale prostě tahle metoda funguje nezávisle, právě z té podstaty, nezávisle na jazyce.

J. Krásná: No a je tedy důležité, jaký ten příspěvek je, odkud, řekněme, pochází, jestli právě třeba ze sociálních sítí, nebo je to novinový článek?

D. Faltýnek: Nejlepší je, když je to přirozená komunikace, tu máme nejradši, protože těch znaků je nejvíc, ale můžeme využít v podstatě jakékoliv psané, mluvené texty, protože autor, ať chce nebo nechce, tak vždy v tom textu zanechá ten svůj otisk prstu.

M. Benešová: Je důležité, pokud chceme odhalit toho jednotlivce, pokud chceme identifikovat ten jeho profil, ten otisk v tom textu, tak je důležité, aby to byl text, který produkoval právě ten autor, právě ten jednotlivec a jinak už v zásadě nic dalšího není podstatné.

J. Krásná: Vy jste si tuto technologii patentovali, tak podotázka, zdali má nějaký název a co pro vás tento krok, znamená to, že jste ji patentovali?

D. Faltýnek: Přímo název nemá, ale je to v podstatě metoda personalizace osoby na konkrétní osoby v digitální komunikaci, kdy jsme schopni rozpoznat jednotlivce úplně zvlášť a jsme schopni cílit na něj digitální komunikaci, což současné technologie, Googlu, Adobe a dalších těchto hráčů na trhu, neumí, nedokáží rozpoznat na základě jazykové produkce konkrétního člověka, to umíme my, včetně
těch konkrétních klíčových témat a jsme schopni potom toho člověka ovlivňovat, cílit na něj, konkrétně ten obsah.

M. Benešová: Nicméně to, že jsme to patentovali, to pro nás znamená, protože tahle ta technologie jedinečná, jak už jsme říkali, tak to znamená, že se jí snažíme ochránit a co se týká toho názvu, tak ona má široké uplatnění. Je, jak už jste vy říkala HR, potom je to ochrana, oblast ochrany bezpečnosti státu a podobně, tak tyhle ty naše jednotlivé směry, ty aplikace, ty jako už jména mají, třeba Deep sense a Deep projektor a podobně, ale jako taková ta technologie, zamyslíme se nad tím a určitě to nějak nazveme.

J. Krásná: A reakce právě na ten patent, třeba ze zahraničí, už jste zaznamenali nebo od lidí, kteří se touto problematikou zabývají, že by měli zájem
o tuto vaši technologii?

D. Faltýnek: Prozatím nás kontaktovalo jenom americké námořnictvo, díky rektorovi Univerzity Palackého Martinu Procházkovi a s dalšími firmami a subjekty, kteří by toto chtěli využívat, postupně jednáme.

J. Krásná: Vy už se zmínili některé možnosti toho uplatnění nebo využití v praxi, kde asi by měla nejvyšší uplatnění. Možná už tím, kdo o to projevil zájem, jste na to odpověděli?

M. Benešová: Tak ano, v té oblasti bezpečnosti, tak ta detekce toho jednotlivce, případně ochrana před dezinformacemi, tak ta je celkem jasná. Ale je to taky ta personalistika, kde samozřejmě to ušetří náklady na pracovní síly, protože to je automatizovaná záležitost, ten pohovor pracovní se ani nemusí odehrávat v reálném čase. Můžeme sáhnout do minulosti a vzít si reálné texty toho autora produkované z minulosti, může to být třeba i z nějakých chatů a sociální sítí a podobně. Takže samozřejmě i tam. A potom určitě psychoterapie. Nebo pokud třeba bychom mluvili o komunikaci třeba státu s jednotlivcem, pokud jí personalizujete tu komunikaci, oslovíte toho jednotlivce jeho vlastním jazykem, určitě se ta komunikace zjednoduší, je snazší pro tu stranu, která komunikuje, tak pro tu stranu toho osloveného.

J. Krásná: Jednoznačně dokáže tato metoda rozlišit, že text napsal člověk, nikoliv umělá inteligence.

D. Faltýnek: To skutečně umíme, ale tady budou některé jiné metody asi úspěšnější a efektivnější. Každopádně to víme, že to je umělá inteligence nebo člověk právě proto, že nezačne spadat do těch svých konkrétních manýr. To umělé inteligence nemají, to mají právě lidé a díky tomu tady metoda i v této oblasti je použitelná.

M. Benešová: Takže ty vlastnosti, ze kterých vycházíme, se prostě v tom textu neobjeví. Pokud je produkován strojem.

J. Krásná: Ještě Vás poprosím o komentář ke grafu, který tu máme, protože výstupem vlastně toho zkoumání může být graf. My tu máme jeden
konkrétní, který si ukážeme, ten vznikl z textu, jak vy už jste zmiňovala, Elliota Rodgera, který v roce 2014 ve Spojených státech zabil šest lidí, poté se
zastřelil. Když se na ten graf podíváme, tak co z něj lze vyčíst?

M. Benešová: Tak já jsem to tady už předeslala, je to téma, kterého trápilo, jeho trápily ženy a dívky a potom jsou tam taky ty místa. Tomuhle se říká wordcloud a jsou tam právě ta klíčová slova, o kterých jsme tady mluvili a mezi těmi
klíčovými slovy se, k našemu jako dost velkému překvapení, se tam několikrát zopakovalo to místo toho budoucího činu a plus to téma těch žen, které ho trápilo, plus ta rodina, to tady vidíte, otec, matka a škola.

J. Krásná: Martina Benešová, Dan Faltýnek. Velmi pěkně vám oběma děkuji za rozhovor. Gratuluji k tomu úspěchu, který máte za sebou, a přeju,
ať k tomu jaksi přibydou ty další. Na shledanou.

M. Benešová: Děkujeme mnohokrát, mějte se dobře, na shledanou.

D. Faltýnek: Na shledanou.

O NÁS

Jsme technologický startup. Zaměřujeme se na vytěžování osobních otisků z digitální komunikace pro použití v oblasti bezpečnosti státu, online psychoterapie, osobního rozvoje, řízení lidských zdrojů a marketingu.

DEEPEFFECTS.AI
OLOMOUC 779 00
IČO 17378885

SOCIALNÍ SÍTĚ

Copyright © 2023 Deepeffects.ai