Ani pro běžného studenta z druháku průmyslovky, jako jsem já, není studium na střední škole překážkou pro práci na seriózním, reálně využitelném výzkumu ve spolupráci s Českým institutem informatiky, robotiky a kybernetiky ČVUT v Praze. O co konkrétně jde?
Jak je již zmíněno v úvodu, na CIIRC ČVUT dělám výzkum v rámci Středoškolské odborné činnosti, které se naše škola účastní pravidelně. Mým konzultantem je Ing. Tomáš Mikolov, Ph.D, jeden z nejvýznamnějších českých vědců, díky jeho práci došlo například k velkému zlepšení kvality strojového překladu a působil ve výzkumných týmech společností jako je Microsoft, Google a Facebook (dnes Meta). Vedoucího mi dělá Ing. David Herel, doktorandský student umělé inteligence na FEL ČVUT; Tomáš Mikolov je jeho vedoucím.
Cílem projektu je vytvořit takzvaný nesupervizovaný doporučovací systém textového obsahu. To znamená doporučovací systém například pro nějaké články, který nebude třeba předem trénovat na chování uživatelů. Přinese tedy kvalitní doporučování obsahu i na weby, které neprovozují mezinárodní korporace. Každý bude moci přinést doporučování obsahu relevantního pro uživatele třeba na svůj blog.
Tento přístup k doporučovacím systémům je celkem unikátní; téměř ve všech případech se aktuálně používají supervizované doporučovací systémy. Jak k tomu tedy přistupuji?
Projekt by se dal rozdělit na dvě části, převedení textů do vektorového prostoru dle jejich významu (pro představu, používám přibližně 300dimenzionální vektorový prostor) a samotné doporučování. Pro převod do vektorového prostoru plánuji použít dvě metody; doporučování bude věcí statistiky, ale konkrétnější postup je teprve přede mnou.
První metodou jsou velké jazykové modely založené na architektuře Transformerů, stejné architektuře, kterou mimochodem používají slavné modely z rodiny GPT, které používá například ChatGPT či Bing Chat. Jazykové modely, které používám, založené na modelu Electra od společnosti Google, jsou ale daleko menší než modely z rodiny GPT. Například Small Electra, což je variace Electry, kterou používám, má přibližně 14 milionů parametrů. GPT-3 jich má 175 miliard. I přes jejich velikost jde ale o modely velice schopné a dostatečné pro tento úkol.
Druhou metodou je latentní sémantická analýza, statistická metoda, která je sice o dost jednodušší a méně náročná na výpočetní výkon, na druhou stranu ale potřebuje pro práci mnohem více jednotlivých textů, takže není použitelná na běžné blogy. Pro větší weby by to ale mohla být přijatelná varianta.
Projekt mám poté v plánu vydat jako open-source a průběžně jej vylepšovat.
Matěj Strnad, EA2