МОВА, ДАНІ, ТЕХНОЛОГІЇ: ХАКАТОН З ЦИФРОВОЇ ЛІНГВІСТИКИ
Запрошуємо студентів, які вивчають «Корпусну лінгвістику», «Соціолінгвістику», «Машинне опрацювання природної мови» та суміжні дисципліни, взяти участь у 3-денному онлайновому хакатоні з цифрової гуманітаристики, присвяченому практичному використанню корпусних технологій для аналізу української мови та розв’язання прикладних лінгвістичних задач.
Метою хакатону є пошук інноваційних рішень для роботи з корпусами української мови: виявлення фразеологізмів, ефективного аналізу корпусних даних, їх балансування та візуалізації, а також застосування корпусних методів у перекладі та інших комунікативних сферах.
Основні напрямки хакатону:
- Виявлення фразеологізмів у корпусі української мови — розробка підходів до автоматизованого пошуку та аналізу фразеологічних одиниць.
- Робота з корпусом локально: аналіз, балансування, візуалізація складу корпусу — створення методик для ефективної роботи з корпусними даними, їх структуризації та візуалізації.
- Корпусні рішення для перекладацьких та інших комунікативних задач — застосування корпусних технологій для вирішення завдань перекладу, укладання термінологічних словників, стилістичної адаптації текстів тощо.
Формат роботи:
Учасники об’єднуються в команди по 2-4 чол. та протягом трьох днів працюватимуть над реальними завданнями, які поєднують лінгвістичні знання з сучасними цифровими методами. За найкращі проєкти команди матимуть заохочення.
ОРГАНІЗАЦІЙНА ІНФОРМАЦІЯ:
- Дати хакатону: 18-20 червня 2025 року
- Формат: онлайн, групи по 2-4 чол.
- Робочі мови: українська та англійська
- Кредити ECTS: 0,5
- Реченець подання заявки: до 1 червня 2025 р.
ЗАПОВНИТИ ЗАЯВКУ: https://forms.gle/FxQvdEipJerxeZ6r6Externer Link
Участь у хакатоні командна — кожна команда по 2-4 особи. Якщо Ви вже маєте свою команду, то можете зареєструватися командою, придумавши їй назву (тоді кожен учасник команди зазначає в анкеті назву команди).
Щоб подати заявку, просимо визначитися з одним із напрямків хакатону:
НАПРЯМОК 1: Виявлення фразеологізмів у корпусі української мови
Керівниця групи: к. тех. н., доц. Ольга Каніщева (SET University (Україна), Heidelnerg University (Німеччина))
Фразеологізми є важливою частиною мовного багатства, проте автоматизоване виявлення ідіом залишається складним завданням. Особливо актуально це для української мови, де обмежена кількість ресурсів і готових інструментів для обробки ідіоматичних конструкцій. Водночас корпуси текстів українською мовою відкривають можливість для аналізу реального вживання фразеологізмів у природних контекстах.
Учасники працюватимуть над завданням автоматичного виявлення фразеологічних одиниць у корпусі українських текстів за допомогою корпусних методів, словникових джерел, статистичних підходів та сучасних мовних моделей (LLM and prompt engineering). Учасники матимуть змогу створити власні списки кандидатів в ідіоми, тестувати різні методики (наприклад, n-грам аналіз, колокації, embeddings), а також спробують застосувати великі мовні моделі для ідентифікації фразеологічних значень.
Можливі ідеї проєктів:
- Пошук ідіом-кандидатів у корпусі на основі частотності та спільного вживання.
- Виявлення контекстів, де фраза використовується в переносному значенні.
- Зіставлення отриманих результатів зі словниковими ресурсами (наприклад, Словник українських фразеологізмів).
- Візуалізація мережі колокацій, пов’язаних із фразеологізмами.
- Оцінка якості результатів за допомогою LLM.
Корисні ресурси:
- Simone Tedeschi, Federico Martelli, and Roberto Navigli. 2022. ID10M: Idiom Identification in 10 LanguagesExterner Link. In Findings of the Association for Computational Linguistics: NAACL 2022, pages 2715–2726, Seattle, United States. Association for Computational Linguistics. https://aclanthology.org/2022.findings-naacl.208/Externer Link
- Ziheng Zeng, Suma Bhat; Idiomatic Expression Identification using Semantic Compatibility. Transactions of the Association for Computational Linguistics 2021; 9 1546–1562. DOI: https://doi.org/10.1162/tacl_a_00442Externer Link https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00442/108933/Idiomatic-Expression-Identification-using-SemanticExterner Link
- https://euralex.org/publications/semantic-relations-in-the-thesaurus-of-english-idioms-a-corpus-based-study/Externer Link
НАПРЯМОК 2: Робота з корпусом локально: аналіз, балансування, візуалізація складу корпусу
Керівники групи: к. філол. н. Марія Шведова (ХПІ), Арсеній Лукашевський (ХПІ)
Текстові корпуси є фундаментальним ресурсом для лінгвістичних досліджень, розвитку мовних технологій та створення навчальних даних для моделей ШІ. Однак більшість сучасних корпусів орієнтовані на роботу через онлайн-інтерфейси або API, що не завжди зручно для дослідників, які потребують повного контролю над даними. Локальна робота з корпусом відкриває можливості для більш гнучкого аналізу, експериментів із підвибірками, балансування жанрового чи тематичного складу і глибокої візуалізації.
Група працюватиме з тестовим корпусом ПлуГ: Корпус для завантаження (Корпус для завантаження (PluG) -Externer Linksite.nameExterner Link), який надається у форматі, придатному для локальної роботи. Учасники отримають завдання завантажити корпус, проаналізувати його склад (жанри, стилі, теми, джерела), виконати балансування відповідно до заданих критеріїв (наприклад, за жанровими чи часовими параметрами) та візуалізувати результати. Особливу увагу буде приділено розробці зручних інструментів для локального аналізу та представлення структури корпусу.
Можливі ідеї проєктів:
Створення жанрових або тематичних профілів корпусу.
Аналіз дисбалансів у корпусі та побудова підвибірок.
Візуалізація складу корпусу (діаграми, heatmaps, мережі).
Автоматичне створення звітів про корпус для дослідників.
Корисні ресурси:
- Biber D. Representativeness in corpus design, Literary and linguistic computing, 8(4), (1993) 243–257. https://drive.google.com/file/d/1mlpXa9k7NzMf-okUf8ANMmNmI_baa6UJ/view?usp=sharingExterner Link
- Chromý J., Korpus a reprezentativnost, Naše řeč, ročník, 97 (2014) 185–193. URL: http://naserec.ujc.cas.cz/archiv.php?art=8337Externer Link
- Shvedova Maria, Waldenfels Ruprecht von. Regional Annotation within GRAC, a Large Reference Corpus of Ukrainian: Issues and Challenges (2021). (Про репрезентативність у вступі) https://ceur-ws.org/Vol-2870/paper4.pdfExterner Link
НАПРЯМОК 3: Корпусні розв'язання перекладацьких та інших комунікативних задач
Керівники групи: к. філол.н., доц. Сергій Фокін (КНУ), Мілад Зікрань (КНУ)
Добування даних з корпусу потребує глибоких знань мови і спостережливості. Позаяк машина здатна опрацьовувати лише набори знаків, їхню послідовність і частотність. Успішність розв’язання корпусних задач залежить від рівня сучасного стану знань про мову, які втілюються в розмітку (частиномовну, морфологічну, синтаксичну, семантичну), метадані тексту (регіональна, тематична, соціолінгвістична та інші характеристики), а також від вміння використовувати знаряддя опрацювання частотності, знань традиційних засад системи і норми мови, вміння виявляти несподівані закономірності. Окремим викликом практики перекладу, до кінця не подоланим з огляду на евристичний характер розв’язання, є пошук конотативно маркованих одиниць, жанрово-стилістичних домінант в одномовній комунікації та під час перекладу.
Учасники працюватимуть з корпусами ГРАК, COCA, BNC та іншими, створять власний порівняльний корпус з метою добування міжмовних еквівалентів термінів, клішованих фраз, колокацій, власних назв, розв’яжуть низку творчих практичних задач.
Для повноцінної участі за цим напрямком слід бути зареєстрованим на платформах KorpusomatExterner Link, english-corporaExterner Link i SketchEngineExterner Link
Можливі ідеї проєктів:
- пошук лексико-граматичних структур;
- пошук стилістичних фігур;
- пошук міжмовних еквівалентів колокацій і термінологічних одиниць;
- пошук даних за іменованими сутностостями;
- розв'язання комунікативних та перекладацьких задач українською та англійською мовами.
Корисні ресурси:
- Мова корпусних запитів (CQL, CQP та інші):
- Пошук у ГРАКу -Externer Linksite.nameExterner Link
- Паралельні корпуси ParaRook -Externer Linksite.nameExterner Link
- Шведова М., Фокін С. Мова корпусних запитів – CQL (Corpus Query Language).Externer Link
- Korpusomat. User GuideExterner Link.
- SketchEngine. User Guide.Externer Link
- English Corpora / M.DavisExterner Link
З питаннями можна звертатися на цей мейл: uadigital.jena.teaching@gmail.com
ВІДПОВІДІ НА НАЙПОШИРЕНІШІ ЗАПИТАННЯ ТУТ: