Ссылка на кабинет: 663
Тип проекта: НИР
Статус проекта: В работе с 18.10.2020
создать текстовый корпус современных научных статей по гуманитарным дисциплинам с разметкой по риторическим и языковым параметрам с алгоритмами автоматической разметки, поискового запроса и ранжированной выдачей примеров для систематизации лингвистических шаблонов и автоматизированного контент-анализа
В результате проекта будет создан и опубликован корпус академических текстов, размеченный вручную и автоматически по следующим параметрам: лингвистические признаки, риторические структуры (дефиниция, обобщение, сравнение, прогноз, описание визуальной информации), композиционные составляющие (введение, заключение и пр.) и др. релевантные признаки. Размеченный указанным образом массив текстов позволит путем поискового запроса автоматически выгружать необходимые для прикладной лингвистики списки языковых шаблонов, соответствующих устойчивым риторическим элементам текста, и наоборот, по лингвистическим признакам автоматически определять содержание текста. Указанная база является важным источником для разработки алгоритмов и обучения программ по автоматическому распознаванию содержания академических текстов.
Власова Екатерина Александровна | Сластников Сергей Александрович |
---|---|
ВШЭ/Факультет гуманитарных наук/Школа лингвистики | Департамент прикладной математики |
Руководитель проекта | Руководитель направления |
evlasova@miem.hse.ru | sslastnikov@miem.hse.ru |
Прохоров Савелий Александрович | Сидоров Никита Рихардович |
---|---|
БИВ196 | МСУ201 |
Программист Python | аналитик /разработчик |
saprokhorov_1@miem.hse.ru | nrsidorov@miem.hse.ru |