Ссылка на кабинет: 338
Тип проекта: НИР
Статус проекта: В работе с 30.06.2020
Сравнительное исследование информационных характеристик художественных произведений на русском и английском языках. Исследование энтропии текстов реализуется с помощью теоретико-информационного подхода Шеннона (марковская модель представления осмысленного текста).
Задачи:
В процессе исследования планируем ответить на вопросы:
Создание сравнительных текстовых корпусов художественных оригиналов и переводов на различных языках (русский, английский и др.). Генерация лексических и энграмных словарей. Исследование энтропии энграм, шаговой энтропии, энтропии на знак и энтропии слов. Применение разных подходов к оценке энтропии. Влияние флективности на объем словарей и энтропию языка. Исследование энтропии текстов больших длин с помощью экстраполяции данных.
Энтропийные характеристики следующих групп текстов:
Исследование сопровождается разработкой собственных инструментальных средств для работы с текстом.
Созданные языковые корпуса (в виде текстовых файлов *.txt).
Отдельные исследуемые тексты (в виде текстовых файлов *.txt).
Исходные коды собственных программ для обработки текстовой информации.
Аналитический отчет, содержащий результаты числовых измерений и статистического анализа (структурно-вероятностная модель текста, информационная энтропия, покрытие текста, лексическое разнообразие, экстраполяция данных).
Большая презентация, включающая подробное представление всех полученных результатов.
Малашина Анастасия Геннадьевна |
---|
Кафедра КБ |
Руководитель проекта, Инициатор проекта |
amalashina@miem.hse.ru |
Нагаева Ирина | Савченкова Дарья |
---|---|
БПМ183 | БПМ185 |
Стажер-исследователь | Стажер-исследователь |
ienagaeva@miem.hse.ru | dmsavchenkova@miem.hse.ru |