Шундеев, А. С. (кандидат физико-математических наук; ведущий научный сотрудник).
    Уменьшение размерности векторного представления документов с помощью метода главных компонент [Текст] / А. С. Шундеев, Д. Д. Заславский, С. И. Пехтерев // Программная инженерия. - 2021. - Т. 12, № 1. - С. 48-57 : ил. - Библиогр.: с. 55-57 (27 назв.). - Авт., загл., аннот., кл. сл. и библиогр. парал. рус., англ. . - ISSN 2220-3397
УДК
ББК 81.0 + 81.1с
Рубрики: Языкознание
   Лингвистика текста

   Применение вычислительной техники в языкознании

Кл.слова (ненормированные):
GloVe -- Word2Vec -- fastText -- анализ текста -- векторное представление документов -- векторное представление слов -- дистрибутивная гипотеза -- классификация текстовых текстов -- компьютерная лингвистика -- метод главных компонент -- пост-обработка -- текстовые документы
Аннотация: Векторные представления слов являются популярным объектом исследований, и эффективным средством анализа текстовых данных начиная с 1970-х годов. В частности, с их помощью удалось формализовать и дать решения задачам определения смысловой близости слов и поиска аналогий. В данной статье векторные представления слов рассматриваются с точки зрения решения задачи классификации текстовых документов. Популярным средством, используемым для снижения размерности данных, является метод главных компонент. В том числе он применяется и к векторным представлениям слов. В последнее время появился ряд работ, в которых исследуется не совсем традиционный подход к применению данного метода. В них предлагается удалять проекции не на последние, а на первые главные компоненты. Проводимые на этом направлении экспериментальные исследования показывают, что точность решения задач определения смысловой близости слов и поиска аналогий при этом может увеличиться. Целью исследования, описанного в данной работе, является проверка того, сохраняется ли подобный эффект при решении задачи классификации текстовых документов.


Доп.точки доступа:
Заславский, Д. Д. (студент); Пехтерев, С. И. (студент)

Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)