Голомазов, Д. Д. (аспирант, мл. науч. сотр.).
    Выделение терминов из коллекции текстов с заданным тематическим делением [Текст] / Д. Д. Голомазов // Информационные технологии. - 2010. - N 2. - С. 8-13. - Библиогр.: с. 13 (9 назв. ) . - ISSN 1684-6400
УДК
ББК 32.973-018.2
Рубрики: Вычислительная техника
   Обработка и создание документов

Кл.слова (ненормированные):
алгоритм Brainsterm -- выделение терминов -- классификация текстов -- кластеризация текстов -- рубрикация текстов -- векторные модели -- навигация по документам -- коллекции документов
Аннотация: Предлагается разработанный и программно реализованный автором статистический алгоритм Brainsterm решения задачи выделения терминов из текстовых документов, разбитых на рубрики.


Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Гулин, В. В.
    Сравнительный анализ методов классификации текстовых документов [Текст] / В. В. Гулин // Вестник Московского энергетического института. - 2011. - № 6. - С. 100-108
УДК
ББК 22.16
Рубрики: Математика
   Математический анализ

Кл.слова (ненормированные):
машинное обучение -- классификация текстов -- метод опорных векторов
Аннотация: Рассматривается задача классификации текстовых документов с точки зрения машинного обучения.


Имеются экземпляры в отделах: всего 1 : эн.ф. (1)
Свободны: эн.ф. (1)




    Гулин, В. В.
    Исследование метода градиентного бустинга на «невнимательных» деревьях решений в задаче классификации текстовых документов [Текст] / В. В. Гулин // Вестник Московского энергетического института. - 2012. - № 6. - С. 124-131 . - ISSN 1993-6982
УДК
ББК 22.161.6
Рубрики: Математика
   Дифференциальные и интегральные уравнения

Кл.слова (ненормированные):
деревья решений -- метод градиентного бустинга -- классификация текстов -- машинное обучение
Аннотация: Рассматривается задача классификации текстовых документов с точки зрения машинного обучения. В работе исследуется возможность применения метода градиентного бустинга на «невнимательных» деревьях решений к задаче классификации текстов. Проведены вычислительные эксперименты на тестовой коллекции Reuters-21578, показывающие хорошую точность и высокую производительность исследуемого метода.


Имеются экземпляры в отделах: всего 1 : эн.ф. (1)
Свободны: эн.ф. (1)




    Виноградов, С. Ю.
    Применение байесовской сети в задаче классификации структурированной информации [Текст] / С. Ю. Виноградов // Программные продукты и системы. - 2013. - № 2. - С. 154-158 : ил.: 1 рис., 1 табл. - Библиогр.: с. 158 (5 назв.) . - ISSN 0236-235X
УДК
ББК 32.973-018 + 73
Рубрики: Вычислительная техника
   Программирование ЭВМ. Компьютерные программы. Программотехника

   Информатика

   Информационно-поисковые системы. Банки данных

Кл.слова (ненормированные):
интеллектуальный анализ данных -- сети Байеса -- Байеса сети -- классификация текстов -- информационный поиск
Аннотация: Предложен подход к решению задачи классификации неструктурированных документов с использованием байесовской сети доверия; оценку весов в предложенной модели возможно выполнять двумя различными способами: с применением метода максимального правдоподобия (что дает меньшую точность) и с применением аппроксимации условных вероятностей (с большей точностью). В эксперименте наилучшие результаты показала предложенная модель с оценкой весов методом аппроксимации условных вероятностей.


Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Батура, Т. В.
    Формальные методы установления авторства текстов и их реализация в программных продуктах [Текст] / Т. В. Батура // Программные продукты и системы. - 2013. - № 4. - С. 286-295 : ил.: 1 табл. - Библиогр.: с. 295 (15 назв.) . - ISSN 0236-235X
УДК
ББК 81.1 + 67.404.3
Рубрики: Языкознание
   Математическая лингвистика

   Право

   Правовая охрана интеллектуальной собственности

Кл.слова (ненормированные):
авторские стили -- авторское право -- классификация текстов -- тексты -- характеристики текстов
Аннотация: С развитием вычислительной техники появилась возможность реализовать методы, требующие огромных вычислений, чтобы облегчить работу экспертов. Существующие программные продукты позволяют учитывать и варьировать различные лингвостатистические параметры, разносторонне характеризующие текст. В статье приведен обзор различных формальных методов определения авторского стиля, предпринята попытка выявить их особенности и недостатки, сравнить программные продукты по атрибуции текстов, ориентированные на русский язык.


Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Гулин, В. В.
    Методы снижения размерности признакового описания документов в задаче классификации текстов [Текст] / В. В. Гулин // Вестник Московского энергетического института. - 2013. - № 2. - С. 115-121 . - ISSN 1993-6982
УДК
ББК 22.161.1
Рубрики: Математика
   Дифференциальные и интегральные исчисления в целом

Кл.слова (ненормированные):
адабуст -- выделение признаков -- классификация текстов -- машинное обучение -- метод главных компонент -- метод градиентного бус-тинга -- невнимательные деревья решений -- отбор признаков -- самоорганизующиеся карты -- случайный лес деревьев решений
Аннотация: Задача классификации текстовых документов рассматривается по отношению к машинному обучению. В работе предлагается метод снижения размерности признакового описания текстовых документов, основанный на методе главных компонент. Описываются вычислительные эксперименты на тестовой коллекции Reuters-21578, показывающие хорошую точность предлагаемого метода.


Имеются экземпляры в отделах: всего 1 : эн.ф. (1)
Свободны: эн.ф. (1)




    Шаграев, А. Г.
    Трансдуктивное обучение логистической регрессии в задаче классификации текстов [Текст] / А. Г. Шаграев, И. А. Бочаров, В. Н. Фальк // Программные продукты и системы. - 2014. - № 2. - С. 114-118 : ил.: 1 рис. - Библиогр.: с. 118 (8 назв.) . - ISSN 0236-235X
УДК
ББК 81.1с
Рубрики: Языкознание
   Применение вычислительной техники в языкознании

Кл.слова (ненормированные):
классификация текстов -- линейные классификаторы -- логистическая регрессия -- машинное обучение -- трансдуктивное обучение
Аннотация: В настоящей работе исследуются возможности улучшения показателей качества классического линейного метода классификации – логистической регрессии для задачи классификации текстов.


Доп.точки доступа:
Бочаров, И. А.; Фальк, В. Н.

Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Рубцова, Ю. В.
    Построение корпуса текстов для настройки тонового классификатора [Текст] = Constructing a corpus for sentiment classification training / Ю. В. Рубцова // Программные продукты и системы. - 2015. - № 1. - С. 72-78 : ил.: 3 рис., 3 табл. - Библиогр.: с. 78 (13 назв.) . - ISSN 0236-235X
УДК
ББК 81.1
Рубрики: Языкознание
   Математическая лингвистика

Кл.слова (ненормированные):
информационный поиск -- классификация текстов -- корпусная лингвистика -- морфологическая разметка -- социальные сети -- тоновые классификаторы
Аннотация: В работе описываются разработка программного комплекса (парсера) и реализация метода построения и первичного анализа корпуса размеченных текстов, предназначенного для тренировки классификатора по тональности, который автоматически классифицирует общетематические тексты на два и три класса: положительные и отрицательные тексты; положительные, нейтральные и отрицательные.


Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Гулин, В. В.
    О классификации текстовых документов с учетом некоторых структурных особенностей [Текст] / В. В. Гулин, А. Б. Фролов // Известия РАН. Теория и системы управления. - 2016. - № 3. - С. 66-75. - Библиогр.: с. 75 (31 назв. ) . - ISSN 0002-3388
УДК
ББК 32.973-018.2
Рубрики: Вычислительная техника
   Распознавание и преобразование образов

Кл.слова (ненормированные):
байесовский классификатор -- древо решений -- классификация текстов -- машинное обучение -- метод логистической регрессии -- метод опорных векторов -- методы классификации -- методы машинного обучения -- наивный байесовский классификатор -- простые классификаторы -- текстовая классификация -- текстовые документы -- электронные текстовые документы
Аннотация: Изучается возможность модернизации традиционной модели “мешка слов” с целью отражения структурных особенностей текстовых документов и их учета при классификации методами теории машинного обучения. Предложено эти особенности характеризовать отношениями на множестве некоторых лексем и имена отношений наряду с именами лексем использовать в качестве признаков. Этим предлагаемые модели отличаются от традиционной модели, в которой отражаются только унарные отношения. Эффективность такой модернизации методов машинного обучения проанализирована посредством компьютерных экспериментов классами коллекции Reuters-21578 в условиях применения восьми известных классификаторов. Показано, что такие модели целесообразно применять при классификации текстовых документов с использованием простых классификаторов.


Доп.точки доступа:
Фролов, А. Б.

Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




   
    Обработка текстов сообщений в системах мониторинга ИБ ИТКС [Текст] = Processing text messages ininformation security monitoring systemsin information and telecommunication systems / С. В. Лапшин [и др.] // Проблемы информационной безопасности. Компьютерные системы. - 2018. - № 4. - С. 114-119 : диагр., граф. - Библиогр.: с. 118-119 (12 назв.) . - ISSN 2071-8217
УДК
ББК 32.973
Рубрики: Вычислительная техника
   Программирование ЭВМ. Компьютерные программы. Программотехника

Кл.слова (ненормированные):
DLP-системы -- ИТКС -- байесовский классификатор -- информационная безопасность -- информационно-телекоммуникационные сети -- классификация текстов -- обработка текстов сообщений -- системы мониторинга -- тексты сообщений
Аннотация: Рассмотрен подход к предварительной обработке естественно-языковых текстов сообщений в системах мониторинга на основе наивного байесовского классификатора. Осуществлена постановка задачи классификации сообщений. Приведена модель естественного языка, описывающая семантико-синтаксические связи конструкций. Показано построение признакового пространства, содержащего семантико-синтаксические связи для базы контекстной фильтрации. Обозначен подход к вычислению класса конструкции из нескольких взаимосвязанных слов.
The approach to the preprocessing of natural language texts of messages in monitoring systems based on naive Bayesian classifier is considered. The problem of classification of messages is formulated. The model of natural language describing semantic-syntactic relations of constructions is given. The construction of a feature space containing semantic-syntactic relations for the context filtering base is shown. An approach to the calculation of the construction class of several interrelated words is outlined.


Доп.точки доступа:
Лапшин, С. В.; Сухопаров, М. Е.; Спивак, А. И.; Лебедев, И. С.

Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)




    Шундеев, А. С. (кандидат физико-математических наук; ведущий научный сотрудник).
    Об изменении размерности векторного представления текстовых данных [Текст] / А. С. Шундеев // Программная инженерия. - 2019. - Т. 10, № 6. - С. 265-273 : рис. - Библиогр.: с. 272-273 (10 назв.). - Загл., аннот. и библиогр. парал. рус., англ. . - ISSN 2220-3397
УДК
ББК 32.973-018
Рубрики: Вычислительная техника
   Программирование ЭВМ. Компьютерные программы. Программотехника

Кл.слова (ненормированные):
векторное представление документов -- векторное представление слов -- интеллектуальный анализ данных -- классификация текстов
Аннотация: В настоящее время интеллектуальный анализ данных является основой для построения широкого спектра прикладных информационных систем. Современным и бурно развивающимся подходом в области анализа текстовых данных является использование векторных представлений слов и текстов. Векторные представления изначально применяли для решения задач определения смысловой близости слов и поиска аналогий, однако они оказались востребованными также и в области решения задачи классификации текстов. Применительно к этой задаче векторные представления рассматриваются в настоящей работе. Предложен подход к построению векторных представлений текстов, базирующийся на трансформации согласованных с ними векторных представлений слов. Подобные трансформации подразумевают изменение исходной модели и размерности векторного представления и реализуются в виде решения задачи восстановления многомерной регрессии. Проведенные над тестовыми наборами данных эксперименты позволяют сделать следующие выводы. Построенные с помощью трансформаций векторные представления документов могут иметь меньшую размерность. При этом их использование в решении задачи классификации текстов в большинстве случаев дает более точный результат, чем при использовании исходных векторных представлений.


Имеются экземпляры в отделах: всего 1 : ч.з. (1)
Свободны: ч.з. (1)