Как использовать классификаторы машинного обучения в наборе учебных материалов, который содержит текст?

Я работаю над поиском ошибок и прогнозированием их возможных причин, просматривая файлы журналов. Чтобы применить классификатор к нему, мне нужно, чтобы текст был цифрой. Я могу определить ключевые слова NER и использовать его в качестве набора для обучения. Может ли кто-нибудь предложить мне некоторые способы сделать это?

1 ответ

Swapnil, люди обычно "делают цифровую цифру", представляя его как вектор: вы перечисляете все слова, которые вы видели в обучающем наборе, а затем для каждого слова в документе вы устанавливаете n-й элемент большого вектора. Этот подход обычно называется моделью векторного пространства. В вашем случае некоторые слова и комбинации слов могут быть "особенными" (например, "ОШИБКА" и "ПРЕДУПРЕЖДЕНИЕ" в начале сообщений журнала), вы можете сгруппировать их в начале вашего вектора и относиться к ним немного иначе, чем слова из объясняющего текста - например, с точки зрения значений, которые вы им назначаете. (Очевидно, что если вы можете обнаружить целые сущности с использованием Named Entity Recognition, вы обрабатываете их как один элемент в своем векторе.)

licensed under cc by-sa 3.0 with attribution.