Как я могу создать свою собственную модель в тестере Stanford Pos?

Я хочу добавить новые тегированные слова (локальные слова, которые используются в нашем регионе) и создать новую модель. Я создал файл.prop из командной строки, но как я могу создать файл.tagger?

Когда я пытался создать такой файл, как указано на веб-сайте Стэнфорда, он показывает ошибку, например

"Никакая модель не указана"

что такое -model аргумент, это корпус? как я могу добавить свои новые помеченные слова в это?

Как я тренирую таггер?

Стэнфордский сайт говорит, что:

Вам нужно начать с файла.props, который содержит параметры для используемого tagger. Файлы.props, которые мы использовали для создания образцов тегов, включены в каталог моделей; вы можете начать с того, что ближе всего к языку, который вы хотите пометить.

Например, чтобы обучить новый английский теггер, начните с файла реквизита left3words tagger. Для обучения таггера для западного языка, отличного от английского, вы можете рассмотреть файлы реквизитов для немецких или французских тегов, которые включены в полный дистрибутив. Для языков, использующих другой набор символов, вы можете начинать с китайских или арабских реквизитов. Или вы можете использовать параметр -genprops для MaxentTagger, и он напишет образец файла свойств с документацией для вас. Он записывает его в stdout, поэтому вы хотите сохранить его в каком-то файле, перенаправляя вывод (обычно с помощью>). # В начале строки делает комментарии, поэтому вы хотите удалить # перед свойствами, которые вы хотите указать.

2 ответа

Вот две ссылки, которые могут вам помочь, описывая пошаговые инструкции о том, как создать (настроить) ваш теггер:

  1. https://medium.com/@klintcho/training-a-swedish-pos-tagger-for-stanford-corenlp-546e954a8ee7
  2. http://www.florianboudin.org/wiki/doku.php?id=nlp_tools_related&DokuWiki=9d6b70b2ee818e600edc0359e3d7d1e8

Обратите внимание, что внутри.conf файла вы должны указать на свой древовидный банк (то есть, предложения реального мира обрабатываются в формате дерева зависимостей с помощью тегов POS и отношений зависимостей). В этой же строке вы должны указать свой формат:

  1. TEXT//представляет токенизированный файл, разделенный текстом
  2. TSV//представляет собой файл tsv, такой как файл файл
  3. TREES//представляет файл в формате PTB

В моем случае я использовал файл CoNLL, который является форматом TAB-SEPARATED-VALUES (TSV). Я должен признаться, что не смог найти четкую документацию и должен был обратиться к исходному коду.

Моя конфигурация:

model = portuguese.tagger
arch = left3words,naacl2003unknowns,allwordshapes(-1,1)
trainFile = format=TSV,wordColumn=1,tagColumn=4,C:\\path\\universal-dev.conll
closedClassTagThreshold = 40
curWordMinFeatureThresh = 2
tagSeparator = _
encoding = utf-8 # that because I based my config on spanish!
iterations = 100
lang = spanish
learnClosedClassTags = false
minFeatureThresh = 2
openClassTags =
rareWordMinFeatureThresh = 10
rareWordThresh = 5
search = qn
sgml = false
sigmaSquared = 0.0
regL1 = 0.75
tokenize = true
tokenizerOptions = asciiQuotes
verbose = false
verboseResults = false
veryCommonWordThresh = 250
xmlInput = null
outputFormat = slashTags
nthreads = 16


Свойство model указывает файл, в который будет сохранена построенная модель. Вы можете mymodel.tagger любой допустимый путь, например mymodel.tagger.

Вы можете использовать тот же файл свойств во время тестирования, и MaxentTagger затем загрузится из указанного файла модели, а не сохранит его.

Чтобы быть ясным: ваш учебный корпус должен быть предоставлен с помощью свойства trainFile. См. Файлы свойств tagger, включенные в Stanford Tagger для примера.

licensed under cc by-sa 3.0 with attribution.