Поддержка.txt и других файлов с помощью Solr SimplePostTool

Я запускаю Solr 4.8.1 и индексируя с помощью SimplePostTool (post.jar в каталоге example\exampledocs).

Я могу успешно индексировать файлы xml, json, csv, pdf, doc, docx, ppt, pptx, xls, xlsx, но при попытке индексировать другие типы файлов (.txt, 7z.rar.EAP.sql.zip.avi) я дали ошибку:

"SimplePostTool: WARNING Solr возвратил ошибку # 400 Bad Request SimplePostTool: ПРЕДУПРЕЖДЕНИЕ: IOException при чтении ответа: java.io.IOException: сервер вернул код ответа HTTP: 400 для URL:/"

Solr также сообщает мне, что он успешно проиндексировал все текстовые файлы, которые я включил, но эти "проиндексированные" файлы не отображаются в браузере, который я настроил для solr или в Solaritas, браузера по умолчанию solr.

Есть ли способ индексировать файлы, подобные приведенным выше, в solr? - даже если контекст не может быть проиндексирован для некоторых (например,.avi), можно ли индексировать метаданные? Если это можно сделать, отредактировав SimplePostTool или мне нужно что-то еще?

EDIT: с момента написания, я нашел этот вопрос SOLR index и извлеките файлы.sh и.sql (очень похожие), которые рекомендуют редактировать MIME-карту в SimplePostTool.java, однако я не могу найти эту рекомендуемую часть кода в любом месте SimplePostTool.java ! Где я могу найти этот код? Есть ли более простой способ сделать это?

1 ответ

Я бы использовал Solr ExtractingUpdateRequestHandler, иначе известный как Solr Cell: https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

Из документации:

Solr использует код из проекта Apache Tika, чтобы обеспечить основу для включения в систему Solr множества различных парсеров формата файла, таких как Apache PDFBox и Apache POI. Работая с этой структурой, Solr's ExtractingRequestHandler может использовать Tika для поддержки загрузки двоичных файлов, включая файлы в популярных форматах, таких как Word и PDF, для извлечения и индексирования данных.

Он является частью проекта Apache Solr и поддерживает широкий спектр форматов файлов, включая видео, аудио, сжатые файлы, текстовые файлы и т.д. Обзор типов файлов, которые можно загрузить и проанализировать, можно найти здесь: http://tika.apache.org/1.5/formats.html

И еще немного информации о том, как начать использовать его: https://wiki.apache.org/solr/ExtractingRequestHandler

licensed under cc by-sa 3.0 with attribution.