Обнаружение скрытых неизвестных шаблонов при сбое визуализации

У меня есть быстрый набор многомерных данных, основанных на времени, которые, как я подозреваю, содержат шаблоны. Я упростил набор данных для создания пользовательской визуализации.

Люди видят шаблоны в визуализации, но результат шаблона не может быть объяснен визуализацией. Это происходит из-за шага упрощения, он скрывает важные данные.

Я не могу поместить все свои данные в мою визуализацию, потому что люди больше не могут видеть возможные шаблоны, потому что визуализируются слишком много данных и размеров.

Есть ли способ обнаружения скрытых неизвестных шаблонов в наборе данных? (без использования визуализации, и без меня изучение моделей техники).

Один дополнительный дополнительный вариант заключается в том, что метод должен каким-то образом "объяснить шаблоны" мне, чтобы я мог проверить, имеют ли они смысл.

[edit] Я могу дать технику коллекцию наборов данных небольшого размера (извлеченных из большого набора данных, все еще очень многомерного), которые я знаю, которые содержат шаблоны (используя мою визуализацию). Затем техника должна анализировать, при каких условиях шаблон дает результат a или результат b.

1 ответ

Во-первых, как вы "упростили" данные? Если вы сделали это без эвристики, вы можете пойти и выполнить PCA. Сама идея PCA заключается в том, чтобы решить вашу проблему: не потерять "важные" данные при уменьшении размеров. Вы можете визуализировать свои основные компоненты, чтобы шаблоны могли быть обнаружены как человеческим глазом, так и алгоритмами.

К вашему второму вопросу: Да, есть методы, которые могут обнаруживать скрытые неизвестные шаблоны в данных. Однако это огромное поле (Machine Learning) и алгоритм, который вы использовали бы, будет зависеть от вашей структуры проблемы, поэтому на данный момент невозможно указать конкретное имя модели. Из того, что вы указали, нейронные сети в целом, похоже, подходят для выполнения этой работы. После того, как вы подготовили сеть, вы можете визуализировать активацию или вес (диаграмму Хинтона), чтобы выполнить анализ, по которому входные данные обрабатываются "аналогично".

licensed under cc by-sa 3.0 with attribution.