Скачать книгу

нас ожидает в ближайшем будущем?

      В настоящее время в тех случаях, когда у исследователя имеется доступ к полнотекстовым базам данных, полнотекстовой поиск самым активным образом уже используется для поиска нужных материалов среди сотен миллионов документов, позволяя выделить те, в которых упоминается тот или иной термин, организация, человек, место и т. д.

      Но прогресс на этом не останавливается, быстро развиваются технологии распознавания рукописного текста, распознавания речи, лиц и изображений, поиска по изображению-шаблону и т.п., что в перспективе приведёт к появлению новых интересных методов поиска и изучения архивных материалов.

      Не менее интересны пилотные проекты в области больших данных, в рамках которых уже в течение ряда лет опробуются новые методы классификации и систематизации документов, проведения экспертизы ценности, установления степени секретности, а также выявления персональных данных и их анонимизации.

      В результате появляются новые возможности для формирования и обогащения научно-справочного аппарата архива, однако одновременно встает вопрос о пересмотре состава НСА и определении того, какие задачи эффективнее решать с помощью НСА, а какие – средствами прямого поиска. В современных условиях НСА, с моей точки зрения, в первую очередь является инструментом сохранения сведений о контексте создания архивных материалов. В идеальных системах поиска вместе с результатом поиска обязательно должна выдаваться информация, позволяющая установить контекст (типа архивных шифров).

      Во всём мире сейчас ведутся краудсорсинговые проекты оцифровки как архивных материалов, так и бумажного и рукописного НСА. Повсеместно наблюдается отказ от бумажного и бумагоподобного НСА и переход к современным решениям на основе баз данных, которые, помимо прочего, позволяют пользователям архивных материалов отставлять свои замечания и комментарии к НСА. Таким образом, постепенно усиливается тенденция привлечения к составлению и развитию НСА как фондообразователей, так и исследователей.

      Проблемы и риски

      Использование мощных современных информационных технологий создаёт, помимо прочего, ряд рисков:

      • Найденные средствами прямого поиска сведения часто оказываются «вырванными» из текста, что может приводить как к умышленной, так и к неумышленной некорректной интерпретации этих сведений;

      • Возникают риски раскрытия секретной и конфиденциальной информации, персональных данных, а также повторной идентификации субъектов ранее анонимизированных персональных данных – особенно при использовании по сути дела изначально именно на это и ориентированных технологий больших данных;

      В большинстве стран архивные материалы и НСА подпадают под нормы законодательства о свободе доступа к государственной информации и законодательства по защите персональных данных

Скачать книгу