Введение
Работы по данному направлению выполняются в рамках проекта «Разработка и реализация проектных решений автоматизированного библиотечного сервиса в интересах организаций НАН Украины». Проект предполагает выполнение нескольких заданий, одно из которых - «Разработка технологий, методов и средств создания научных электронных библиотек НАН Украины». Согласно этому заданию проводились работы:
- по созданию научных электронных библиотек в научно-исследовательских организациях НАНУ;
- а также выработка методов и средств создания интегрированных электронных библиотек в Академии наук в целом.
Доклад представляет собой обобщение нашего опыта по созданию интегрированной электронной библиотеки периодических изданий - одного из основных видов информационных ресурсов научно-исследовательских академических организаций на основе современных тенденций и решений.
Наиболее известны два международных каталога НЭБ открытого доступа:
- OpenDOAR - каталог репозиториев открытого доступа, насчитывающий 1172 НЭБ;
- ROAR — реестр репозиториев открытого доступа, насчитывающий 1101 НЭБ.
Следовательно, в настоящее время в открытом доступе уже более 1100 НЭБ, тогда как до середины прошлого года не было ни одной НЭБ от Украины.
Однако уже к концу года в этих реестрах появилось 7 украинских НЭБ, в том числе 2 от Академии наук, 4 от ВУЗов и 1 от общественной организации при поддержке фонда «Возрождение». Причем 4 из них были созданы при нашем непосредственном участии. Эти библиотеки создавались на базе научных и учебных заведений, специфика которых определила характер и состав содержащихся в них научных информационных ресурсов.
Основная тема нашего доклада - создание НЭБ периодических изданий открытого доступа (предполагается публикация приблизительно 100 журналов). Здесь также сделано достаточно много в мире. Международный каталог журналов открытого доступа DOAJ в настоящее время содержит 3245 таких журналов и среди них 10 из Украины. Наши предложения и решения являются не альтернативой тому, что уже создано в НБУВ, а его дальнейшим развитием с учетом новых, современных концепций. В частности, предполагается основное внимание уделить следующим нерешенным вопросам, которые на наш взгляд являются узким местом:
- поиск по картотеке статей (электронный каталог), нет полнотекстового поиска;
- нет средств пополнения библиотеки с рабочих мест в институтах;
- нет средств интеграции в международные каталоги, реестры, репозитории.
Далее в работе рассматриваются: примеры известных проектов порталов научной периодики открытого доступа; формулировка целей и концептуальных положений открытой НЭБ периодических изданий НАНУ; обоснование выбора платформы ПО для решения этой задачи; краткая информация о ПО.
Обзор известных проектов порталов научной периодики открытого доступа
Рассмотрим более детально особенности построения и реализации подобных систем на примере довольно крупных и функционально приемлемых решений. Хорватская система периодических изданий, на момент написания статьи содержала 163 наименований журналов по различным направлениям научной деятельности (естественные, медицинские, технические и гуманитарные науки), 2087 выпусков, 24,609 статей, из которых 22,287 полнотекстовых. Здесь предоставляется как простой, так и расширенный поиск, который включает булеву (операторы И, ИЛИ, И-НЕ) комбинацию до четырех полей метаданных (автор, название, аннотация, издательство, ключевое слово, название журнала) и полного текста, а также запрос можно уточнить дополнительными значениями области исследования, года выпуска статьи, языка и словом в тексте статьи. Так, например, на запрос с указанием только лишь русского языка, система выдала 71 полнотекстовую статью. Бразильская интегрированная система публикации периодических изданий SciELO (Scientific Electronic Library Online, содержит:
- 550 журналов из Аргентины, Бразилии, Чили, Кубы, Испании, Португалии, Колумбии и Венесуэлы;
- 11,941 выпусков;
- 180,187 полнотекстовых статей;
- 3,530,025 ссылок цитирования.
Помимо предоставления сервисов просмотра и поиска (в том числе полнотекстового), вычисляются интегрированные статистические показатели популярности (использования) и влияния (импакт-факторы) периодических изданий, научных публикаций. Наиболее мощной, на наш взгляд, является система HighWire Press, подразделение библиотеки Стэндфордского университета, которая публикует онлайн версии журналов с высоким импакт фактором (high-impact) и уровнем рецензирования (peer-reviewed) и другой научный (учебный) контент. HighWire Press награждена премией ALPSP (Association of Learned and Professional Society Publishers) за предоставляемые «Сервисы для некоммерческой публикации». HighWire в партнерстве с влиятельными академическими сообществами, университетскими издательствами, создает прекрасные онлайн-коллекции полностью доступной для поиска исследовательской и клинической литературы. Совместно эти партнеры выпускают 71 из 200 наиболее часто цитируемых научных журнальных публикаций. HighWire Press представляет собой наиболее крупный в мире репозитории полнотекстовых статей наук о жизни (биология, медицина, антропология, социология и т. п.), где (на момент написания этого доклада) содержится 1,904,070 статей, которые находятся в открытом доступе. Всего же ЭБ содержит 1157 журналов и 4,806,738 полнотекстовых статей из более чем 140 научных издательств.
Цели и концептуальные положения
Создание открытой НЭБ периодических изданий НАН Украины преследует следующие цели:
- Достижение качественно нового уровня, полноты и оперативности удовлетворения информационных потребностей научных сотрудников НАНУ.
- Повышение эффективности использования имеющихся информационных ресурсов НАНУ.
- Оперативное и полное информирование международной научной общественности о научных достижениях и разработках институтов НАНУ.
Концептуальными моментами создания этой НЭБ являются следующие:
- Единый портал для описания журналов и хранения статей.
- Централизованное ведение репозитория, администрирование и предоставление услуг.
- Предоставление возможности по пополнению НЭБ электронными статьями с рабочих мест институтов или редакций журналов.
- Интеграция с другими международными каталогами, реестрами, репозиториями.
При таком решении централизовано осуществляются следующие функции:
- администрирование;
- ведение библиотеки;
- предоставление услуг (сервисов);
- сопровождение программного обеспечения.
На местах, где редакции институтов, как правило, не имеют соответствующих специалистов для установки и поддержки библиотечной системы, осуществляются только лишь функции, связанные с наполнением контентом данной системы, а именно:
- оформление статей своих периодических изданий в электронном виде;
- загрузка или передача статей в систему, используя Интернет-браузер.
В итоге мы получаем продукт сотрудничества IT-специалистов и прикладных специалистов информационного профиля различных предметных областей.
Выбор платформы системы ПО
С начала 2005 года нами было изучено и опробовано несколько платформ ПО для построения такого рода систем. Для реализации НЭБ периодических изданий открытого доступа была выбрано ПО DSpace. Из особенностей и преимуществ применения данной системы можно выделить следующие:
- В подавляющем большинстве приложений ПО DSpace используется для создания репо-зитория одной отдельной организации. В нашем приложении DSpace устанавливается и администрируется централизовано, но применяется многими организациями-партнерами, редакционными коллегиями периодических изданий институтов НАНУ. Каждая такая организация имеет свой раздел (разделы) и отвечает за его своевременное наполнение.
- Не осуществляется самоархивирования своих материалов самими авторами статей (важная функциональная особенность данной системы). В данном случае система выступает в качестве провайдера сервисов. Контент наполняется исключительно сотрудниками редакций периодических изданий.
- Возможность предоставления функций просмотра и поиска по основным атрибутам (и логическим комбинациям таких атрибутов) публикации (названию, автору, году издания, ключевым словам), полнотекстового поиска и синдикации RSS о новых поступлениях в библиотеку.
- Благодаря хранению описаний публикаций (метаданных) в соответствии с международными стандартами (в данном случае - расширенное Дублинское ядро) и поддержке протокола OAI-PMH существует возможность интеграции с международными каталогами, например, OAISter, OpenDOAR, ROAR и др.
- Индексация Google.
DSpace - общие сведения
DSpace - програмное обеспечение (ПО) системы управления цифровыми ресурсами или активами (DAMS — Digital Asset Management System), предоставляющее услуги по доступу, наполнению, управлению и повторному использованию цифровых активов, преимущественно образовательных и исследовательских материалов. В настоящее время система DSpace установлена в более чем 220 университетах мира, с суммарным объемом хранения более чем один миллион цифровых ресурсов, представляющих исследовательские статьи, технические отчеты, наборы данных, изображений и видео. Кроме того, некоторые другие организации используют DSpace, для хранения, организации и сбережения своих цифровых активов, например, HP Labs. В настоящее время, DSpace — система с открытым исходным кодом, размещаемая на SourceForge и распространяемая по лицензии BSD, авторские права принадлежат HP и MIT. Для поддержки и защиты поставщиков информации на платформе DSpace в 2007 была создана некоммерческая организация, которая призвана вовлечь многие организации (являющиеся пользователями DSpace) в управление ПО DSpace. Система DSpace развивается также в рамках программы Google Summer of Code (GSoC) под руководством Роберта Тенсли (программиста первоначальной версии системы), где в настоящее время на платформе DSpace выполняются проекты: сервисы целостности контента, статистика, поддержка версий,визуализация. В настоящее время интенсивно обсуждается совместный проект сотрудничества DSpace и Fedora. Таким образом, разработка системы DSpace находится в постоянном развитии и при непосредственном участии многочисленных (нескольких сотен) пользователей, что гарантирует долговременное использование, своевременное обновление, а также необходимую помощь и поддержку в случае возникновения непредвиденных проблем (например, утечки собственных кадров, IТ-специалистов).
Масштабируемость
Перспективы развития системы также освещены на совещании групп пользователей системы DSpace, где особое внимание было уделено вопросам масштабируемости, способности системы адаптироваться к расширению предъявляемых требований и возрастанию объемов расширяемых задач. Проблемы масштабируемости рассматриваются в 3-х аспектах:
- емкость, или вместимость, т.е. как DSpace будет справляться с большими объемами данных?
- пропускная способность, как быстро DSpace будет поглощать (импортировать) контент?
- параллелизм, как DSpace работает под нагрузкой, при одновременном доступе многих пользователей к репозиторию?
Исходя из этого были сформулированы требования масштабируемости для DSpace:
- DSpace может содержать 10 млн. записей;
- DSpace может обрабатывать файлы произвольных размеров;
- Время занесения элемента (статьи) в 10 млн. репозиторий не превышает 1 сек;
- DSpace поддерживает параллельную работу 10 пользователей на внесение информации и 100 пользователей на чтение, при наличии достаточной полосы пропускания, приемлемого процессора и емкости памяти;
- стратегия реализации DSpace — сбалансированные по загрузке кластеры серверов, управляющие одним репозиторием.
Наряду с обнадеживающими перспективами масштабируемости системы DSpace, анализ функциональности ЭБ [позволил выделить три важнейшие функциональные возможности, благодаря которым был сделан выбор в пользу данной системы:
- поддержка иерархической модели коллекций документов;
- достаточно хорошо поддающийся настройке пользовательский интерфейс;
- гибкая настройка прав доступа к коллекциям, отлаженные механизмы безопасности (аутентификации, авторизации и т.п.).
Остановимся несколько подробнее на перечисленных особенностях и наших проектных решениях.
Архитектура
Способ организации данных в DSpace отражает структуру организации, использующей данную систему. Разделы и подразделы образуют структурную иерархию, т.е. подразделы могут также содержать свои подразделы, внизу иерархии находятся коллекции. В данном случае раздел соответствует конкретному периодическому изданию, периодические издания в свою очередь структурированы в иерархию согласно направлениям деятельности и существующим отделениям (структурным подразделениям НАНУ). КОЛЛЕКЦИЯ соответствует конкретному номеру журнала. Например, коллекция №1, 2007 журнала «Вестник Национальной академии наук Украины» (название журнала соответствует ПОДРАЗДЕЛУ, год выпуска журнала, например, 2007 - также соответствует ПОДРАЗДЕЛУ).
В результате имеем следующую структуру:
раздел (community) — направление деятельности НАНУ;
подраздел (sub-community) — отделение НАНУ и/или периодическое издание (журнал);
подраздел (sub-community) - год или том издания;
коллекция (collection) - выпуск или номер журнала.
Поскольку создаваемая библиотека не имеет предметной специализации, с большой вероятностью можно предположить, что каждому периодическому изданию или группе периодических изданий потребуется своя, специфическая процедура ввода и набор описательных атрибутов (обязательные, необязательные или факультативные, управляемые на момент внесения, свои тематические словари) при внесении своих ресурсов (в данном случае статей). Для реализации индивидуальных требований участников внесения контента в системе предусмотрена настройка как процедуры внесения, так и форм внесения, содержащих полный набор необходимых описательных атрибутов, форматов полных текстов статей, принятия лицензии по авторскому праву, дополнительные процедуры проверки своего контента и т.д. Установление разных параметров внесения для каждой коллекции (раздела) позволяет администратору системы устанавливать разный контент внесения, а также параметры проверки и одобрения (в случае необходимости) для каждой из коллекций и/или групп пользователей, которые определены в НЭБ. Здесь же следует отметить важную возможность создания домашней странички для каждого раздела, подраздела, коллекции.
Настройка шагов внесения статей в коллекцию
Стандартная последовательность шагов внесения или процедура передачи документа в DSpace следующая:
Описание—Юписание—»0писание—»3агрузка—» Проверка—Лицензия—3авершение.
Однако при необходимости такая последовательность внесения может быть изменена, например, следующим образом:
Лицензия—Юписание—>Описание—»3агрузка—» Проверка—> Завершение.
Существует возможность переупорядочивания шагов внесения, либо некоторые шаги могут быть вообще пропущены, причем каждой коллекции может быть назначена своя процедура внесения.
Настройка пользовательских экранов внесения
В DSpace возможна настройка форм для разных коллекций. Это делается с помощью конфигурационного файла input-forms.xml. Представлено подробное описание его формата. Там можно указать какие именно поля Дублинского ядра нужно заполнять на этапе внесения ресурса (статьи) в данную коллекцию, их последовательность и текстовые обозначения (метки) этих полей, как можно разбить ввод метаописаний на несколько страниц. Также через веб-интерфейс для определенной коллекции можно ввести начальные значения для полей или необходимые списки выбора значений. Описание того, как создавать свой собственный набор пользовательских форм также приведено в Приложении А.
Процедура внесения статей в НЭБ
Для внесения статей в систему нами разработана «Инструкция пользователя. Внесение статей», согласно которой эти действия могут производить только зарегистрированные пользователи системы, наделенные правами вносить и изменять содержимое только строго определенного раздела (или разделов), а также, возможно, правами создания коллекции внутри этого раздела (если администратор системы сочтет это действие возможным). Такие пользователи могут вносить статьи только в существующие в НЭБ номера (выпуски) своего журнала. Каждый выпуск журнала имеет в НЭБ статус коллекции Существует две возможности инициирования внесения статей в журнал:
1. Выбрать опцию МОЯ БИБЛИОТЕКА и НАЧАТЬ НОВОЕ ВНЕСЕНИЕ, и затем выбрать ту коллекцию, куда будет произведено внесение.
2. Выбрать опцию просмотра РАЗДЕЛЫ И КОЛЛЕКЦИИ на главной странице системы, затем выбрать разрешенный для внесения раздел, коллекцию.
Далее нужно выполнить последовательность шагов в соответствии с конфигурацией внесения выбранной коллекции.
Статистика в DSpace
Для обеспечения эффективного контроля функционирования НЭБ система DSpace включает модуль статистики, позволяющий собирать достаточно подробный статистический анализ использования публикуемой информации:
- количество уникальных посетителей;
- количество визитов в день/месяц;
- количество просмотреных страниц в день/месяц;
- количество визитов страницы, раздела, коллекции, документа;
- поисковые ключевые фразы и слова;
- наиболее популярные страницы и прочее. По этой информации можно создать различные представления (разные статистические отчеты).
Также для статистического анализа работы системы может быть подключен внешний модуль статистики.
Заключение
ПО DSpace с открытым исходным кодом применено к специфичному контенту, а именно периодическим изданиям. В настоящее время осуществляется открытый доступ пока только к нескольким научным журналам, наполняемых редакционными коллегиями разных организаций НАНУ. Архитектура системы выбрана таким образом, что каждое периодическое издание может иметь свою настройку как домашней странички издания, так и полей заполнения метаданных своих ресурсов (статей), а также, возможно, форм вывода (просмотра). Такой подход может быть использован для создания различных многодисциплинарных репозиториев (а также тематических), например, научных отчетов многих организаций со 100% открытым доступом, а также 100% предоставлением полных текстов статей.
Что надо сделать? - Выработка и поддержание политики функционирования НЭБ (регламент подачи статей, соблюдение авторских прав, положение о НЭБ, распоряжение по НАНУ, отслеживание соблюдения политики функционирования).
— Эксплуатация НЭБ (техническое оснащение, обеспечение бесперебойной круглосуточной работы, конфигурирование и настройка НЭБ, отслеживание соблюдения политики пополнения НЭБ).
— Программно-методическое сопровождение (сопровождение программного обеспечения, инструкции, методики, руководства и другие материалы, обучение и консультирование).
— Бесперебойное пополнение НЭБ (решение организационно-технических вопросов, обучение персонала, представление документов в электронном виде, пополнение ЭБ новыми выпусками журналов, соблюдение политики функционирования ЭБ).