Справка:Добавление изображений и текстов источников

Материал из Теопедии
Перейти к: навигация, поиск

Доступ к исходной информации – это хорошее подспорье для исследователя. И это одна из основных изначальных задач Теопедии.

Для примера рассмотрим добавление изображений и текстов источников Личного архива Е.П.Блаватской в англоязычной части Теопедии.

Работа с изображением

Подготовка файла

  • Используем оглавление для нахождения названия периодики. Заодно приводим названия к единообразию (артикли убраем в конец):
-- The Daily Graphic --> Daily Graphic, The
-- Daily Graphic --> Daily Graphic, The
-- London Spiritualist --> Spiritualist, The (London)


  • Единообразное оформление имён файлов: Название_периодического_издания_Номер_Дата
Например: Spiritualist, The (London) No.179 1876-01-28.pdf
  • Правила наименования опубликованы на странице:

https://en.teopedia.org/lib/Category:Blavatsky_H.P._Scrapbooks


Загрузка в Теопедию

  • Загружаем через специальную страницу, которая автоматически добавит файл в нужную категорию:

https://en.teopedia.org/lib/Special:BatchUpload/HPB-SB-sources

  • Добавляем изображения на страницу ЛА ЕПБ, предваряя служебным шаблоном:
{{HPB-SB-footer-sources}}
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=10|400px|The Spiritualist, No. 179, 1876-01-2, p. 44]]
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=11|400px|The Spiritualist, No. 179, 1876-01-2, p. 45]]


Работа с текстом

Для подготовки текста нам понадобится следующее бесплатное ПО (далее приведено больше ссылок по этим программам):

  • LibreOffice - офисные программы, мы будем использовать текстовый редактор Writer
  • Altsearch - расширение к LibreOffice, улучшенный поиск и замена
  • Writer2Wiki - расширение к LibreOffice, экспорт в вики формат


Распознавание текста

Для распознавания текста из изображения (OCR) можно использовать следующие способы (отличаются по качеству):

  • Abby FineReader -- платное приложение, дающее наилучший результат на сегодняшний день
  • Расширение Proofread Page для вычитки распознанных текстов имеет собственное приложение для распознавание, но оно ещё очень слабое. В Теопедии оно установлено для улучшения вычитки (см. далее).


Автоматическая обработка текста

После распознавания текста необходима его вычитка. В этом процессе некоторые исправления можно автоматизировать. Для этой работы рекомендую использовать LibreOffice (скачать) c расширением Altsearch (скачать, читать, см. чуть подробнее на Сисадминвики).

Итак, в текстовом редакторе делаем следующую обработку текста:

  • заменяем принудительный перенос строки на пробел;
  • заменяем два пробела на один.
  • другие автозамены, смотря по особенностям текста


Экспорт в вики формат

Доустанавливаем в LibreOffice расширение Writer2Wiki (скачать подготовленное расширение или исходный дистрибутив, читать)


Загрузка в Теопедию

Полученный при экспорте текст (в формате вики) вставляем в соответсвующую страницу.


Вычитка

В зависимости от выбранного способа вычитку можно делать:

  • В LibreOffice до экспорта в вики формат. Открываем паралельно изображение и сверям текст.
  • На странице расширения вычики (если таковая делается средствами сайта), например, см вычитку одного из выпусков лондонского журнала "Спиритуалист". Доп информация:
  • На страницах Теопедии, когда текст уже загружен на нужную страницу. Открываем паралельно изображение и сверям текст.