Версия от 07:45, 22 сентября 2022

Доступ к исходной информации – это хорошее подспорье для исследователя. И это одна из основных изначальных задач Теопедии.

Для примера рассмотрим добавление изображений и текстов источников Личного архива Е.П.Блаватской в англоязычной части Теопедии.

Работа с изображением

Подготовка файла

Используем оглавление для нахождения названия периодики. Заодно приводим названия к единообразию (артикли убраем в конец):

-- The Daily Graphic --> Daily Graphic, The

-- Daily Graphic --> Daily Graphic, The

-- London Spiritualist --> Spiritualist, The (London)

Единообразное оформление имён файлов: Название_периодического_издания_Номер_Дата

Например: Spiritualist, The (London) No.179 1876-01-28.pdf

Правила наименования опубликованы на странице:

https://en.teopedia.org/lib/Category:Blavatsky_H.P._Scrapbooks

Загрузка в Теопедию

Загружаем через специальную страницу, которая автоматически добавит файл в нужную категорию:

https://en.teopedia.org/lib/Special:BatchUpload/HPB-SB-sources

Добавляем изображения на страницу ЛА ЕПБ, предваряя служебным шаблоном:

{{HPB-SB-footer-sources}}
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=10|400px|The Spiritualist, No. 179, 1876-01-2, p. 44]]
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=11|400px|The Spiritualist, No. 179, 1876-01-2, p. 45]]

Работа с текстом

Для подготовки текста нам понадобится следующее бесплатное ПО (далее приведено больше ссылок по этим программам):

LibreOffice - офисные программы, мы будем использовать текстовый редактор Writer
Altsearch - расширение к LibreOffice, улучшенный поиск и замена
Writer2Wiki - расширение к LibreOffice, экспорт в вики формат

Распознавание текста

Для распознавания текста из изображения (OCR) можно использовать следующие способы (отличаются по качеству):

Abby FineReader -- платное приложение, дающее наилучший результат на сегодняшний день

онлайн сервисы OCR (их много), например:
- Online OCR
- Яндекс Переводчик
- Гугл Документы – нужно сохранить изображения на Гугл Диск и открыть его с помощью Гугл Документов.
- и другие, см., например, статью «Распознавание текста онлайн — ТОП-9 сервисов» на сайте ITLang.

Расширение Proofread Page для вычитки распознанных текстов имеет собственное приложение для распознавание, но оно ещё очень слабое. В Теопедии оно установлено для улучшения вычитки (см. далее).

Автоматическая обработка текста

После распознавания текста необходима его вычитка. В этом процессе некоторые исправления можно автоматизировать. Для этой работы рекомендую использовать LibreOffice (скачать) c расширением Altsearch (скачать, читать, см. чуть подробнее на Сисадминвики).

Итак, в текстовом редакторе делаем следующую обработку текста:

заменяем принудительный перенос строки на пробел;
заменяем два пробела на один.
другие автозамены, смотря по особенностям текста

Экспорт в вики формат

Доустанавливаем в LibreOffice расширение Writer2Wiki (скачать подготовленное расширение или исходный дистрибутив, читать)

Загрузка в Теопедию

Полученный при экспорте текст (в формате вики) вставляем в соответсвующую страницу.

Вычитка

В зависимости от выбранного способа вычитку можно делать:

В LibreOffice до экспорта в вики формат. Открываем паралельно изображение и сверям текст.

На странице расширения вычики (если таковая делается средствами сайта), например, см вычитку одного из выпусков лондонского журнала "Спиритуалист". Доп информация:
- Proofread Page -- описание расширения
- Помощь по вычитке на проекте WikiSource.org.

На страницах Теопедии, когда текст уже загружен на нужную страницу. Открываем паралельно изображение и сверям текст.