Справка:Добавление изображений и текстов источников
Доступ к исходной информации – это хорошее подспорье для исследователя. И это одна из основных изначальных задач Теопедии.
Для примера рассмотрим добавление изображений и текстов источников Личного архива Е.П.Блаватской в англоязычной части Теопедии.
Работа с изображением
Подготовка файла
- Используем оглавление для нахождения названия периодики. Заодно приводим названия к единообразию (артикли убраем в конец):
- -- The Daily Graphic --> Daily Graphic, The
- -- Daily Graphic --> Daily Graphic, The
- -- London Spiritualist --> Spiritualist, The (London)
- Единообразное оформление имён файлов: Название_периодического_издания_Номер_Дата
- Например: Spiritualist, The (London) No.179 1876-01-28.pdf
- Правила наименования опубликованы на странице:
https://en.teopedia.org/lib/Category:Blavatsky_H.P._Scrapbooks
Загрузка в Теопедию
- Загружаем через специальную страницу, которая автоматически добавит файл в нужную категорию:
https://en.teopedia.org/lib/Special:BatchUpload/HPB-SB-sources
- Добавляем изображения на страницу ЛА ЕПБ, предваряя служебным шаблоном:
{{HPB-SB-footer-sources}} [[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=10|400px|The Spiritualist, No. 179, 1876-01-2, p. 44]] [[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=11|400px|The Spiritualist, No. 179, 1876-01-2, p. 45]]
Работа с текстом
Для подготовки текста нам понадобится следующее бесплатное ПО (далее приведено больше ссылок по этим программам):
- LibreOffice – офисные программы, мы будем использовать текстовый редактор Writer
- Altsearch – расширение к LibreOffice, улучшенный поиск и замена
- Writer2Wiki – расширение к LibreOffice, экспорт в вики формат
Распознавание текста
Для распознавания текста из изображения (OCR) можно использовать следующие способы (отличаются по качеству):
- Abby FineReader -- платное приложение, дающее наилучший результат на сегодняшний день
- онлайн сервисы OCR (их много), например:
- Online OCR
- Яндекс Переводчик
- Гугл Документы – нужно сохранить изображения на Гугл Диск и открыть его с помощью Гугл Документов.
- и другие, см., например, статью «Распознавание текста онлайн — ТОП-9 сервисов» на сайте ITLang.
- Расширение Proofread Page для вычитки распознанных текстов имеет собственное приложение для распознавание, но оно ещё очень слабое. В Теопедии оно установлено для улучшения вычитки (см. далее).
Автоматическая обработка текста
После распознавания текста необходима его вычитка. В этом процессе некоторые исправления можно автоматизировать. Для этой работы рекомендую использовать LibreOffice (скачать) c расширением Altsearch (скачать, читать, см. чуть подробнее на Сисадминвики).
Итак, в текстовом редакторе делаем следующую обработку текста:
- заменяем принудительный перенос строки на пробел;
- заменяем два пробела на один.
- другие автозамены, смотря по особенностям текста
Экспорт в вики формат
Доустанавливаем в LibreOffice расширение Writer2Wiki (скачать подготовленное расширение или исходный дистрибутив, читать)
Загрузка в Теопедию
Полученный при экспорте текст (в формате вики) вставляем в соответсвующую страницу.
Вычитка
В зависимости от выбранного способа вычитку можно делать:
- В LibreOffice до экспорта в вики формат. Открываем паралельно изображение и сверям текст.
- На странице расширения вычики (если таковая делается средствами сайта), например, см вычитку одного из выпусков лондонского журнала "Спиритуалист". Доп информация:
- Proofread Page -- описание расширения
- Помощь по вычитке на проекте WikiSource.org.
- На страницах Теопедии, когда текст уже загружен на нужную страницу. Открываем паралельно изображение и сверям текст.