6826 байт добавлено
, 14:31, 18 августа 2020
{{raw:t-ru-pool:Содержание справа}}
Доступ к исходной информации – это хорошее подспорье для исследователя. И это одна из основных изначальных задач [[Теопедия:Вехи|Теопедии]].
Для примера рассмотрим добавление изображений и текстов источников [[:t-en-lib:HPB SB|Личного архива Е.П.Блаватской]] в англоязычной части Теопедии.
=Работа с изображением=
==Подготовка файла==
* '''Используем оглавление для нахождения названия периодики'''. Заодно приводим названия к единообразию (артикли убраем в конец):
: -- The Daily Graphic --> ''Daily Graphic, The''
: -- Daily Graphic --> ''Daily Graphic, The''
: -- London Spiritualist --> ''Spiritualist, The (London)''
* '''Единообразное оформление имён файлов''': Название_периодического_издания_Номер_Дата
: Например: ''Spiritualist, The (London) No.179 1876-01-28.pdf''
* '''Правила наименования''' опубликованы на странице:
https://en.teopedia.org/lib/Category:Blavatsky_H.P._Scrapbooks
==Загрузка в Теопедию==
* '''Загружаем через специальную страницу''', которая автоматически добавит файл в нужную категорию:
https://en.teopedia.org/lib/Special:BatchUpload/HPB-SB-sources
* '''Добавляем изображения на страницу ЛА ЕПБ''', предваряя служебным шаблоном:
<pre>{{HPB-SB-footer-sources}}
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=10|400px|The Spiritualist, No. 179, 1876-01-2, p. 44]]
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=11|400px|The Spiritualist, No. 179, 1876-01-2, p. 45]]
</pre>
=Работа с текстом=
Для подготовки текста нам понадобится следующее бесплатное ПО (далее приведено больше ссылок по этим программам):
* '''[https://ru.libreoffice.org/download/ LibreOffice]''' - офисные программы, мы будем использовать текстовый редактор Writer
* '''[https://sysadminwiki.ru/w/images/b/b0/Altsearch.zip Altsearch]''' - расширение к LibreOffice, улучшенный поиск и замена
* '''[https://sysadminwiki.ru/w/images/3/3f/Writer2wiki-0.13.oxt.zip Writer2Wiki]''' - расширение к LibreOffice, экспорт в вики формат
== Распознавание текста==
Для распознавания текста из изображения (OCR) можно использовать следующие способы (отличаются по качеству):
* [https://www.abbyy.com/ru/ Abby FineReader] -- платное приложение, дающее наилучший результат на сегодняшний день
* онлайн сервисы OCR (их много), например:
** https://www.onlineocr.net/ru/
** https://translate.yandex.ru/ocr
* Расширение [https://www.mediawiki.org/wiki/Extension:Proofread_Page Proofread Page] для вычитки распознанных текстов имеет собственное приложение для распознавание, но оно ещё очень слабое. В Теопедии оно установлено для улучшения вычитки (см. далее).
== Автоматическая обработка текста ==
После распознавания текста необходима его вычитка. В этом процессе некоторые исправления можно автоматизировать. Для этой работы рекомендую использовать '''LibreOffice''' ([https://ru.libreoffice.org/download/ скачать]) c расширением '''Altsearch''' ([https://sysadminwiki.ru/w/images/b/b0/Altsearch.zip скачать], [http://myooo.ru/content/view/39/29/ читать], см. чуть подробнее на [https://sysadminwiki.ru/wiki/LibreOffice#.D0.A1.D0.BA.D0.B2.D0.BE.D0.B7.D0.BD.D0.BE.D0.B9_.D0.BF.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8_.D0.B7.D0.B0.D0.BC.D0.B5.D0.BD.D0.B0 Сисадминвики]).
Итак, в текстовом редакторе делаем следующую обработку текста:
* заменяем принудительный перенос строки на пробел;
* заменяем два пробела на один.
* другие автозамены, смотря по особенностям текста
== Экспорт в вики формат ==
Доустанавливаем в LibreOffice расширение '''Writer2Wiki''' (скачать [https://sysadminwiki.ru/w/images/3/3f/Writer2wiki-0.13.oxt.zip подготовленное расширение] или [https://github.com/teopedia/writer2wiki/archive/master.zip исходный дистрибутив], читать)
==Загрузка в Теопедию==
Полученный при экспорте текст (в формате вики) вставляем в соответсвующую страницу.
==Вычитка==
В зависимости от выбранного способа вычитку можно делать:
* '''В LibreOffice''' до экспорта в вики формат. Открываем паралельно изображение и сверям текст.
* '''На странице расширения вычики''' (если таковая делается средствами сайта), например, см вычитку одного из выпусков лондонского журнала [https://en.teopedia.org/lib/Page:Spiritualist,_The_(London)_No.179_1876-01-28.pdf/10 "Спиритуалист"]. Доп информация:
** [https://www.mediawiki.org/wiki/Extension:Proofread_Page Proofread Page] -- описание расширения
** [https://ru.wikisource.org/wiki/Справка:Вычитка Помощь по вычитке] на проекте WikiSource.org.
* '''На страницах Теопедии''', когда текст уже загружен на нужную страницу. Открываем паралельно изображение и сверям текст.
[[Категория: Справка]]