Изменения

Перейти к навигации Перейти к поиску
Новая страница: «{{raw:t-ru-pool:Содержание справа}} Доступ к исходной информации – это хорошее подспорье для ис…»
{{raw:t-ru-pool:Содержание справа}}
Доступ к исходной информации – это хорошее подспорье для исследователя. И это одна из основных изначальных задач [[Теопедия:Вехи|Теопедии]].

Для примера рассмотрим добавление изображений и текстов источников [[:t-en-lib:HPB SB|Личного архива Е.П.Блаватской]] в англоязычной части Теопедии.

=Работа с изображением=
==Подготовка файла==
* '''Используем оглавление для нахождения названия периодики'''. Заодно приводим названия к единообразию (артикли убраем в конец):
: -- The Daily Graphic --> ''Daily Graphic, The''
: -- Daily Graphic --> ''Daily Graphic, The''
: -- London Spiritualist --> ''Spiritualist, The (London)''


* '''Единообразное оформление имён файлов''': Название_периодического_издания_Номер_Дата
: Например: ''Spiritualist, The (London) No.179 1876-01-28.pdf''

* '''Правила наименования''' опубликованы на странице:
https://en.teopedia.org/lib/Category:Blavatsky_H.P._Scrapbooks


==Загрузка в Теопедию==
* '''Загружаем через специальную страницу''', которая автоматически добавит файл в нужную категорию:
https://en.teopedia.org/lib/Special:BatchUpload/HPB-SB-sources

* '''Добавляем изображения на страницу ЛА ЕПБ''', предваряя служебным шаблоном:
<pre>{{HPB-SB-footer-sources}}
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=10|400px|The Spiritualist, No. 179, 1876-01-2, p. 44]]
[[File:Spiritualist, The (London) No.179 1876-01-28.pdf|page=11|400px|The Spiritualist, No. 179, 1876-01-2, p. 45]]
</pre>


=Работа с текстом=

Для подготовки текста нам понадобится следующее бесплатное ПО (далее приведено больше ссылок по этим программам):
* '''[https://ru.libreoffice.org/download/ LibreOffice]''' - офисные программы, мы будем использовать текстовый редактор Writer
* '''[https://sysadminwiki.ru/w/images/b/b0/Altsearch.zip Altsearch]''' - расширение к LibreOffice, улучшенный поиск и замена
* '''[https://sysadminwiki.ru/w/images/3/3f/Writer2wiki-0.13.oxt.zip Writer2Wiki]''' - расширение к LibreOffice, экспорт в вики формат


== Распознавание текста==
Для распознавания текста из изображения (OCR) можно использовать следующие способы (отличаются по качеству):
* [https://www.abbyy.com/ru/ Abby FineReader] -- платное приложение, дающее наилучший результат на сегодняшний день

* онлайн сервисы OCR (их много), например:
** https://www.onlineocr.net/ru/
** https://translate.yandex.ru/ocr

* Расширение [https://www.mediawiki.org/wiki/Extension:Proofread_Page Proofread Page] для вычитки распознанных текстов имеет собственное приложение для распознавание, но оно ещё очень слабое. В Теопедии оно установлено для улучшения вычитки (см. далее).


== Автоматическая обработка текста ==
После распознавания текста необходима его вычитка. В этом процессе некоторые исправления можно автоматизировать. Для этой работы рекомендую использовать '''LibreOffice''' ([https://ru.libreoffice.org/download/ скачать]) c расширением '''Altsearch''' ([https://sysadminwiki.ru/w/images/b/b0/Altsearch.zip скачать], [http://myooo.ru/content/view/39/29/ читать], см. чуть подробнее на [https://sysadminwiki.ru/wiki/LibreOffice#.D0.A1.D0.BA.D0.B2.D0.BE.D0.B7.D0.BD.D0.BE.D0.B9_.D0.BF.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8_.D0.B7.D0.B0.D0.BC.D0.B5.D0.BD.D0.B0 Сисадминвики]).

Итак, в текстовом редакторе делаем следующую обработку текста:
* заменяем принудительный перенос строки на пробел;
* заменяем два пробела на один.
* другие автозамены, смотря по особенностям текста


== Экспорт в вики формат ==
Доустанавливаем в LibreOffice расширение '''Writer2Wiki''' (скачать [https://sysadminwiki.ru/w/images/3/3f/Writer2wiki-0.13.oxt.zip подготовленное расширение] или [https://github.com/teopedia/writer2wiki/archive/master.zip исходный дистрибутив], читать)


==Загрузка в Теопедию==

Полученный при экспорте текст (в формате вики) вставляем в соответсвующую страницу.


==Вычитка==
В зависимости от выбранного способа вычитку можно делать:
* '''В LibreOffice''' до экспорта в вики формат. Открываем паралельно изображение и сверям текст.

* '''На странице расширения вычики''' (если таковая делается средствами сайта), например, см вычитку одного из выпусков лондонского журнала [https://en.teopedia.org/lib/Page:Spiritualist,_The_(London)_No.179_1876-01-28.pdf/10 "Спиритуалист"]. Доп информация:
** [https://www.mediawiki.org/wiki/Extension:Proofread_Page Proofread Page] -- описание расширения
** [https://ru.wikisource.org/wiki/Справка:Вычитка Помощь по вычитке] на проекте WikiSource.org.

* '''На страницах Теопедии''', когда текст уже загружен на нужную страницу. Открываем паралельно изображение и сверям текст.

[[Категория: Справка]]

Навигация