Русские субтитры: Восстановление русской кодировки - Русские субтитры

Перейти к содержимому

Страница 1 из 1
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему

Восстановление русской кодировки PascalScript для SubtitleWorkshop

#1 Пользователь офлайн   НуПогоди Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Избранные
  • Сообщений: 832
  • Регистрация: 31 Июль 06
  • Страна:
  • Прислал(a) субтитров: 45
  • Своих переводов: 19

Отправлено 18 Май 2009 - 11:41

Привёл к приемлемому виду давно ждавший своей очереди Pascal-скрипт для конвертации субтитров, сохранённых в одной из альтернативных русских кодировок, к классической кодировке Windows (cp1251), поддерживаемой SubtitleWorkshop (SW). Общие возможности:
  • восстановление WIN (cp1251) из однобайтовых кодировок (KOI8, DOS, IS08859-5, MacOS и OEM) и двухбайтовой кодировки UTF8 (unicode).
  • автоматическое распознавание исходной кодировки субтитров.

Хотя алгоритм автораспознавания очень примитивен, мои первые тесты показали, что, если текста субтитров достаточно для анализа, с поставленной задачей он справляется. Если результат вас не устраивает, т.е. вместо осмысленного русского текста в поле субтитров вы по-прежнему видите какую-то тарабарщину, просто сделайте Undo (CTRL-Z) и выложите эти титры сюда - я, в силу своих скромных возможностей, попытаюсь разобраться, где кроется причина сбоя, и оптимизировать алгоритм автораспознавания.

В версии скрипта 0.03 список символов, который восстанавливают скрипты, ограничивается алфавитом и несколькими специальными символами, а именно:
абвгдеёжзийклмнопрстуфхцчшщьыъэюя
АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЫЪЭЮЯ
–—єЄіІїЇ‘’“”«»…№„


Выкладываю скриншот и два зазипованных файла: в одном (x2cp1251-v0.03-Source.zip) - текст самого скрипта, а в другом (x2cp1251-v0.03-TestSubtitles.zip) - примеры субтитров в разных кодировках, на которых тестировались эти скрипты. Скрипт надо скопировать в папку .\SubtitleWorkshop\PascalScripts и вызывать его из SW-меню: Tools > Pascal scripts > x2cp1251.

Естественно, все заинтересованные лица приглашаются к обсуждению (или, как предпочитают выражаться интеллектуалы на sports.ru, срач объявляется открытым). В первую очередь, меня интересует:
  • нормально ли работает алгоритм распознавания исходной кодировки текста?
  • какие ещё символы, по вашему мнению, стоит добавить?
  • что делать с UTF8-символами (скажем, ğčßöäü), которые не попадают в перечисленный список: (i) оставлять их как есть, (ii) заменять иx каким-нибудь спецсимволом (скажем, *) или (iii) выдавать предупреждение пользователю?

Прикрепленные файлы


Сообщение отредактировал НуПогоди: 25 Май 2009 - 12:31

0

#2 Пользователь офлайн   ЯсенСвет Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Members
  • Сообщений: 43
  • Регистрация: 08 Июль 06

Отправлено 07 Октябрь 2009 - 22:25

Файл не скачивается, пишет: неожиданный конец архива.

А у меня с Воркшопом такая же проблема, перестали читатся кодировки. :angry2: Другую прогрмамму не хочу, к Воркшопу привыкла и очень тяжело перестраиватся.
0

#3 Пользователь офлайн   BedaZzle Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Admin
  • Сообщений: 2 991
  • Регистрация: 22 Октябрь 02
  • Страна:
  • Прислал(a) субтитров: 96
  • Своих переводов: 16

Отправлено 07 Октябрь 2009 - 23:42

Просмотр сообщенияЯсенСвет (7.10.2009, 21:25) писал:

Файл не скачивается, пишет: неожиданный конец архива.


Нормально качается. Какой программой архив пытаешься открыть?
0

#4 Пользователь офлайн   ЯсенСвет Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Members
  • Сообщений: 43
  • Регистрация: 08 Июль 06

Отправлено 08 Октябрь 2009 - 18:09

Просмотр сообщенияBedaZzle (8.10.2009, 6:42) писал:

Нормально качается. Какой программой архив пытаешься открыть?

АААаааа , позор на мою голову. :blush: Это 7зип. Уже открыла, щас протестируем. :rolleyes:
0

#5 Пользователь офлайн   ЯсенСвет Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Members
  • Сообщений: 43
  • Регистрация: 08 Июль 06

Отправлено 08 Октябрь 2009 - 18:22

Заработало. :) Мне правда мерещится :blink: или как, но в Tools > Pascal scripts > x2cp1251 (Инструменты/скрипты на паскале) - этого нет: x2cp1251
Зато стала работать кирилица, если ее выбирают в меню: Настройки/ настройки/ основные / символы / выбираю Кириллицу и стало работать.

Ранее кирилица не работала ни под каким видом, после того как муж сменил на компе винду и мне все субтитры показывались в страшном виде абракадабры.
Спасиб. :wub:
0

#6 Пользователь офлайн   НуПогоди Иконка

  • Иконка
  • Отправить ЛС
  • Группа: Избранные
  • Сообщений: 832
  • Регистрация: 31 Июль 06
  • Страна:
  • Прислал(a) субтитров: 45
  • Своих переводов: 19

Отправлено 08 Октябрь 2009 - 19:23

Просмотр сообщенияЯсенСвет (8.10.2009, 16:22) писал:

Мне правда мерещится :blink: или как, но в Tools > Pascal scripts > x2cp1251 (Инструменты/скрипты на паскале) - этого нет: x2cp1251
В меню Tools > Pascal Scripts доступны только те скрипты, которые на момент запуска SW лежат в папке .\SubtitleWorkshop\PascalScripts. Скрипт (т.е. файл x2cp1251.pas) туда уже скопирован?
0

Страница 1 из 1
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему