Редактирование в Subtitle Workshop Орфография
#1
Отправлено 03 Октябрь 2013 - 16:47
Одну и ту же ошибку если во всём файле их многажды, приходится исправлять много раз, нажимая кнопку заменить.Если можно одну и ту же ошибку заменить правильным словом одним кликом,то как? У меня все субтитры транслитизированы с латиницы, на кириллицу.И ошибки одинаковые в разных файлах.
Нельзя ли как-то автоматизировать этот процесс составлением библиотеки неправильных слов с заменой на правильные.
Где можно ознакомиться подробно с процессом редактирования в Subtitle Workshop? С вордом не знаком, хотя чего-то пытался там делать.
#2
Отправлено 03 Октябрь 2013 - 23:34
ateist (03 Октябрь 2013 - 16:47) писал:
Нельзя ли как-то автоматизировать этот процесс составлением библиотеки неправильных слов с заменой на правильные.
Там есть кнопка "Добавить"
Цитата
Он должен быть установлен
#3
Отправлено 04 Октябрь 2013 - 01:07
Drunkenmunky (03 Октябрь 2013 - 19:34) писал:
Он должен быть установлен
Ворд установлен. При нажатии на ДОБАВИТЬ не происходит замена и приходится возвращаться к прдыдущему слову и редактировать его по новой. Таких слов нужно заменить 90 процентов в файле. Вот как в Субрипе при вытаскиваии
субтитров из ДВД, там дело идёт весьма споро, матрица то пополняется. И последующее распознавание субтитров идёт почти на автомате. Ну это вряд ли, так сказать из области фантазий.Так что давить на ДОБАВИТЬ, время редактирования
увеличивается почти в два раза. Уж проще набить текст на слух по новой. Может быть есть скрытые возможности редактированяя в этой программе о которых я не подозреваю. Поэтому и попросил помощи.
#5
Отправлено 04 Октябрь 2013 - 11:08
Drunkenmunky (03 Октябрь 2013 - 21:19) писал:
Латиница какая-то неправильная. Например А, она же А,
она же Ш. Ну и дальше в таком же духе.Кое-какие буквы
в латинице меняю на кириллические буквы сразу, их не более,пяти
потом начинается свистопляска с редактированием.

00:00:16,720 --> 00:00:20,200
-ekola - sekretn&j woenn&j obyekt.
Obuenie s rodn&mi i blizkimi
00:00:20,280 --> 00:00:21,280
zapreueno.
00:00:21,400 --> 00:00:25,560
-M& hotim datx tebe aans. Prineseax
polxzu Rodine - poluciax prouenie
00:00:25,640 --> 00:00:26,560
ot gosudarstwa.
00:00:26,680 --> 00:00:30,520
-Leboe nepodcinenie nacalxstwu
budet rasceneno kak izmena Rodine.
00:00:30,640 --> 00:00:33,600
-Ona budet ucitxsq wmeste s wami.
-Da kak ve oto tak...
00:00:33,720 --> 00:00:35,840
-Sejcas ona tove nuvna strane.
00:00:42,720 --> 00:00:46,680
-Dewconki skazali, apionila za mnoj.
-epionqt za razwedcikami, a t& twarx
00:00:46,840 --> 00:00:48,280
melkaq.
-Ne nar&wajsq.
#6
Отправлено 04 Октябрь 2013 - 18:56
ateist (04 Октябрь 2013 - 11:08) писал:
Предполагаю, что это набор символов ср1252. Такой транслит используется в отечественном "Телетексте" если телевизор не поддерживает кириллические символы телетекста. Еще лет 10 назад таких телевизоров было большинство.
Цитата
Не совсем. "Шш" в таком телетексте отображается как "Àà", "Юю" как "Èè" и т.д.. А "Аа" у вас получается т.к., вероятно, вы неправильно выставляете кодировку. В cp1251 "Àà" и т.п. нет
Цитата
Именно.
Цитата
потом начинается свистопляска с редактированием.
Вам нужна программа "транслитератор" с возможностью редактирования "пользовательских таблиц"(правил транслита). Или же обратитесь в раздел этого форума посвященный скриптам SW.
#8
Отправлено 04 Октябрь 2013 - 21:05
ateist (04 Октябрь 2013 - 19:43) писал:
Попробуйте прилагаемый.
Файл "Translit.html" откройте в своем браузере. Предварительно отредактировав под свои нужды файл "translit_tt.js" в стандартном Блокноте.

Количество загрузок:: 2
#9
Отправлено 05 Октябрь 2013 - 11:13
Drunkenmunky (04 Октябрь 2013 - 17:05) писал:
Файл "Translit.html" откройте в своем браузере. Предварительно отредактировав под свои нужды файл "translit_tt.js" в стандартном Блокноте.

Проблема в том что субтитры уже вытянуты в таком виде при помощи тсдоктор, а в ней ясен пень отсутствует декриптор кириллицы. И уже смена страниц кодировки ничего не даст. Это должно решаться установлением на прграмном уровне автором этой проги.Может быть нужно искать другую прогу, чтобы извлекать из транспортного потока
корректно субтитры в кириллице.Но сии проги мне неизвестны, есть кое-какие, но нет решения проблемы. Как-то так сумбурно всё это изложено мной,но суть , я думаю, вы уловили.Что вы можете подсказать по этому поводу?
#10
Отправлено 05 Октябрь 2013 - 12:19
ateist (05 Октябрь 2013 - 11:13) писал:
Что-то мне сомнительно. Ещё раз обращаю ваше внимание, что такие символы как Ш, Ч, Ю и прочие передаются (по крайней мере как я помню) в виде символов с диакритикой. И скорее всего эти дополнительные элементы теряются именно при извлечении\распознавании(как мне кажется). Если б вы выложили пару скриншотов "процесса" обращения с "тсдоктором"(не имел удовольствия), было бы больше ясности.
#11
Отправлено 05 Октябрь 2013 - 12:32
ateist (05 Октябрь 2013 - 09:13) писал:
Ни одна из известных мне видов транслитерации тут не подойдет, т.е. готовой программы, которая приведет эти крякозябры в осмысленный текст, вам скорее всего не найти. Лучше сами сделайте таблицу нужной вам перекодировки, т.е. обычный текстовый файл, в котором каждая строка имеет вид
a -> а
b -> б
...
& -> ы
и т.д.
Если одни и те же латинские буквы используются не только сами, но и в сочетании (sh - ш), включите в файл и их (лучше в верхней части списка). Остальное решается автозаменой, в один клик -- либо каким-нибудь макросом в продвинутом текстовом редакторе, либо, как уже советовали, прямо в Воркшопе через паскаль-скрипты.
#12
Отправлено 05 Октябрь 2013 - 13:33
Drunkenmunky (05 Октябрь 2013 - 08:19) писал:
Я с вами полностью согласен.Проблема и и ещё в том, что обладаю весьма скудными познаниями в данной области.
Вы уж извините меня, с криншотами не умею обращаться.Скажу на словах.Всё идёт как бы на автомате, конечно кое-какие предварительные настройки всё же делаю по мелочи,в выводе субтитров настроек,считай что нет.Транспортный поток разбивается на составляющие: видео,звук,субтитры, до этого т.поток проверяется на наличие ошибок,исправляется.Затем получаю на выходе видео и субтитры в srt. Если этот файл пропустить через ресивер, на котором данный файл писался, то он покажет смотрибельные субтитры, но не те которые были извлечены из потока,
а те которые находятся на странице телетекста №888.
#13
Отправлено 05 Октябрь 2013 - 14:17
Drunkenmunky (05 Октябрь 2013 - 08:19) писал:
Да, конечно.Мне известны 5 букв + заглавные, которые можно безболезненно заменить при редактировании в Воркшопе.Сочетаний sh нет. Есть другие сочетания, которые,да, можно применить к некоторым словам, а в некоторых искажает смысл слова, что-то лечишь,а что-то калечишь. Если бы была обычная латиница, то и проблем не было-бы. Было бы у меня столько же познаний в этом как у вас, то наверно бы нашёл решение данной проблемы.

#14
Отправлено 05 Октябрь 2013 - 15:08
ateist (05 Октябрь 2013 - 14:17) писал:
Ну, тут есть только один выход - сначала заменять известные проблемные слова или их части(вряд ли их очень много - 200-300).
Если хотите, я отредактирую предыдущий скрипт. Соберите эти самые проблемные слова через запятую или в виде списка. Впоследствии сможете добавлять их в скрипт самостоятельно.
Кроме того аналогичный скрипт есть и в SW(инструменты>информация и ошибки>Скрипты OCR), но его так же требуется заполнять вручную, и он несколько сложнее.
#15
Отправлено 05 Октябрь 2013 - 18:19
Drunkenmunky (05 Октябрь 2013 - 11:08) писал:
Если хотите, я отредактирую предыдущий скрипт. Соберите эти самые проблемные слова через запятую или в виде списка. Впоследствии сможете добавлять их в скрипт самостоятельно.
Кроме того аналогичный скрипт есть и в SW(инструменты>информация и ошибки>Скрипты OCR), но его так же требуется заполнять вручную, и он несколько сложнее.
Спасибо вам.Я ещё раз проверю сочетание парных букв на наличие ошибок и скину вам. Вот если бы ещё сделать обширную библиотеку заменяемых слов на правильные, чтобы при загрузке это шло автоматом, этак слов 200-300, было бы просто здорово.Процентов на 95 проблема была бы практически решена. на днях соберу компьютер для опытов и поробую сменить региональнй язык и кодировку, установлю TSDoctor и попробую вытащить субтитры.
#16
Отправлено 05 Октябрь 2013 - 18:27
Drunkenmunky (05 Октябрь 2013 - 08:19) писал:
Вы очень верно подметили, что диакритические символы теряются при извлечении субтитров. Если бы они сохранялись,
то можно было привести символы в удобоваримый вид сменой кодировки 1252 на 1251 и всё бы стало на свои места.
#19
Отправлено 06 Октябрь 2013 - 16:58
ateist (06 Октябрь 2013 - 16:03) писал:
"Заменить" - заменить предложенным словом выделенное слово.
"Заменить всё" - заменить предложенным словом выделенное слово во всём тексте.
"Автозамена" - заменить предложенным словом выделенное слово во всём тексте и всех последующих, запомнить выбор и больше не спрашивать.
#20
Отправлено 06 Октябрь 2013 - 17:28
Drunkenmunky (06 Октябрь 2013 - 12:58) писал:
"Заменить всё" - заменить предложенным словом выделенное слово во всём тексте.
"Автозамена" - заменить предложенным словом выделенное слово во всём тексте и всех последующих, запомнить выбор и больше не спрашивать.
Я конечно немного утрировал, задавая вопрос о назначении этих кнопок.
Спросил я не зря.ЗАМЕНИТЬ-заменяет. ЗАМЕНИТЬ ВСЁ и АВТОЗАМЕНА-только заменяет.Если бы эти кнопки выполняли свои функции, то жить было бы проще. В чём может быть проблема? Не работают они у меня лет десять.Например, слово: ито нужно заменить на слово:что.Хоть нажимай на все кнопки по очереди-результат один, только заменяет одно слово, а ведь нужно заменить одно и то же слово 50-200 раз. Проще уж в ПОИСКЕ и ЗАМЕНА найти и заменить все скопом.Если бы АВТОЗАМЕНА работала, то у меня бы работа по редпктированию субтитров занимала от силы минут 30. Что- то у меня не так работает. Что посоветуете?