Програм Вучко
Пресловљивач HTML докумената, из латинице у ћирилицу и обратно.
- Често постављана питања
- Преузмите Windows/Linux/Solaris-UNIX/Mac OSX верзију програма
- Вучко и ViM едитор
Примери
- Би-Би-Си на српском (оригинал)
- Глас јавности (оригинал)
- Политика (оригинал)
- Вечерње новости (оригинал)
- Б92 (оригинал)
- РТС (оригинал)
- Дневник (оригинал)
- Независне новине (оригинал)
- Ekonomist online (оригинал)
- Интернет огледало (оригинал)
- Linux Србија (оригинал)
- Microsoft Србија и Црна Гора (оригинал)
- Електротехнички факултет, Београд (оригинал)
- Министарство просвете и спорта (оригинал)
- СезамПро (оригинал)
- Пошта (оригинал)
- Часопис „Пи-Си“ (оригинал)
- Часопис Микро (оригинал)
Чему служи?
Уз помоћ програма Вучко можете пребацити HTML документе и чист текст из латиничног у ћирилично писмо. На овој страни су дати и примери неких презентација које би лако и брзо могле да се пребаце на ћирилично писмо. Мали скрипт програм може аутоматски да преслови садржај целе презентације за кратко време (пример: преузети целу застарелу „Политику“, ZIP, 350k).
Како је настао?
Програм је настао као део подухвата „Рачунарски алати за српски језик“, а у склопу акција „Националног већа за српски језик и писмо“. Написан је у програмском језику C и у неизмењеном облику ради на више рачунарских платформи.
Програм ради са HTML документима и чистим текстом у следећим
кодним распоредима: cp850, cp852,
cp855, cp866, cp1250,
cp1251, cp1252,iso8859-1
(latin1), iso8859-2 (latin2),
iso8859-3 (latin3), iso8859-4,
iso8859-5, iso8859-6,
iso8859-7, iso8859-8,
iso8859-9, iso8859-10,
iso8859-11, iso8859-13,
iso8859-14, iso8859-15 (latin9),
iso8859-16, koi8-r и utf8.
Текстови на српском језику у латиничном писму су углавном
писани у cp1250
iso8859-2 или Unicode UTF-8
кодном распореду.
Програм ради са Unicode подацима.
Документе који нису у Unicode UTF-8 кодном
распореду претходно треба пропустити кроз програм htmlany2utf који
ће извршити потребну конверзију.
За пребацивање текста из ћирилице у латиницу на располагању је програм
c2l. И овај програм, као и Вучко, ради само са HTML и текстуалним
датотекама у Unicode UTF-8 распореду. Ако у латинично писмо треба пребацити
текст писан у неком другом распореду податке програму треба доставити преко
htmlany2utf програма — на исти начин као и за Вучка.
Страница/текст која је пребачена у ћирилицу/латиницу је у
Unicode UTF-8
Основне карактеристике
Рад из командне линије
Програм се покреће из командне линије (DOS-а, UNIX терминала). Може да ради
и као филтер, за пребацивање текста „у лету“. Програм долази са помоћним
програмом htmlany2utf који представља предфилтер и омогућава рад
са великим бројем кодних распореда.
htmlany2utf
htmlany2utf 0.801 (2003-10-26) Program that converts HTML file from given encoding to UTF-8 encoding replacing HTML decimal and hex unicode encoded characters to single unicode character. Usage: htmlany2utf -inputencoding [-in inputfile] [-out outputfile] If inputfile is omitted stdin is used. If outputfile is omitted stdout is used. Inputencoding is one of: cp850, cp852, cp855, cp866, cp1250, cp1251, cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3), iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9, iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9), iso8859-16, koi8-r, utf8.
vucko
Vucko 0.989 (2003-11-10)
Program that transliterates Serbian HTML/TXT documents written in Latin
alphabet to Cyrillic alphabet. Works only for pages in UTF-8 encoding!
For HTML/TXT pages in other encodings first use program 'htmlany2utf'.
Usage:
vucko [-text] [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
-text Process file as text, ignore HTML tags.
Useful for emails, agency news...
c2l
c2l 0.01 (2003-10-26) Program that transliterates Serbian HTML/TXT documents written in Cyrillic alphabet to Latin alphabet. Works only for pages in Unicode UTF-8 encoding! For HTML/TXT pages in other encodings first use program 'htmlany2utf'. Usage: c2l [-in inputfile] [-out outputfile] If inputfile is omitted stdin is used. If outputfile is omitted stdout is used.
Примери
Пресловљавање у ћирилично писмо
Ево како би у ћирилицу пресловили index.html датотеку записану у cp1251 кодном
распореду и снимили у
htmlany2utf -cp1250 -in index.html | vucko -out index-c.html
Детаљнији опис, шта се дешава у овој командној линији: програм
htmlany2utf улазну датотеку index.html која је у
cp1250 кодном распореду пребацује у Unicode UTF-8
распоред и шаље је на стандардни излаз (stdout), пошто пошто
-out датотека није наведена. Стандарни излаз је преусмерен на
стандардни улаз (stdin) програма vucko који одатле
(пошто -in датотека није дата) преузима податке пребачене у
Unicode UTF-8 распоред и пресловљен текст записује у
Windows корисници могу користити и bvucko.bat скрипт који ће
урадити исти посао: bvucko -cp1250 -in index.html -out
index-c.html
Пресловљавање у латинично писмо
За пресловљавање датотеке index.html у
htmlany2utf -iso8859-5 -in index.html | c2l -out index-l.html
Windows корисници могу користити и bc2l.bat скрипт:
bc2l -iso8859-5 -in index.html -out index-c.html
Пребацивање докумената у Unicode UTF-8 распоред
Програми vucko и c2l очекују податке у
Unicode UTF-8 кодном распореду. Ови програми такође не могу да
раде са децимално записаним Unicode карактерима у HTML (&#xxx;).
Уз помоћ htmlany2utf текст се може пребацити из било ког
распореда у потребан Unicode UTF-8, без пресловљавања текста из
писма у писмо. Може се искористити да се поправе странице које су грешком
записане у распореду где нема ни наших латиничних слова већ је за њих коришћен
децимални или хексадецимални Unicode HTML запис.
Пример: htmlany2utf -iso8859-5 -in index.html -out
index-utf8.html
Графичко окружење
Програм не долази са графичким окружењем и није „шарен“ — намењен је раду из командне линије. Ипак, лако се укључује у постојећа графичка окружења за едитовање текста која омогућавају спољашње текстуалне филтере (попут едитора ViM, Emacs, UltraEdit...).
„Вучко“ у комбинацији са вашим омиљеним едитором представља комплетан алат за пресловљавање текстова! Погледајте упутство са примерима: Вучко и ViM едитор.
Илустрације из упутства:
Едиторски рад: обележите текст који треба пресловити.
Едиторски рад: пресловљен текст, HTML код је неоштећен.
JavaScript Вучко
Понекад је погодно имати алат за брзо пресловљавање текстова, увек доступан преко интернета, „на клик“. Као део пакета ћете наћи и JavaScript верзију Вучка, али је то само бледа имитација онога што Вучко може да уради. Не води рачуна о страним речима, електронским адресама, HTML коду, наводницима и осталим детаљима. Ипак, може да послужи за брзо пресловљавање у латиницу или за пребацивање текста из латиничног дуал распореда у ћирилично писмо — ако рецимо пожелите да откуцате ћирилично електронско писмо али немате инсталирану ћириличну тастатуру.
Често постављана питања
Да ли ће електронске адресе бити пресловљене?
При пребацивању текста из латиничног у ћирилично писмо програм
vucko препознаје електронске адресе и неће их пресловити у
ћирилицу.
Како да спречим да се део текста не пресловљава?
Текст који не треба пресловљавати треба ставити у
<lang></lang> тагове. При пребацивању
из латинице у ћирилицу текст смештен између <lang> и </lang> неће
бити диран, али ће тагови бити уклоњени.
Интернет читачи игноришу непознате тагове.
Како спречити ћирилизацију страних речи?
Реч која у себи садржи неко од слова qwyx се не пребацује у ћирилицу.
Треба имати у виду да програм не разуме енглески и друге језике па ће стране
речи без тих слова ипак бити пребачене у ћирилицу. У тим случајевима делове
текста претходно ставити у
<lang></lang> тагове — што је
коришћено y пресловљавању неких од тест страница на ћирилицу.
Како спречити спајање слова: „nj“ у „нј“, не „њ“?
Ако треба спречити стапање слова, „n“ и „j“ у
слово „њ“ онда треба поставити празан таг
између,<!> ће послужити. Без тог
раздвајања прогам ће неисправно пресловити „Tanjug“ у „Тањуг“ (уместо „Танјуг“).
Списак изузетака није уграђен.
Како до наводника: отворени доле, затворени горе?
Већина текстова на интернету не користи правилне отворене (доле: „) и
затворене (горе: “) наводнике. При пресловљавању у ћирилично писмо програм
vucko ће се потрудити да исправни постојеће наводнике и усклади са
правописом. Погледајте пример: пре и после.
Како спречити vucko потпис/печат?
При пресловљавању у ћирилично писмо програм на крају оставља потпис, који у при прегледу HTML датотеке неће бити видљив у читачу али ипак некоме може да смета:
<!-- ===================================================================
Пребацивање HTML документа из латинице у ћирилицу обављено уз помоћ
програма „Вучко“ верзија 0.984, http://galeb.etf.bg.ac.yu/~alexa/
Copyright © 2003. Александар Веселиновић — Алекса
==================================================================== -->
Пре свега приметите да је адреса у потпису застарела. При стартовању програма
користите опцију -nosig и програм се неће потписати.
Како се из ћирилице у латиницу пребацује: ЊЕГОШ и Његош?
Програм c2l води рачуна о присуству великих слова при
пребацивању слова „њ“ и „љ“. Тако се „ЊЕГОШ“ исправно пресловљава у „NJEGOŠ“ а
не у „NjEGOŠ“, а „Његош“ у „Njegoš“.
Да ли ће се и римски бројеви пребацити у ћирилицу?
Ако имате латинични текст у коме се могу наћи римски бројеви (рецимо XII, III, IV, IX) Вучко ће пробати да их остави неизмењеним, али не рачунајте да то ради за све бројеве: рецимо за M или I. Пробаће да препозна комбинацију римских бројева (више од једног знака), али за сваки случај проверите пресловљени текст.
Да ли ће се „11:30PM“ пребацити у „11:30ПМ“?
Не, програм ће при пребацивању у ћирилицу покушати да препозна временске ознаке и остави их у латиничном писму.
Да ли при пресловљавању пази на мерне јединице?
Не зна за све мерне јединице али се труди: ознаке величине датотека (као рецимо 100kb), температура (20ºC), или брзина (km/s) неће бити пресловљене.
Која је званична адреса Вучка на интернету?
Програм Вучко је био смештен на неколико различитих интернет адреса али је у последњих неколико година увек био доступан преко www.aleksa.org/vucko/. То је адреса коју можете проследити даље.
Да ли Вучко има конкуренцију?
На сву срећу: да! Вучко је био први и још увек једини програм који је могао да изађе на крај са HTML документима, и самим тим омогући лакше одржавање и прављење ћириличних интернет презентација. Због рада из командне линије није баш најсрећније решење, мада уз добар едитор то више није препрека. Прегледајте списак сличних алата.
Ауторска права
Да ли и под којим условима могу користити програм?
За личну употребу, за ваше личне стране коришћење програма је слободно и бесплатно. На личној презентацији која је пресловљена на ћирилицу уз помоћ Вучка ставити линк на www.aleksa.org/vucko/ и послати ел. пошту .
За употребу за сајтове група, установа, предузећа и држава, те друге сајтове који имају службену или полуслужбену сврху, или за комерцијалну употребу, контактирати ради једноставног договора и регистрације.
Преузимање програма
Програм (ознака 0.989) није мењан од 10. новембра 2003.
