Program Vučko
www.aleksa.org/vucko

Preslovljivač HTML dokumenata, iz latinice u ćirilicu i obratno.


Primeri


Čemu služi?

Uz pomoć programa Vučko možete prebaciti HTML dokumente i čist tekst iz latiničnog u ćirilično pismo. Na ovoj strani su dati i primeri nekih prezentacija koje bi lako i brzo mogle da se prebace na ćirilično pismo. Mali skript program može automatski da preslovi sadržaj cele prezentacije za kratko vreme (primer: preuzeti celu zastarelu „Politiku“, ZIP, 350k).


Kako je nastao?

Program je nastao kao deo poduhvata „Računarski alati za srpski jezik“, a u sklopu akcija „Nacionalnog veća za srpski jezik i pismo“. Napisan je u programskom jeziku C i u neizmenjenom obliku radi na više računarskih platformi.

Program radi sa HTML dokumentima i čistim tekstom u sledećim kodnim rasporedima: cp850, cp852, cp855, cp866, cp1250, cp1251, cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3), iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9, iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9), iso8859-16, koi8-r i utf8. Tekstovi na srpskom jeziku u latiničnom pismu su uglavnom pisani u cp1250 iso8859-2 ili Unicode UTF-8 kodnom rasporedu.

Program radi sa Unicode podacima. Dokumente koji nisu u Unicode UTF-8 kodnom rasporedu prethodno treba propustiti kroz program htmlany2utf koji će izvršiti potrebnu konverziju.

Za prebacivanje teksta iz ćirilice u latinicu na raspolaganju je program c2l. I ovaj program, kao i Vučko, radi samo sa HTML i tekstualnim datotekama u Unicode UTF-8 rasporedu. Ako u latinično pismo treba prebaciti tekst pisan u nekom drugom rasporedu podatke programu treba dostaviti preko htmlany2utf programa — na isti način kao i za Vučka.

Stranica/tekst koja je prebačena u ćirilicu/latinicu je u Unicode UTF-8 rasporedu što omogućava čitljivost na svim operativnim sistemima.


Osnovne karakteristike

Rad iz komandne linije

Program se pokreće iz komandne linije (DOS-a, UNIX terminala). Može da radi i kao filter, za prebacivanje teksta „u letu“. Program dolazi sa pomoćnim programom htmlany2utf koji predstavlja predfilter i omogućava rad sa velikim brojem kodnih rasporeda.

htmlany2utf

  htmlany2utf 0.801 (2003-10-26)
Program that converts HTML file from given encoding to UTF-8 encoding replacing
HTML decimal and hex unicode encoded characters to single unicode character.
Usage:
htmlany2utf -inputencoding [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
Inputencoding is one of: cp850, cp852, cp855, cp866, cp1250, cp1251,
  cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3),
  iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9,
  iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9),
  iso8859-16, koi8-r, utf8.

vucko

  Vucko 0.989 (2003-11-10)
Program that transliterates Serbian HTML/TXT documents written in Latin
alphabet to Cyrillic alphabet. Works only for pages in UTF-8 encoding!
For HTML/TXT pages in other encodings first use program 'htmlany2utf'.
Usage:
vucko [-text] [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
-text Process file as text, ignore HTML tags.
       Useful for emails, agency news...

c2l

  c2l 0.01 (2003-10-26)
Program that transliterates Serbian HTML/TXT documents written
in Cyrillic alphabet to Latin alphabet. Works only for pages in
Unicode UTF-8 encoding!  For HTML/TXT pages in other encodings
first use program 'htmlany2utf'.
Usage:
c2l [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.

Primeri

Preslovljavanje u ćirilično pismo

Evo kako bi u ćirilicu preslovili index.html datoteku zapisanu u cp1251 kodnom rasporedu i snimili u index-c.html datoteku:

htmlany2utf -cp1250 -in index.html | vucko -out index-c.html

Detaljniji opis, šta se dešava u ovoj komandnoj liniji: program htmlany2utf ulaznu datoteku index.html koja je u cp1250 kodnom rasporedu prebacuje u Unicode UTF-8 raspored i šalje je na standardni izlaz (stdout), pošto pošto -out datoteka nije navedena. Standarni izlaz je preusmeren na standardni ulaz (stdin) programa vucko koji odatle (pošto -in datoteka nije data) preuzima podatke prebačene u Unicode UTF-8 raspored i preslovljen tekst zapisuje u index-c.html datoteku.

Windows korisnici mogu koristiti i bvucko.bat skript koji će uraditi isti posao: bvucko -cp1250 -in index.html -out index-c.html.

Preslovljavanje u latinično pismo

Za preslovljavanje datoteke index.html u iso8859-5 rasporedu u latinično pismo i index-l.html datoteku:

htmlany2utf -iso8859-5 -in index.html | c2l -out index-l.html

Windows korisnici mogu koristiti i bc2l.bat skript:
bc2l -iso8859-5 -in index.html -out index-c.html

Prebacivanje dokumenata u Unicode UTF-8 raspored

Programi vucko i c2l očekuju podatke u Unicode UTF-8 kodnom rasporedu. Ovi programi takođe ne mogu da rade sa decimalno zapisanim Unicode karakterima u HTML (&#xxx;).

Uz pomoć htmlany2utf tekst se može prebaciti iz bilo kog rasporeda u potreban Unicode UTF-8, bez preslovljavanja teksta iz pisma u pismo. Može se iskoristiti da se poprave stranice koje su greškom zapisane u rasporedu gde nema ni naših latiničnih slova već je za njih korišćen decimalni ili heksadecimalni Unicode HTML zapis.

Primer: htmlany2utf -iso8859-5 -in index.html -out index-utf8.html.


Grafičko okruženje

Program ne dolazi sa grafičkim okruženjem i nije „šaren“ — namenjen je radu iz komandne linije. Ipak, lako se uključuje u postojeća grafička okruženja za editovanje teksta koja omogućavaju spoljašnje tekstualne filtere (poput editora ViM, Emacs, UltraEdit...).

„Vučko“ u kombinaciji sa vašim omiljenim editorom predstavlja kompletan alat za preslovljavanje tekstova! Pogledajte uputstvo sa primerima: Vučko i ViM editor.

Ilustracije iz uputstva:


Editorski rad: obeležite tekst koji treba presloviti.


Editorski rad: preslovljen tekst, HTML kod je neoštećen.


JavaScript Vučko

Ponekad je pogodno imati alat za brzo preslovljavanje tekstova, uvek dostupan preko interneta, „na klik“. Kao deo paketa ćete naći i JavaScript verziju Vučka, ali je to samo bleda imitacija onoga što Vučko može da uradi. Ne vodi računa o stranim rečima, elektronskim adresama, HTML kodu, navodnicima i ostalim detaljima. Ipak, može da posluži za brzo preslovljavanje u latinicu ili za prebacivanje teksta iz latiničnog dual rasporeda u ćirilično pismo — ako recimo poželite da otkucate ćirilično elektronsko pismo ali nemate instaliranu ćiriličnu tastaturu.


Često postavljana pitanja

Da li će elektronske adrese biti preslovljene?

Pri prebacivanju teksta iz latiničnog u ćirilično pismo program vucko prepoznaje elektronske adrese i neće ih presloviti u ćirilicu.

Kako da sprečim da se deo teksta ne preslovljava?

Tekst koji ne treba preslovljavati treba staviti u <lang></lang> tagove. Pri prebacivanju iz latinice u ćirilicu tekst smešten između <lang> i </lang> neće biti diran, ali će tagovi biti uklonjeni.

Internet čitači ignorišu nepoznate tagove.

Kako sprečiti ćirilizaciju stranih reči?

Reč koja u sebi sadrži neko od slova qwyx se ne prebacuje u ćirilicu. Treba imati u vidu da program ne razume engleski i druge jezike pa će strane reči bez tih slova ipak biti prebačene u ćirilicu. U tim slučajevima delove teksta prethodno staviti u <lang></lang> tagove — što je korišćeno y preslovljavanju nekih od test stranica na ćirilicu.

Kako sprečiti spajanje slova: „nj“ u „нј“, ne „њ“?

Ako treba sprečiti stapanje slova, „n“ i „j“ u slovo „њ“ onda treba postaviti prazan tag između,<!> će poslužiti. Bez tog razdvajanja progam će neispravno presloviti „Tanjug“ u „Тањуг“ (umesto „Танјуг“). Spisak izuzetaka nije ugrađen.

Kako do navodnika: otvoreni dole, zatvoreni gore?

Većina tekstova na internetu ne koristi pravilne otvorene (dole: „) i zatvorene (gore: “) navodnike. Pri preslovljavanju u ćirilično pismo program vucko će se potruditi da ispravni postojeće navodnike i uskladi sa pravopisom. Pogledajte primer: pre i posle.

Kako sprečiti vucko potpis/pečat?

Pri preslovljavanju u ćirilično pismo program na kraju ostavlja potpis, koji u pri pregledu HTML datoteke neće biti vidljiv u čitaču ali ipak nekome može da smeta:

<!-- ===================================================================
     Prebacivanje HTML dokumenta iz latinice u ćirilicu obavljeno uz pomoć
     programa „Vučko“ verzija 0.984, http://galeb.etf.bg.ac.yu/~alexa/
     Copyright © 2003.  Aleksandar Veselinović — Aleksa
     ==================================================================== -->

Pre svega primetite da je adresa u potpisu zastarela. Pri startovanju programa koristite opciju -nosig i program se neće potpisati.

Kako se iz ćirilice u latinicu prebacuje: NJEGOŠ i Njegoš?

Program c2l vodi računa o prisustvu velikih slova pri prebacivanju slova „њ“ i „љ“. Tako se „ЊЕГОШ“ ispravno preslovljava u „NJEGOŠ“ a ne u „NjEGOŠ“, a „Његош“ u „Njegoš“.

Da li će se i rimski brojevi prebaciti u ćirilicu?

Ako imate latinični tekst u kome se mogu naći rimski brojevi (recimo XII, III, IV, IX) Vučko će probati da ih ostavi neizmenjenim, ali ne računajte da to radi za sve brojeve: recimo za M ili I. Probaće da prepozna kombinaciju rimskih brojeva (više od jednog znaka), ali za svaki slučaj proverite preslovljeni tekst.

Da li će se „11:30PM“ prebaciti u „11:30PM“?

Ne, program će pri prebacivanju u ćirilicu pokušati da prepozna vremenske oznake i ostavi ih u latiničnom pismu.

Da li pri preslovljavanju pazi na merne jedinice?

Ne zna za sve merne jedinice ali se trudi: oznake veličine datoteka (kao recimo 100kb), temperatura (20ºC), ili brzina (km/s) neće biti preslovljene.

Koja je zvanična adresa Vučka na internetu?

Program Vučko je bio smešten na nekoliko različitih internet adresa ali je u poslednjih nekoliko godina uvek bio dostupan preko www.aleksa.org/vucko/. To je adresa koju možete proslediti dalje.

Da li Vučko ima konkurenciju?

Na svu sreću: da! Vučko je bio prvi i još uvek jedini program koji je mogao da izađe na kraj sa HTML dokumentima, i samim tim omogući lakše održavanje i pravljenje ćiriličnih internet prezentacija. Zbog rada iz komandne linije nije baš najsrećnije rešenje, mada uz dobar editor to više nije prepreka. Pregledajte spisak sličnih alata.


Autorska prava

Da li i pod kojim uslovima mogu koristiti program?

Za ličnu upotrebu, za vaše lične strane korišćenje programa je slobodno i besplatno. Na ličnoj prezentaciji koja je preslovljena na ćirilicu uz pomoć Vučka staviti link na www.aleksa.org/vucko/ i poslati el. poštu .

Za upotrebu za sajtove grupa, ustanova, preduzeća i država, te druge sajtove koji imaju službenu ili poluslužbenu svrhu, ili za komercijalnu upotrebu, kontaktirati radi jednostavnog dogovora i registracije.


Preuzimanje programa

Program (oznaka 0.989) nije menjan od 10. novembra 2003.

MD5SUM and SHA1SUM potpisi arhiva.