Vaihda Stylesheettiä tästä (Javascript/DOM): Oletus: indexbw (Mustaa tekstiä valkoisella pohjalla) | indexbwserif (Mustaa serif-fonttista tekstiä valkoisella pohjalla) | index (Vihreää tekstiä mustalla pohjalla.) | latex (Mustaa LATEX‐fonttista tekstiä valkoisella pohjalla)
http://iki.fi/juhtolv/unicode/suomi.html
Viimeksi muutettu 21.8.2016.
”’Vaseliinia, vaseliinia!’, huusivat pilkut tuskissaan.”
Tuntematon
Tämä WWW-sivu käyttää todella paljon Unicoden erilaisia merkkejä. Riippuen käyttämästäsi WWW‐selaimesta, fonttivalikoimasta ja fonttiasetuksista eri merkkien näkymisessä voi esiintyä ongelmia. Voit yrittää niiden ratkaisemiseen ainakin seuraavia keinoja:
Mitä todennäköisimmin jo nämä kaksi keinoa riittävät ratkaisemaan merkkien näkyvyyteen liittyvät ongelmasi tätä WWW‐sivua katsoessa. Kaupanpäälle kenties muillakin WWW‐sivuilla alkaa Unicoden eri merkit näkyä aiempaa paremmin näiden ohjeiden ansiosta.
Unicoden ansiosta suomen kielessä käytettäviä erikoisempiakin (väli)merkkejä on vihdoinkin mahdollista kirjoittaa tietokoneella oikein. Kaikki tuollaiset merkit löytyvät Unicodesta. Tämä sivu siis kertoo mahdollisimman kattavasti siitä, mitkä nuo merkit ovat ja miten niitä merkkejä sitten kuuluisi käyttää, jos kerran Unicoden käyttöön on ryhdytty, syystä tai toisesta – ja jos voidaan luottaa siihen, että Unicode todella toimii riittävän luotettavasti ko. käyttökohteessa. Toisinsanoen tämä sivu auttaa ymmärtämään Unicoden suomia monia mahdollisuuksia pelkän suomen kielen kirjoittamisessa, vaikka tokihan vielä enemmän Unicodesta on hyötyä kahden tai useamman eri kielen kirjoittamisessa samassa dokumentissa (esim. suomi ja tšekki) ja varsinkin jos ko. kielten kirjoitusjärjestelmätkin poikkeavat toisistaan (esim. suomi ja japani).
Tämä WWW‐sivu sai alkunsa näin: Minä huomasin, että tästä aiheesta on informaatiota olemassa vaikka kuinka, mutta se oli liian hajallaan ympäri WWW:tä ja varsinkin ympäri Jukka K. Korpelan WWW‐sivuja ja Wikipediaa. Oli siis koottava se kaikki mahdollisimman kattavasti yhteen paikkaan tällaiseksi käteväksi referenssiksi.
Tässä on tosin jonkin verran mukana ISO-LATIN-1:stä ja ISO-LATIN-9:stä löytyviä erikoismerkkejä, joita ei usein tule käytettyä edes silloin kun pitäisi, koska ne eivät löydy niin helposti näppäimistöltä. Enimmäkseen kyse on merkeistä, jotka ovat läheistä sukua merkeille, jotka löytyvät Unicodesta, muttei ISO-LATIN-1:stä ja ISO-LATIN-9:stä.
Eräs merkillepantava ilmiö, mikä tulee tällä sivulla usein esiin, on tämä vastakkainasettelu: ”Oikea merkki” vs. ”Oikean merkin korvike”. Usein on nimittäin käynyt niin, että tietokoneita ja niitten suppeita merkistöjä kehittettäessä kaksi tai useampia lyijykirjasinten aikakaudelta tuttua merkkiä onkin korvattu yhdellä; esim. merkkiä - (U+002D HYPHEN-MINUS) käytetäänkin korvaamaan mm. miinusmerkkiä ja ajatusviivaa. Unicodessa sensijaan on niin monta merkkipaikkaa, ettei moiselle enää ole tarvetta. Miksi siis tyytyä korvikkeisiin, kun on oikeitakin merkkejä käytettävissä?
Unicode‐koodauksista kenties yleisimmässä, eli UTF-8:ssa, ensimmäisen lohkon (Latinalainen perusosa) sisältämät 128 merkkiä osuvat yksiin US-ASCII:n merkkien kanssa kuin myös monien ISO-LATIN-merkistöjen ja jopa Windowsin koodisivujen kanssa. Senpä vuoksi US-ASCII:lla kirjoitettu tekstidokumentti näyttää samalta myös silloin, jos sen tulkitsee UTF-8:ana, ISO-LATIN-1:nä tai ISO-LATIN-9:nä. Ja jos sanon, että jokin tietty merkki löytyy jo US-ASCII:sta, niin se tarkoittaa aina myös sitä, että se merkki löytyy myös ISO-LATIN-1:stä ja ISO-LATIN-9:stä. US-ASCII:n merkkien käyttöä suomen kielessä ei tässä yhteydessä paljoa käsitellä. Sen sijaan tuon lohkon sisältämiä ”korvikemerkkejä” käsitellään kuin myös sitä, mitä merkkejä niitten sijaan tulisi Unicodea käyttävän käyttää.
Ja jos pilkkuunyhtymisestä ei enää saa tarpeeksi kiksejä, niin tämän avulla voi yhtyä vaihteeksi muihin välimerkkeihin ☺. No, leikki sikseen, mutta totta tosiaan, kaikki tämä on myös pilkkuunyhtymistä mutta ei pelkästään pilkkuunyhtymistä, mutta kaikki tämä vaivannäkö omalta osaltaan mahdollistaa sen, että saadaan aikaiseksi virheetöntä ja luettavaa suomen kieltä. Tietenkään pelkkä Unicoden hallitseminen ei auta, jos esim. ei hallita kielioppia ja jatkuvasti syyllistytään kirjoitusvirheisiin ja jos kirjotustyyli on kankeaa ja kaikkea muuta kuin lennokasta ja mukaansatempaavaa.
Tämän sivun ei ole tarkoitus ottaa kantaa siihen, pitäisikö Unicoden käyttöön ryhtyä. Sen sijaan sen on tarkoitus neuvoa ennenkaikkea niitä, jotka haluavat käyttää tai ovat alkaneet käyttää Unicodea syystä tai toisesta.
Tällä sivulla ei ole eritelty millään lailla sitä, miten paljon millekin näistä merkeistä on tai voi olla käyttöä kussakin Unicoden käyttökohteessa, kuten sähköposti, nyyssiryhmät, IRC ja paperille printtaamalla tehty Snail‐Mail. Sensijaan tämän on tarkoitus olla mahdollisimman yleiskäyttöinen ohje.
Joistakin Unicoden merkeistä en pysty kertomaan kovin täsmällisesti sitä, miten sitä ko. merkkiä kuuluisi käyttää eri tilanteissa. Silloin olen yleensä viitannut johonkin spesifisempään aiheesta kirjoitettuun WWW‐sivuun, joten kannattaa perehtyä siihen. Myöskin tämän sivun lopussa oleviin linkkeihin kannattaa perehtyä.
Tällä sivulla ei paljoa neuvota, miten näitä eri merkkejä saa syötettyä tai miten ne löytyvät näppäimistöltä. Se on lähinnä käyttöjärjestelmäkohtainen asia. Mutta yhden apuvälineen siihen tarkoitukseen kyllä tarjoan: Voit ladata itsellesi UTF-8‐merkistöllä kirjoittamani tekstitiedoston myunicode.txt ja tarvittaessa muokata sitä mieleiseksesi. Voit esim. tulostaa sen päätteeseen tai pääte‐emulaattoriin tai avata tekstieditoriin. Sen jälkeen voit kopypasteta sieltä tarvitsemiasi merkkejä haluamaasi kohteeseen. Mukana tuossa tekstifileessä on jonkin verran myös merkkejä, joista ei tällä WWW‐sivulla sanota halaistua sanaakaan; esim. eräitä vieraitten kielten merkkejä saatat tarvita ulkomaisten erisnimien kirjoittamisessa. Lisäksi kannattaa perehtyä Kotoistushankkeen kehittämään uuteen suomalaiseen monikieliseen näppäimistöön ja ottaa se käyttöönsä.
Tämän sivun lähtökohta on se, että jos jollekin asialle on ASCII‐ merkki ja semanttisesti spesifisempi Unicode‐merkki, niin suositaan yleensä jälkimmäistä. Mutta aina niin ei kannata tehdä. Monesti Unicode‐standardi jopa neuvoo toimimaan toisinpäin: Esim. SI‐järjestelmän mittayksikön nimeltä ohmi merkkihän on kreikan kielen iso aakkonen nimeltä oomega. Unicodesta löytyy erikseen varsinainen ohmin merkki Ω (U+2126 OHM SIGN), mutta Unicode‐standardi silti suosittelee käyttämään isoa oomegan merkkiä Ω (U+03A9 GREEK CAPITAL LETTER OMEGA) ohmin merkkinä. Unicoden on tarkoitus olla ”merkistöjen merkistö”, johon kaikkia muita merkistöjä on mahdollisuus konvertoida ja sen vuoksi tuollaisia ”turhia” merkkejä on Unicodessa mukana yhteensopivuussyistä. Monet niistä tulivat Unicodeen mukaan siksi, koska ne olivat ennestään mukana joissain CJK‐kieliä (Kiina, Japani ja Korea) varten luoduissa merkistöissä. Ohmin merkin lisäksi muita vastaavia yhteensopivuussyistä mukaanotettuja, mutta ”turhia” merkkejä ovat esim. ℃ (U+2103 DEGREE CELSIUS), ℉ (U+2109 DEGREE FAHRENHEIT) sekä roomalaisten numeroitten merkit, jotka alkavat merkistä Ⅰ (U+2160 ROMAN NUMERAL ONE) ja päättyvät merkkiin Ↄ (U+2183 ROMAN NUMERAL REVERSED ONE HUNDRED).
On myös käynyt toisinpäin: SI‐järjestelmän etuliitteen ”mikro‐” lyhenne on µ (U+00B5 MICRO SIGN), joka löytyy ISO-LATIN-1:stä ja ISO-LATIN-15:sta, muttei US-ASCII:sta. Se on samannäköinen kuin kreikan kielen aakkonen nimeltä pieni myy eli μ (U+03BC GREEK SMALL LETTER MU). Kuitenkin on käytettävä mikron merkkiä, jos tarkoitetaan SI‐järjestelmän mikro‐etuliitettä.
On myös otettava huomioon sekin seikka, onko jotain tiettyä alunperin Unicode‐merkeillä kirjoitettua tekstiä tarkoitus konvertoida muihin merkistöihin; jos on, niin silloin ei voidakaan käyttää spesifisempiä merkkejä. Toisaalta jos teksti, joka on alunperin kirjoitettu jollain suppeammalla merkistöllä, konvertoidaan johonkin Unicode‐merkistöön (esim. Unix®‐ käyttöjärjestelmien työkaluilla recode tai iconv), niin sen jälkeen ”korvikemerkkien” tilalle joudutaan vaihtamaan ”oikeat” merkit käsin; tällöin täytyy yleensä asiayhteydestä päätellä se oikea merkki.
Vaikka joistakin merkeistä sanotaankin, ettei niitä pidä tietyssä yhteydessä käyttää tai ettei niille olisi tietyssä yhteydessä käyttöä, niin se ei todellakaan tarkoita, etteikö niitä saisi tai pitäisi muussa yhteydessä käyttää. Esim. jäljempänä mainittua kauttaviivaa eli vinoviivaa ei Unicodea käyttäessä enää tarvita murtolukuihin ja jakolaskuihin, mutta muuta käyttöä sille yhä on. Mutta merkille - (U+002D HYPHEN-MINUS) ei enää ole paljoa käyttöä, jos Unicoden käyttöön on ryhdytty. Kuitenkaan tässä sanotuilla asioilla ei ole mitään vaikutusta ko. merkkien käyttöön ohjelmointi‐ ja merkkauskielien syntaksissa tai tietokoneohjelmien komentorivioptioissa; Niissä niille on omat tarkkaanmääritellyt tehtävänsä. Toisaalta Unicoden merkkien nimissä käytetään väliviivana nimenomaan HYPHEN-MINUS ‐merkkiä, jopa sen merkin omassa nimessä. Lisäksi HYPHEN-MINUS ‐merkkiä käytetään merkistöjen nimissä, kuten tälläkin WWW-sivulla mainituissa merkistöissä UTF-8, US-ASCII, ISO-LATIN-1 (eli ISO-8859-1) ja ISO-LATIN-9 (eli ISO-8859-15).
Suomen kielessä käytetään US-ASCII:stakin löytyviä merkkejä A…Z ja a…z sekä numeroita 0…9 ja lisäksi näitä US-ASCII:n ulkopuolisia merkkejä:
Kuusi ensinmainittua merkkiä ovat mukana myös merkistöissä ISO-LATIN-1 ja ISO-LATIN-9. Neljä viimeksimainittua merkkiä löytyy myös ISO-LATIN-9‐merkistöstä, mutta ISO-LATIN-1‐merkistössä niitä ei ole. Niitten käytöstä ja tarpeellisuudesta suomen kielen kirjoittamisessa kertoo tarkemmin Jukka K. Korpela WWW‐sivullaan nimeltä ”Hattu-s š ja hattu-z ž” Kotimaisten kielten tutkimuskeskus WWW‐sivullaan nimeltä ”Suhuäänteiden š ja ž merkintä vierasnimissä”.
Unicodessa on oma merkkinsä kolmelle pisteelle, nimittäin … (U+2026 HORIZONTAL ELLIPSIS). Kolmea tavallista pistettä (U+002E FULL STOP) ei siis enää tarvita siihen tarkoitukseen. Kolmen pisteen merkki on tosin hieman epäkäytännöllinen silloin, kun kirjotetaan tasavälisellä fontilla tai kun pelkkää tekstiä (engl ”Plain Text”) katsellaan ohjelmilla, jotka käyttävät tekstin näyttämiseen tasavälistä fonttia. Joissakin vaihtuvavälisissäkin fonteissa … on toteutettu pieleen sillä seurauksella että kolmen pisteen merkissä ne pisteet tulevat huomattavasti lähemmäksi toisiaan kuin käyttäessä kolmea tavallista pistettä peräkkäin. Tuonnempana mainittu standardi SFS 4175 esittää merkin U+2026 ensisijaisena ja merkkiyhdistelmän ”...” (kolme tavallista pistettä) korvaavana merkintätapana.
US-ASCII:n merkkejä " (U+0022 QUOTATION MARK) ja ' (U+0027 APOSTROPHE) ei pidä enää käyttää muualla kuin ohjelmointi‐ ja merkkauskielissä, joiden syntaksiin ne kuuluvat. Oikeat Unicoden tarjoamat lainausmerkit suomen kielessä käytettäväksi ovat ” (U+201D RIGHT DOUBLE QUOTATION MARK) ja ’ (U+2019 RIGHT SINGLE QUOTATION MARK). Merkkiä ’ käytetään myös ns. heittomerkkinä: esim. sanan ”vaaka” yksikön genetiivimuoto on ”vaa’an”.
Merkkiä ” (U+201D RIGHT DOUBLE QUOTATION MARK) kuuluu käyttää myös taulukoissa toiston merkkinä. Toisinsanoen, jos taulukon solussa on ” , se tarkoittaa sitä että ko. solun sisältö on sama kuin yläpuolisessa solussa.
Suomen kielessä käytetään lähinnä kaunokirjallisissa kirjoissa usein kulmalainausmerkkiä » (U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK). On olemassa myös kulmalainausmerkki › (U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK). Kulmalainausmerkki » löytyy myös ISO-LATIN-1:stä ja ISO-LATIN-9:stä mutta › ei löydy kummastakaan. Suomen kielessä sisempinä lainausmerkkeinä käytetään aina tavallista ’‐merkkiä, vaikka ulompina lainausmerkkeinä olisikin kulmalainausmerkki » .
Viivamerkkien suhteen tilanne oli vielä vähän aikaa sitten epäselvä, mutta tilanteeseen saatiin korjaus alkuvuodesta 2006, kun standardista SFS 4175 ilmestyi uusi versio; Siinä kutakin merkkiä osoitetaan yleensä sen Unicode‐arvolla. Erityisesti tuo standardi selkiytti n‐viivan ja m‐viivan käytön eroja: Tästedes m-viivalla ei ole suomen kielessä kertakaikkiaan yhtään mitään käyttöä.
Huomatkaa, että US-ASCII:n merkillä - (U+002D HYPHEN-MINUS) ei enää ole paljoa käyttöä Unicodea käyttäessä. Toinen esiinnouseva tärkeä seikka on n‐viivan runsas käyttö. Tässä mainituista viivamerkeistä yksikään ei ole mukana US-ASCII:ssa tai ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä. - (U+002D HYPHEN-MINUS) on jo US-ASCII:ssa mukana.
– (U+2013 EN DASH)
Käyttö:
Varsinaisella ajatusviivalla tarkoitan tällaisia ajatusviivan käyttökohteita:
Ajatusviivaa käytetään erotettaessa suhteellisen irrallinen lisäys muusta tekstistä varsinkin kaunokirjallisessa tyylissä. Muualla käytetään silloin yleensä sulkeita.
”K. oli tuon selonteon aikana – jonka hän muuten paljolti sekoitti vapaaseen puheeseen – vain epäselvästi tajunnut, että sijaisjohtaja oli nyt noussut seisaalleen.”
Franz Kafka: Oikeusjuttu (romaani).
”Aukeavat – kevät on! – Silmujen purjeet.”
P. Mustapää: Kultainen oksa (runo, joka on kirjassa: ”Tuuli Airistolta”)
Kun tulee jotakin odottamatonta tai muuten poikkeavaa, esimerkiksi painotettua, jopa kohtalokasta:
”Mutta olisihan hän toki jaksanut hänen kanssaan, ellei olisi ollut yhtä nimenomaista seikkaa – sukupuolijuttua.”
George Orwell: Vuonna 1984 (romaani).
Ajatusviiva korvaa joskus on-sanan tai muun predikaatin painokkaassa, vaikuttavuuteen pyrkivässä esityksessä.
”Lapsi – unohdettu uhri?” (= Onko lapsi unohdettu uhri?)
Toisinaan ajatusviivalla kuvataan puheessa olevaa selvää taukoa
”Tahdissa – mars!”
Vanhassa kaunokirjallisuudessa ajatusviiva on joskus vain pisteen tai puolipisteen tehtävässä. Tällöin esitys on usein katkelmallista.
”Hänen katseestaan säteili jonkinlainen jalon intohimon lieska – voin sen vieläkin nähdä."
Huomatkaa, että kaikissa edellämainituissa varsinaisen ajatusviivan käyttökohteissa ajatusviivan molemmille puolille tulee välilyönti.
Täsmällisempi ohjeistus ajatusviivan käytöstä muissa kohteissa kuin varsinaisena ajatusviivana löytyy Jukka K. Korpelalta
‐ (U+2010 HYPHEN)
Käyttö:
Tarkempi ohjeistus yhdysmerkin käytöstä löytyy Jukka K. Korpelalta
‑ (U+2011 NON-BREAKING HYPHEN)
Käyttö: Muuten sama kuin ‐ (U+2010 HYPHEN), mutta käytetään silloin kun ei haluta sallia rivitystä yhdysmerkin perässä, esim. esim. tapauksissa ”‑arkut” ja ”G‑mies”. Toinen vaihtoehto on säädellä rivinvaihtoja muilla protokollatasoilla, kuten merkkauksessa tai tyyliohjeessa, tai käyttää erityisiä rivinvaihtoja kontrolloivia näkymättömiä merkkejä.
− (U+2212 MINUS SIGN)
Tämä ei ole viivamerkki vaan matemaattinen merkki. Sitä käytetään vähennyslaskuihin, sekä negatiivisiin lukuihin, kuten pakkasasteisiin. Aiheesta lisää tuonnempana.
• (U+2022 BULLET).
Tämä ei ole mikään viivamerkki, mutta otin sen tähän mukaan, koska sitä on tapana käyttää luetteloviivana eli ”ranskalaisena viivana”, muttei yhtään mihinkään muihin n‐viivan käyttötarkoituksiin. Luetelmapallo ei kuulu suomalaisen typografian perinteisiin, mutta viime aikoina sen käyttö on alkanut yleistyä.
Unicodessa on muitakin viivamerkkejä, mutta niitä ei suomenkielisessä tekstissä kannattane käyttää:
Unicodesta löytyy montakin erilaista välilyöntiä ja ns. ”leveydetöntä tyhjettä”, mutta niistä vain kaksi on sen verran varmatoimisia, että uskallan ottaa ne tässä esiin. Ensimmäinen on tavallinen välilyönti eli U+0020 SPACE ja se löytyy jo US-ASCII:sta. Toinen on sitova välilyönti eli U+00A0 NO-BREAK SPACE, joka ei ole mukana US-ASCII:ssa, mutta kylläkin ISO-LATIN-1:ssä ja ISO-LATIN-9:ssä. Se toimii niin, että sen kohdalla on rivinvaihto kielletty. Esim. ilmaus ”Numero 7” näyttäisi tyhmältä, se jos se hajoaisi kahdelle eri riville välilyöntinsä kohdalla. HTML‐kielessä sitovan välilyönnin voi korvata HTML‐entiteetillä tai  
Joskus voi olla tarpeen korostaa, että tiettyyn kohtaan tulee välilyönti. Sitä tarkoitusta varten Unicodessa on eräänlaisia näkyviä välilyöntejä:
Ensinmainittu on kylläkin siitä huono, että se näyttää helposti lukukelvottomalta kärpäsenkakalta. Toiseksimainittu sekoittuu helposti pieneen b-kirjaimeen. Siispä␣suosittelen␣tuota␣viimeksimainittua␣merkkiä.
Euron merkki € (U+20AC EURO SIGN) on mukana ISO-LATIN-9:ssä muttei ISO-LATIN-1:ssä saatikka US-ASCII:ssa. Euron murto‐osahan on sentti. Sentille on oma merkkinsä eli ¢ (U+00A2 CENT SIGN) ja se löytyy löytyy ISO-LATIN-1:stä ja ISO-LATIN-9:stä, muttei US-ASCII:sta. Sentin merkkiä ei tosin kannata ollenkaan käyttää, kun on kyse eurovaluutan (EUR) murto‐osista: Se on nimittäin alunperin tarkoitettu esittämään Yhdysvaltojen dollarin (USD) murto-osana toimivaa senttiä.
Euron merkin sopivuudesta eri käyttökohteisiin ja eurovaluutan eri ilmaisukeinoista yleensäkin löytyy lisätietoa Jukka K. Korpelan WWW-sivulta nimeltä ”Euron symbolista ja lyhenteistä”.
Matemaattisia merkkejä on Unicodessa tarjolla vaikka kuinka paljon, joten käsittelen niistä tässä vain tärkeimpiä ja varsinkin sellaisia, joita saatetaan käyttää jopa puhekielisen tekstin seassa.
Kauttaviivaa eli vinoviivaa / (U+002F SOLIDUS) ei enää tarvita murtolukuihin. Siihen tarkoitukseen on tarjolla oma merkkinsä ⁄ (U+2044 FRACTION SLASH). Eräille murtoluvuille on olemassa omat merkkinsä:
Puolikkaan ja neljäsosien merkit löytyvät ISO-LATIN-1‐merkistöstäkin, mutta muita murtolukuja ei. US-ASCII‐ ja ISO-LATIN-9‐merkistöissä murtolukuja ei ole lainkaan. Varsinaisia murtolukumerkkejä ei kannata käyttää sellaisissa kohteissa, joissa kirjoitetaan kovin pienellä fonttikoolla; sellaisissa kohteissa murtoluvut kannattaa muodostaa numeroita ja ⁄ ‐merkkiä käyttäen, vaikka ko. murtoluvulle olisikin valmis merkki olemassa. Eräs tapa murtolukujen kirjoittamiseen on se, että kirjoitetaan ensin yläindeksimerkkejä käyttäen osoittaja, sitten ⁄ ‐merkkiä käyttäen murtoviiva ja sitten alaindeksimerkkejä käyttäen nimittäjä. Siis näin: ¹⁄₃ . Ylä‐ ja alaindeksimerkeistä lisää tuonnempana. HTML-kielessä ylä- ja alaindeksimerkkejä ei kuitenkaan tarvitse käyttää, vaan voidaan kirjoittaa <sup>‐ ja <sub>‐tägejä käyttäen näin:
<sup>1</sup>⁄<sub>3</sub>
Lopputulos näyttää silloin tällaiselta: 1⁄3 .
Kauttaviivaa eli vinoviivaa / (U+002F SOLIDUS) ei tarvitse käyttää myöskään jakolaskuihin, koska siihenkin tarkoitukseen on tarjolla oma merkkinsä eli ∕ (U+2215 DIVISION SLASH). Jo US-ASCII:sta löytyvä kaksoispisteen merkki : (U+003A COLON) kyllä kelpaa jakolaskuihin. Jos jossain SI‐järjestelmän mittayksikössä (esim. m∕s) on jakoviiva, niin silloinkin tulee käyttää merkkiä ∕ (U+2215 DIVISION SLASH).
Jo US-ASCII:sta löytyvä * (U+002A ASTERISK) puolestaan ei kelpaa kertomerkiksi vaan siihen on tarjolla kaksikin muuta merkkiä, jotka molemmat löytyvät ISO-LATIN-1:stä ja ISO-LATIN-9:stä: × (U+00D7 MULTIPLICATION SIGN) ja · (U+00B7 MIDDLE DOT). Joskus kertomerkkinä käytetään myös merkkiä ⋅ (U+22C5 DOT OPERATOR), joka ei ole mukana US-ASCII:ssa, ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä. Jos aivan tarkkoja ollaan, niin MIDDLE DOT on välimerkki ja DOT OPERATOR on matemaattinen merkki. Siispä periaatteessa MIDDLE DOT ei ole kelvollinen kertomerkiksi. Sitäpaitsi useissa fonteissa MIDDLE DOT näyttääkin aivan liian pieneltä kertomerkiksi.
Miinusmerkiksi laskutoimituksiin ja negatiivisiin lukuihin ei kelpaa jo US-ASCII:stä löytyvä - (U+002D HYPHEN-MINUS) vaan siihenkin on oma merkkinsä eli − (U+2212 MINUS SIGN).
Mutta plusmerkiksi laskutoimituksiin ja positiivisiin lukuihin kyllä kelpaa se US-ASCII:stakin tuttu + (U+002B PLUS SIGN).
Siispä Unicodea käyttäessä peruslaskutoimitusten merkit ovat:
Lähinnä taskulaskinten näppäimistä tuttu jakolaskun merkki ÷ (U+00F7 DIVISION SIGN) löytyy myös ISO-LATIN-1:stä ja ISO-LATIN-9:stä, mutta sekaannusten välttämiseksi sitä ei pidä käyttää, koska joissakin kulttuureissa se tarkoittaa samaa kuin miinusmerkki.
Kuitenkin ohjelmointi‐ ja merkkauskielissä laskutoimituksiin yhä käytetään kauttaviivaa, asteriskia, plusmerkkiä ja väliviiva‐miinusta. Esim. Unix®‐käyttöjärjestelmistä tuttu ”taskulaskinohjelma” nimeltä bc menee sekaisin, jos yrittää käyttää jotain muita peruslaskutoimitusten merkkejä:
juhtolv@heresy:/home/juhtolv % bc -l bc 1.06 Copyright 1991-1994, 1997, 1998, 2000 Free Software Foundation, Inc. This is free software with ABSOLUTELY NO WARRANTY. For details type `warranty'. 1+1 2 4∕2 (standard_in) 2: illegal character: \342 (standard_in) 2: illegal character: \210 (standard_in) 2: illegal character: \225 (standard_in) 2: parse error 4×2 ((standard_in) 3: illegal character: \303 (standard_in) 3: illegal character: \227 (standard_in) 3: parse error 14·2 ((standard_in) 4: illegal character: \302 (standard_in) 4: illegal character: \267 (standard_in) 4: parse error 4−2 ((standard_in) 5: illegal character: \342 (standard_in) 5: illegal character: \210 (standard_in) 5: illegal character: \222 (standard_in) 5: parse error quit juhtolv@heresy:/home/juhtolv %
Huomatkaa, että äskeisessä esimerkissä vain yhteenlasku onnistui. Näytetäänpä vielä pieleenmenneet laskutoimitukset korjattuina:
juhtolv@heresy:/home/juhtolv % bc -l bc 1.06 Copyright 1991-1994, 1997, 1998, 2000 Free Software Foundation, Inc. This is free software with ABSOLUTELY NO WARRANTY. For details type `warranty'. 4/2 2.000000 4*2 8 4-2 2 quit juhtolv@heresy:/home/juhtolv %
Unicoden tarjoamat yläindeksimerkit ovat nämä:
Näistä merkeistä vain ¹, ² ja ³ löytyvät myös ISO-LATIN-1:stä ja ISO-LATIN-9:stä. Näillä merkeillä saadaan aikaiseksi mm. potenssilukuja: 12²⁹ . Siispä tällaista TEXistä ja LATEXista muuallekin levinnyttä korvaavaa merkintätapaa ei enää tarvita: 12^2 . Yläindeksejä käytetään myös SI‐järjestelmän yksikköissä nimeltä neliömetri (m²) ja kuutiometri (m³) ja niitten kerrannaisissa. Yläindeksiä käytetään usein myös osoittamaan alaviitteeseen. HTML‐kielessä ei kuitenkaan tarvita varsinaisia yläindeksimerkkejä vaan voidaan käyttää <sup> ‐tägejä.
Unicoden tarjoamat alaindeksimerkit ovat nämä:
Mitään näistä merkeistä ei ole mukana US-ASCII:ssa saatikka ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä. Näillä merkeillä saadaan aikaiseksi mm. kemiallisia kaavoja: H₂O (vesi) ja C₂H₅OH (etanoli). HTML‐kielessä ei kuitenkaan tarvita varsinaisia alaindeksimerkkejä vaan voidaan käyttää <sub> ‐tägejä.
Unicodesta löytyy mm. nämä yhtäläisyyden ja epäyhtäläisyyden merkit:
Näistä merkeistä =, < ja > ovat jo US-ASCII:ssa mukana, mutta muita näistä merkeistä ei ole edes ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä mukana. Siispä ohjelmointikielistä (esim. C ja C++) muualle levinneet korvaavat merkinnät, kuten ”!=” ja ” >=” ovatkin nyt Unicoden käyttäjälle tarpeettomia.
Kenties yleisin kulman yksikkö on aste ja sen merkki ° (U+00B0 DEGREE SIGN) löytyy ISO-LATIN-1:stä ja ISO-LATIN-9:stä, muttei US-ASCII:sta. Sitä käytetään myös monissa lämpötilaa ilmaisevissa mittayksiköissä. Kulmaa ilmaisevan asteen murto‐osia ovat kaariminuutit. Kaariminuutin murto‐osia puolestaan ovat kaarisekunnit. Yksi tuuma on yhtäkuin 2,54 cm. Ja 12 tuumaa on yhtäkuin yksi jalka.
Lämpöasteitten mittayksikköä lyhentäen kirjoittaessa kirjoitetaan ensin tavallinen asteen merkki ja siihen perään lämpöasteikkoa ilmaiseva kirjain. Me suomalaisethan käytämme celsiusasteita, joten esim. ”miinus kolmetoista celsiusastetta” lyhennetään näin: −13 °C . Huomatkaa, että tässäkään ei saa käyttää sitä merkkiä nimeltä HYPHEN-MINUS ilmaisemaan negatiivisia lukuja vaan on käytettävä merkkiä U+2212 MINUS SIGN. SI‐järjestelmässä lämpötilan yksikkö on kuitenkin Kelvin, jonka lyhenne on pelkkä K. Se ei siis todellakaan ole mikään ”Kelvin‐aste” eikä sitä lyhennetä ”°K”. Kuten jo sanoin, lämpötilojen mittayksiköiden lyhenteinä ei pidä käyttää pelkästään yhteensopivuussyistä mukaanotettuja ”turhia” merkkejä, kuten ℃ (U+2103 DEGREE CELSIUS).
US-ASCII:n merkki " ei kelpaa tuuman eikä kaarisekunnin merkiksi. Oikea merkki niihin tarkoituksiin on ″ (U+2033 DOUBLE PRIME) eli ”kaksinkertainen yläpuolinen indeksointipilkku”. Vastaavasti oikea merkki ilmaisemaan jalka‐nimistä mittayksikköä ja kaarisekuntia on ′ (U+2032 PRIME) eli ”yläpuolinen indeksointipilkku” eikä US-ASCII:n merkki ' .
Tässä vielä eräitä muita varsin yleisiä matemaattisia merkkejä, jotka ovat mukana Unicodessa, muttei ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä:
Suhdelukuihin, kuten vaikkapa karttojen mittakaavoihin (esim. 1∶10 000), on yleensä käytetty kaksoispistettä : (U+003A COLON) mutta siihen tarkoitukseen on Unicodessa tarjolla myös ∶ (U+2236 RATIO). Kaksoispisteen käyttäminen suhdelukuihin ei kuitenkaan ole kiellettyä. Merkkiä ⇒ käytetään joskus jonkinlaisessa jargonissa ilmaisemaan: ”Siitä seuraa että…”. Unicoden käyttäjän ei siis enää tarvitse tyytyä sen korvikkeeseen ”=>”. Ja todellakin, Unicoden ansiosta ei enää tarvitse joka kerta naputella sanaa ”promille”, vaan on käytössä myös ihkaoikea promillen merkki eli ‰ . Sitä ei kuitenkaan pidä käyttää yleisenä promille‐sanan vastineena; esim. sanaa "promilleraja" tai ilmausta "kaksi promillea" ei pidä kirjoittaa promillemerkkiä käyttäen. Ja äärettömän merkkikin löytyy Unicodesta, kuin myös ns. ESTIMATED SYMBOL, jota käytetään Euroopassa mm. elintarvikepakkauksissa.
Immateriaalioikeuksiin liittyviä merkkejä ovat ainakin nämä:
US-ASCII:ssa ei ole mikään näistä merkeistä mukana. Näistä merkeistä vain kaksi ensinmainittua on mukana ISO-LATIN-1:ssä ja ISO-LATIN-9:ssä.
Melkein aina kun aletaan keskustella tai kirjoittaa erilaisten kielten ääntämisestä, tarvitaan ääntämisohjeisiin ns. IPA-merkkejä. IPA tarkoittaa ”International Phonetic Alphabet”. IPA‐merkkejä löytyy ainakin US-ASCII:sta, ISO-LATIN-1:stä, ISO-LATIN-9:stä ja lisäksi ainakin seuraavista Unicode-lohkoista:
Suomen kieltä äännetään niinkuin kirjoitetaan – muutamaa poikkeusta lukuunottamatta. Eräs tärkeimpiä poikkeuksia on ns. äng‐äänne eli velaarinen nasaali. Sen merkki on ŋ (U+014B LATIN SMALL LETTER ENG) ja löytyy em. Unicode‐lohkosta nimeltä ”Latinalaisen merkistön laajennusosa A”. Vokaalien pidentämisen ilmaiseva merkki ei ole tavallinen kaksoispiste vaan ː (U+02D0 MODIFIER LETTER TRIANGULAR COLON) joka löytyy em. Unicode‐lohkosta nimeltä ”Tarkkeenomaisia erillisiä merkkejä”. Muita suomen kielen ääntämisen ilmaisuun tarvittuja merkkejä ovat esim. æ (U+00E6 LATIN SMALL LETTER AE) ja ø (U+00F8 LATIN SMALL LETTER O WITH STROKE), jotka löytyvät ISO-LATIN-1:stä ja ISO-LATIN-9:stä.
Kaikki suomen kielen ääntämisen ilmaisemiseen tarvitut IPA‐merkit on lueteltu Jukka K. Korpelan WWW-sivulla nimeltä ” Pronunciation of Finnish in a nutshell (for linguists)” Heti jos aletaan kirjoittaa muitten kielien kuin suomen kielen ääntämisestä, tarvitaan melkein aina muitakin IPA‐merkkejä. Niihin en tosin tässä yhteydessä halua paneutua, koska se menee jo liiaksi tämän WWW‐sivun aihealueen ulkopuolelle.
Lopuksi vielä muutama merkki, jotka ovat mukana Unicodessa, muttei US-ASCII:ssa, saatikka ISO-LATIN-1:ssä tai ISO-LATIN-9:ssä.
Oikealle osoittavaa nuolta voi käyttää ainakin tähän tapaan: ”Tallentaaksesi tiedoston sinun tulee liikkua hiirellä valikoissa näin: File → Save”. Enää ei siis tarvita mitään tällaista korviketta: -> . Uroksen ja naaraan merkkien luulisi kiinnostavan ainakin biologeja. Nuo seksuaalisen suuntautumisen sekä sukupuolisuuntautumisen merkit ovat varsin uusi juttu koko Unicode‐standardissa, joten niitten tuki fonteissa on vielä varsin surkea. Ne tulivat Unicodeen mukaan versiossa 4.1.
Unicoden erilaisia hyödyllisiä merkkejä esitellessä eräillä on joku kumma tapa kuitata ne kaikki sanomalla: ”Jahas… Taas joku teinix on löytänyt näppäimistöltään uuden hassun merkin…”. Todellisuudessa vasta nämä ovat oikein todenteolla teinixmäisiä merkkejä, jotka Unicodesta löytyy, tai ainakin niitä pystyy käyttämään teinixmäisesti, vaikka alunperin ne onkin johonkin muuhun tarkoitukseen keksitty aivan jokaikinen. Ja nämä löysi teille 30 vuotta täyttänyt penseä ja herttainen setä, eli allekirjoittanut, mm. Wikipediasta ja Gnomen merkkikarttaohjelmasta, eikä näppäimistöltään. Itseasiassa en vielä edes tiedä, miten nämä saisi näppäimistöllä aikaiseksi. Sensijaan minulla on näitten syöttämiseksi muita keinoja. Tosin nuo kaksi viimeksimainittua merkkiä löytyivät näppäimistöltäni yllättävän helposti ☺ .
Myöskin aiemmin mainittuja uroksen ja naaraan merkkejä voitaneen käyttää hyvinkin teinixmäisesti. Pitäkää hauskaa, mutta sen pitäisi käydä jo tämän WWW‐sivun lisenssiehdoista selville, että en vastaa mistään seurauksista. ☺
Copyleft:
Juhapekka "naula" Tolvanen
http://iki.fi/juhtolv/
This WWW‐page is free; it may be copied, distributed or
modified under certain conditions, but comes WITHOUT ANY WARRANTY; see
the Design Science License for the
precise terms and conditions. (Local copy.)
More copies of DSL are in these places: http://iki.fi/juhtolv/licenses/dsl.txt http://www.gnu.org/licenses/dsl.html
DSL is also available in Finnish: http://iki.fi/juhtolv/licenses/dsl.fi.txt