Innehållsförteckning
Flerspråkighet (M17N) eller modersmålsstöd för en applikationsprogramvara görs i två steg.
Internationalisering (I18N): Att göra en programvara potentiellt hanterbar för flera lokala språk.
Lokalisering (L10N): Att få en programvara att hantera en specifik lokal.
|
Tips |
|---|---|
|
Det finns 17, 18 eller 10 bokstäver mellan ”m” och ”n”, ”i” och ”n” eller ’l’ och ”n” i flerspråkighet, internationalisering och lokalisering, vilket motsvarar M17N, I18N och L10N. Se Internationalisering och lokalisering för mer information. |
Beteendet hos program som stöder internationalisering konfigureras av
miljövariabeln "$LANG" för att stödja lokalisering. För
att libc-biblioteket faktiskt ska stödja lokalberoende
funktioner krävs att paketen locales eller
locales-all installeras. Paketet
locales måste initialiseras på rätt sätt.
Om varken paketen locales eller
locales-all är installerade förloras stödet för
locale-funktioner och systemet använder meddelanden på US-engelska och
hanterar data som ASCII. Detta beteende
är på samma sätt som "$LANG" ställs in av
"LANG=", "LANG=C" eller
"LANG=POSIX".
De moderna programvarorna som GNOME och KDE är flerspråkiga. De
internationaliseras genom att de hanterar UTF-8-data och lokaliseras genom att de översatta
meddelandena tillhandahålls via infrastrukturen
gettext(1). Översatta meddelanden kan tillhandahållas
som separata lokaliseringspaket.
Debians nuvarande GUI-system för skrivbordet ställer normalt in locale under
GUI-miljön som "LANG=xx_YY.UTF-8". Här är
"xx" ISO 639
språkkoder och "YY" ISO 3166 landskoder. Dessa värden
ställs in av GUI-dialogen för skrivbordskonfiguration och ändrar programmets
beteende. Se även Avsnitt 1.5.2, ”Variabeln "$LANG"”
Den enklaste representationen av textdata är ASCII som är tillräckligt för engelska och använder mindre än 127 tecken (representerbara med 7 bitar).
Även vanlig engelsk text kan innehålla icke-ASCII-tecken, t.ex. finns inte vänster- och högercitationstecken i ASCII.
“double quoted text” is not "double quoted ASCII" ‘single quoted text’ is not 'single quoted ASCII'
För att kunna stödja fler tecken har många teckenuppsättningar och kodningssystem använts för att stödja många språk (se Tabell 11.2, ”Lista över kodningsvärden och deras användning”).
Unicodes teckenuppsättning kan representera praktiskt taget alla tecken som människan känner till med 21 bitars kodpunktsintervall (dvs. 0 till 10FFFF i hexadecimal notation).
Textkodningssystemet UTF-8 passar Unicode-kodpunkter i en förnuftig 8-bitars dataström som är mestadels kompatibel med ASCII-databehandlingssystemet. Detta gör UTF-8 till det moderna förstahandsvalet. UTF står för Unicode Transformation Format. När ASCII-data i klartext konverteras till UTF-8 har de exakt samma innehåll och storlek som den ursprungliga ASCII-datan. Så du förlorar ingenting genom att distribuera UTF-8 locale.
Under UTF-8-läge med det kompatibla programmet
kan du visa och redigera textdata på alla främmande språk så länge som
nödvändiga teckensnitt och inmatningsmetoder är installerade och
aktiverade. Till exempel under "LANG=fr_FR.UTF-8" locale
kan gedit(1) (textredigerare för GNOME-skrivbordet) visa
och redigera textdata med kinesiska tecken samtidigt som menyerna visas på
franska.
|
Tips |
|---|---|
|
Både den nya standarden ” |
|
Notera |
|---|---|
|
Vissa program förbrukar mer minne efter stöd för I18N. Detta beror på att de är kodade för att använda UTF-32 (UCS4) internt för att stödja Unicode för hastighetsoptimering och förbrukar 4 byte per varje ASCII-teckeninformation oberoende av vald locale. Återigen, du förlorar ingenting genom att distribuera UTF-8 locale. |
För att systemet ska kunna komma åt en viss locale måste locale-data sammanställas från locale-databasen.
Paketet locales levereras inte med förkompilerade locale-data. Du måste
konfigurera det som:
# dpkg-reconfigure locales
Denna process omfattar 2 steg.
Välj alla nödvändiga lokala data som ska sammanställas till binär form. (Se till att inkludera minst en UTF-8-lokal)
Ange det systemomfattande standardvärdet för locale genom att skapa
"/etc/default/locale" för användning av PAM (se Avsnitt 4.5, ”PAM och NSS”).
Det systemomfattande standardvärdet för locale som anges i
"/etc/default/locale" kan åsidosättas av
GUI-konfigurationen för GUI-applikationer.
|
Notera |
|---|---|
|
Det faktiska traditionella kodningssystemet kan identifieras med
" |
Paketet locales-all levereras med förkompilerade
locale-data för alla locale-data. Eftersom det inte skapar
"/etc/default/locale", kan du fortfarande behöva
installera locales-paketet också.
|
Tips |
|---|---|
|
Paketet |
För datautbyte mellan plattformar (se Avsnitt 10.1.7, ”Flyttbar lagringsenhet”) kan du behöva montera vissa filsystem
med särskilda kodningar. Exempelvis förutsätter mount(8)
för vfat-filsystem CP437 om det används utan alternativ. Du måste ange
ett explicit mount-alternativ för att använda UTF-8 eller CP932 för
filnamn.
|
Notera |
|---|---|
|
When auto-mounting a hot-pluggable USB flash drive under modern desktop environment such as GNOME, you may provide such mount option by right clicking the icon on the desktop, click "Drive" tab, click to expand "Setting", and entering "utf8" to "Mount options:". The next time this USB flash drive is mounted, mount with UTF-8 is enabled. |
|
Notera |
|---|---|
|
Om du uppgraderar systemet eller flyttar hårddiskar från ett äldre system som inte har UTF-8 kan filnamn med icke-ASCII-tecken vara kodade i historiska och föråldrade kodningar som ISO-8859-1 eller eucJP. Ta hjälp av textkonverteringsverktyg för att konvertera dem till UTF-8. Se Avsnitt 11.1, ”Verktyg för konvertering av textdata”. |
Samba använder Unicode för nyare klienter
(Windows NT, 200x, XP) men använder CP850 som
standard för äldre klienter (DOS och Windows 9x/Me). Denna standard för
äldre klienter kan ändras med hjälp av "dos charset" i
filen "/etc/samba/smb.conf", t.ex. till CP932 för japanska.
Översättningar finns för många av de textmeddelanden och dokument som visas i Debian-systemet, såsom felmeddelanden, standardprogramutdata, menyer och manualer. GNU gettext(1) command tool chain används som backend-verktyg för de flesta översättningsaktiviteter.
Under "Tasks" → "Localization" tillhandahåller
aptitude(8) en omfattande lista över användbara binära
paket som lägger till lokaliserade meddelanden i program och tillhandahåller
översatt dokumentation.
Du kan t.ex. få det lokaliserade meddelandet för manpage genom att
installera paketet manpages-LANG. Om
du vill läsa den italienskspråkiga manpagesidan för
programnamn från
"/usr/share/man/it/", gör du så här.
LANG=it_IT.UTF-8 man programname
GNU gettext kan hantera en prioriterad lista över översättningsspråk med
miljövariabeln $LANGUAGE. Till exempel:
$ export LANGUAGE="pt:pt_BR:es:it:fr"
För mer information, se info gettext och läs avsnittet
"Variabeln LANGUAGE".
Sorteringsordningen för tecken med sort(1) och
ls(1) påverkas av lokal. Export av
LANG=en_US.UTF-8 sorterar i ordlistan
A->a->B->b...->Z->z ordning, medan export
av LANG=C.UTF-8 sorterar i ASCII binär
A->B->...->Z->a->b...ordning.
Datumformatet i ls(1) påverkas av språkvalet (se Avsnitt 9.3.4, ”Anpassad visning av tid och datum”).
Datumformatet i date(1) påverkas av språkvalet. Ett
exempel:
$ unset LC_ALL $ LANG=en_US.UTF-8 date Thu Dec 24 08:30:00 PM JST 2023 $ LANG=en_GB.UTF-8 date Thu 24 Dec 20:30:10 JST 2023 $ LANG=es_ES.UTF-8 date jue 24 dic 2023 20:30:20 JST $ LC_TIME=en_DK.UTF-8 date 2023-12-24T20:30:30 JST
Interpunktionerna för siffror är olika i olika länder. Till exempel, på
engelska visas ett tusen komma ett som "1,000.1" medan
det på tyska visas som "1.000,1". Du kan se den här
skillnaden i kalkylbladsprogram.
Varje detaljfunktion i miljövariabeln "$LANG" kan
åsidosättas genom att ställa in variablerna "$LC_*".
Dessa miljövariabler kan åsidosättas igen genom att ställa in variabeln
"$LC_ALL". Se locale(7) manpage för
mer information. Om du inte har starka skäl att skapa komplicerade
konfigurationer bör du undvika dem och endast använda variabeln
"$LANG" som är inställd på en av UTF-8-domänerna.
The keyboard system can be configured at different layers of the system.
Linux kernel: keyboard(5)
X server: setxkbmap(1),
xkeyboard-config(5), environment variable
XMODIFIERS
GUI desktop environment: Input Method framework: ibus,
fcitx5
Application: environment variables to set its input source:
GTK_IM_MODULE, QT_IM_MODULE,
QT_IM_MODULES, ...
Input method framework (IM) consists of:
Input method engine (IME): Actual input method
Configuration: Handles the configuration for IBus and other services such as IME
Panel: User interface such as language bar and candidate selection table
Multilingual input to the application is processed roughly as:
Keyboard UI panel Configuration Application
| ^ | | ^ ^
v | v v | |
Linux kernel -> Input method engine (IME) -+-> Gtk, Qt -+ |
| ^ | |
| | +-> X, Wayland -+
v |
IME plugin (ibus-mozc, ...)
The Debian system can be configured to work with many international keyboard
arrangements using the keyboard-configuration package.
# dpkg-reconfigure keyboard-configuration
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/keyboard". Many non-ASCII
characters including accented characters used by many European languages can
be made available with dead key, AltGr key, and compose
key.
|
Notera |
|---|---|
|
Om ibus är aktivt kan din klassiska X-tangentbordskonfiguration med
|
Unlike the X Window protocol, the Wayland core protocol doesn't even support
the input of accented characters. Popular Wayland Compositors, such as
Mutter for GNOME or KWin for KDE, implement extension protocols such as the
text-input-unstable-v3 for the text input (see "current Wayland protocols and their
support status").
The text-input-unstable-v3 protocol works well with Input
methods for Wayland (see "Wayland input method project
post-mortem").
Most GUI applications are built with GUI libraries such as GTK or Qt which
support this text-input-unstable-v3.
Popular Input Method Engines (IME), such as IBus
or Fcitx (version 5), can work with
this text-input-unstable-v3.
IMEs support text input for many languages with plugins.
Recent IMEs integrate X Keyboard
Extension (XKB) functionalities such as setxkbmap
previously provided by the X Window to support accented character text input
for European languages for Wayland.
For GNOME, "ibus" is the default IME which is
automatically installed via its package dependency.
Most multilingualized keyboard input features can be configured from "GNOME Settings" or "GNOME Tweaks".
Some multilingualized keyboard input features may need to be configured from
the ibus-setup(1) command.
The emoji keyboard input is available by typing SUPER-. (period) followed by a keyword for each emoji and SPACE-keys.
The list of IBus and its plugin packages are the following.
Tabell 8.1. List of IBus and its plugin packages
| paket | popcon | storlek | lokal som stöds |
|---|---|---|---|
| ibus | V:213, I:253 | 1828 | ramverk för inmatningsmetod med hjälp av dbus |
| ibus-mozc | V:2.1, I:3.8 | 978 | Japanska |
| ibus-anthy | V:0.5, I:1.2 | 8958 | Japanska |
| ibus-skk | V:0.04, I:0.15 | 242 | Japanska |
| ibus-kkc | V:0.03, I:0.19 | 211 | Japanska |
| ibus-libpinyin | V:1.2, I:5.1 | 2767 | Kinesiska (för zh_CN) |
| ibus-chewing | V:0.18, I:0.90 | 288 | Chinese (for zh_TW) |
| ibus-libzhuyin | V:0.00, I:0.11 | 41009 | Chinese (for zh_TW) |
| ibus-rime | V:0.27, I:0.49 | 78 | Chinese (for zh_CN/zh_TW) |
| ibus-cangjie | V:0.02, I:0.12 | 235 | Chinese (for zh_HK) |
| ibus-hangul | V:0.3, I:2.0 | 264 | Koreanska |
| ibus-libthai | V:0.00, I:0.05 | 84 | Thai |
| ibus-table-thai | I:0.05 | 59 | Thai |
| ibus-unikey | V:0.20, I:0.42 | 286 | Vietnamesisk |
| keyman | I:0.10 | 507 | Multilingual: Keyman plugin for over 2000 languages |
| ibus-table | V:0.08, I:0.99 | 2271 | table plugin for IBus |
| ibus-m17n | V:0.3, I:2.0 | 373 | Flerspråkigt: indiska, arabiska och andra |
The Fcitx (version 5) input method framework is
popular with Chinese users and compatible with "ibus".
The list of "fcitx5" and its plugin packages are the
following.
Tabell 8.2. List of Fcitx5 and its plugin packages
| paket | popcon | storlek | lokal som stöds |
|---|---|---|---|
| fcitx5 | V:7, I:12 | 761 | input method framework compatible with "ibus" |
| fcitx5-mozc | V:1.0, I:1.6 | 1260 | Japanska |
| fcitx5-anthy | V:0.06, I:0.20 | 808 | Japanska |
| fcitx5-skk | V:0.05, I:0.14 | 369 | Japanska |
| fcitx5-kkc | V:0.00, I:0.06 | 416 | Japanska |
| fcitx5-chinese-addons | I:9.0 | 17 | Chinese (metapackage for zh_*) |
| fcitx5-pinyin | V:3.8, I:9.4 | 1044 | Kinesiska (för zh_CN) |
| fcitx5-chewing | V:0.2, I:1.0 | 217 | Chinese (for zh_TW) |
| fcitx5-zhuyin | I:0.06 | 41051 | Chinese (for zh_TW) |
| fcitx5-rime | V:0.44, I:0.84 | 371 | Chinese (for zh_CN/zh_TW) |
| fcitx5-table-cangjie-large | I:0.12 | 1292 | Chinese (for zh_HK) |
| fcitx5-hangul | V:0.09, I:0.23 | 235 | Koreanska |
| fcitx5-libthai | I:0.05 | 119 | Thai |
| fcitx5-table-thai | I:0.08 | 34 | Thai |
| fcitx5-unikey | V:0.08, I:0.20 | 588 | Vietnamesisk |
| fcitx5-m17n | V:0.12, I:0.51 | 259 | Flerspråkigt: indiska, arabiska och andra |
| fcitx5-table | V:0.4, I:9.2 | 520 | table plugin for fcitx5 |
| fcitx5-keyman | V:0.03, I:0.04 | 235 | Multilingual: Keyman plugin for over 2000 languages |
Jag tycker att den japanska inmatningsmetoden som startas under engelsk
miljö ("en_US.UTF-8") är mycket användbar. Här är hur
jag gjorde detta med IBus för GNOME på Wayland:
Install the Japanese input tool package ibus-mozc (or
ibus-anthy).
Välj "Inställningar" → "Tangentbord" → "Inmatningskällor" → klicka på
"+" i "Inmatningskällor" → "Japanska" → "Japanska mozc
(eller anthy)" och klicka på "Lägg till" om det inte har aktiverats.
Du kan välja hur många ingångskällor som helst.
Logga in på nytt på användarens konto.
Konfigurera varje ingångskälla genom att högerklicka på ikonen i GUI:s verktygsfält.
Växla mellan installerade ingångskällor med SUPER-SPACE. (SUPER är normalt Windows-tangenten)
|
Tips |
|---|---|
|
Om du vill ha tillgång till en tangentbordsmiljö med enbart alfabet med det
fysiska japanska tangentbordet där |
For Wayland:
The im-config package does nothing and can be removed
safely.
You probably don't need to set environment variables except for the backward compatibility etc.
If you need to set environment variables, create a file such as
~/.config/environment.d/50-input-method.conf to set them.
For X Window:
Install the im-config package.
GUI-menyalternativet för im-config(8) är "Input method".
Alternativt kan du köra "im-config" från användarens
shell.
im-config(8) beter sig olika om kommandot körs från root
eller inte.
im-config(8) aktiverar den bästa inmatningsmetoden i
systemet som standard utan några åtgärder från användaren.
Linux-konsolen kan bara visa ett begränsat antal tecken. (Du måste använda
ett speciellt terminalprogram som jfbterm(1) för att visa
icke-europeiska språk på en konsol som inte är en GUI-konsol)
GUI-miljön (Kapitel 7, GUI-system) kan visa alla tecken i UTF-8 så länge som nödvändiga teckensnitt är installerade och aktiverade. (Kodningen av de ursprungliga teckensnittsdata tas om hand och är transparent för användaren)
The Debian system can be configured to work with many international console
arrangements using the console-setup package.
# dpkg-reconfigure console-setup
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/console-setup". This also
configures the Linux console font. Many non-ASCII characters including
accented characters used by many European languages can be made available
with dead key, AltGr
key, and compose key.
Det finns flera komponenter för att konfigurera teckenkonsol- och
ncurses(3)-systemfunktioner.
Filen "/etc/terminfo/*/*"(terminfo(5))
Miljövariabeln "$TERM"(term(7))
setterm(1), stty(1),
tic(1) och toe(1)
Om terminfo-posten för xterm inte
fungerar med en xterm som inte är från Debian, ändra din
terminaltyp, "$TERM", från "xterm"
till en av de funktionsbegränsade versionerna som
"xterm-r6" när du loggar in på ett Debiansystem på
distans. Se "/usr/share/doc/libncurses5/FAQ" för mer
information. "dumb" är den minsta gemensamma nämnaren
för "$TERM".
Under the East Asian locale, the box drawing, Greek, and Cyrillic characters may be displayed wider than your desired width to cause the unaligned terminal output (see Unicode Standard Annex #11, 4.2 Ambiguous Characters).
Du kan komma runt detta problem:
gnome-terminal: Inställningar → Profiler →
Profilnamn → Kompatibilitet → Tvetydiga breda tecken →
Smala
ncurses: Ställ in miljöexport
NCURSES_NO_UTF8_ACS=0.