Любая ЭВМ построена на
электронно-вакуумных
лампах,
транзисторах,
триггерах,
конденсаторах. Все эти элементы могут иметь 2 устойчивых состояния.
Например:
- Включено/ выключено,
- Есть напряжение/ нет напряжения,
- Ток проходит/ ток не проходит,
- Конденсатор заряжен / конденсатор разряжен,
- Участок поверхности намагничен/ не намагничен. Поэтому условно принято считать
одно состояние как логический 0, другое состояние как логическая 1.
Естественно компьютер не понимает слов, букв, цифр. Он понимает только эти 2
состояния. Поэтому все буквы, цифры, слова в компьютере состоят из 0 и 1.
Компьютеры могут обрабатывать только информацию, представленную в числовой форме. При вводе документов, текстов программ и т. д. вводимые буквы (т.е. вводимые символы) кодируются определёнными числами, а при выводе их для чтения человеком (на монитор, принтер и т.д.) по каждому числу (т.е. коду символа) строится изображение символа. Соответствие между кодом символа и самим символом называется кодировкой символа.
Для представления символьной (текстовой) информации в персональном компьютере используется так называемые кодовые таблицы. Эти таблицы однобайтовые. Это означает, что для отображения любого символа в этих таблицах выделен 1 байт (т.е. 8 битов). При помощи 8 битов можно закодировать 256 символов. Нажатие клавиши, например "А", посылает в компьютер 8 –ми битовое двоичное число. Каждую комбинацию можно интерпретировать как десятичное число от 0 до 255 представленное в двоичной системе счисления (байт 11111111). В кодовой таблице символов каждой букве, цифре, служебному знаку присвоен определенный код в диапазоне от 0 до 255. Кодовая таблица - это внутренне представление символов в машине.
Кроме алфавитно-цифровых символов, которые отображаются на экране и бумаге, кодовая таблица имеет также группу кодов, которые предназначены не для отображения информации, а для управления отображением информацией, т.е. являются служебными кодами. Эти коды расположены в начале таблицы и имеют номера от 1 до 31
Например, символ с кодом 13 означает конец строки, т.е. эквивалентен нажатию клавиши Enter; символ с кодом 10 – переход на одну строку вниз - так что пришедший за ними символ будет напечатан в начале следующей строки. Символами кодовой таблицы в компьютерной технологии представляется текст в файлах, документах, страницах Internet.
В России долгое время использовался и сейчас используется код АСКОИ – (алфавитный стандартный код обработки информации). Каждый символ в этом коде представляется восьмиразрядным двоичным числом (байтом). Код любого символа в таблице АСКОИ определяется по номерам строки и столбца, запись которых в двоичной форме и дает код данного символа. Например, русская буква "а" находится в 12-й строке и в 1-м столбце, значит, код буквы "а" в АСКОИ будет равен 1100 0001.
Одним из наиболее распространенных кодов является код ASCII – (American Standard Code for Information Interchange)- американский стандартный код для взаимообмена информации. ASCII принят во всем мире в качестве стандарта в компьютерных системах работающих под управлением операционной системы MS DOS. Таблица ASCII кодирует ровно половину возможных символов от 0 до 127. Вторая половина от 128 до 255 не определена американским стандартом и предназначена для размещения национальных алфавитов (например, кириллицы), псевдографических символов, некоторых математических знаков.
Стандарт ANSI – (Americal Standard Institute – американский национальный институт стандартизации) принят в качестве стандарта в компьютерных системах работающих под управлением операционной системы Windows.
Кодовые таблицы ASCII и ANSI не идентичны. Первые их половины, (т.е. символы с кодами 0….127), совпадают, а вторые половины (т.е. символы с кодами 128….255), различны. В первой половине таблиц содержатся буквы английского алфавита и они в обеих таблицах имеют одинаковые коды. Во второй же половине таблиц содержатся буквы русского алфавита (т.е. кириллица). То есть один и тот же символ русского алфавита в таблицах ASCII и ANSI имеет разные коды. Поэтому из – за различия в кодировках таблиц ASCII и ANSI тексты, написанные в текстовых редакторах, работающих под управлением операционной системы MS DOS, могут неверно выводиться на экран дисплея в редакторах, работающих под управлением операционной системы Windows.
Для русского языка существуют и другие таблицы, которые применяются довольно редко. Например, СР – 866, ISO8859-5. В INTERNET широко используется код КОИ-8 (код обмена информацией) или KOI8-R.
Кодовая таблица UNICODE.
Общим и принципиальным недостатком всех однобайтовых таблиц является отсутствие в коде символа какой-либо информации о номере таблицы. Программа, получив на входе набор символов, воспроизводит его по своему уразумению, не интересуясь его происхождением. Например, драйверы MS DOS, получив пару символов с кодами 224 и 227 обращаются к таблице СР-866 и воспроизводят их как "ру". Но если эти символы набирались в Windows, то они означают "ar". Поэтому в 1988-1991 годах фирмой UNICODE Consortium был разработан стандарт 16-ти битовой кодировки (2-х байтной). Это позволяет включать в код символа информацию о том, какой таблице принадлежит символ.. Правда, объём текстовой информации увеличивается в 2 раза, но исключаются проблемы. На настоящий момент из 65 536 возможных символов Юникода заняты 39 000, причем 21 000 из них используются китайскими иероглифами.