Что такое кодировка. Какие бывают кодировки

Что такое кодировка
Что такое кодировка. Какие бывают кодировки
Для начала обратимся к Википедии на предмет уточнения термина, и по запросу «кодировка» получим статью с названием «набор символов», это потому что кодировка – это разговорный вариант данного термина.

На самом деле кодировка текста является специальным набором символов (или таблицей символов), которыми кодируются буквы, цифры, знаки препинания и прочие символы, которые мы употребляем в текстах.

Кодировку можно представить как некий язык, который помогает компьютеру понимать вас, а вам понимать компьютер. Компьютер оперирует машинным кодом, состоящим из нулей и единиц, кодировка помогает переводить этот код в символы нужного нам алфавита. Она является ключом к шифру.

Известно, что символы латинского алфавита кодируются везде одинаково, а вот с кириллицей, иероглифами, арабской вязью и прочими занятными алфавитами частенько приходится попотеть.

Какие бывают кодировки

ISO 646
          ASCII

EBCDIC

ISO 8859:
          ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
          CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869

Кодировки Microsoft Windows:
          Windows-1250 для языков Центральной Европы, которые используют латинское написание букв (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)
          Windows-1251 для кириллических алфавитов
          Windows-1252 для западных языков
          Windows-1253 для греческого языка
          Windows-1254 для турецкого языка
          Windows-1255 для иврита
          Windows-1256 для арабского языка
          Windows-1257 для балтийских языков
          Windows-1258 для вьетнамского языка

MacRoman, MacCyrillic

КОИ8 (KOI8-R, KOI8-U…), КОИ-7

Болгарская кодировка

ISCII

VISCII

Big5 (наиболее знаменитый вариант Microsoft CP950)
          HKSCS

Guobiao
          GB2312
          GBK (Microsoft CP936)
          GB18030

Shift JIS для японского языка (Microsoft CP932)

EUC-KR для корейского языка (Microsoft CP949)

ISO-2022 и EUC для китайской письменности

Кодировки UTF-8, UTF-16 и UTF-32 набора символов Юникод

Причины возникновения столь большого количества различных кодировок весьма похожи на причины возникновения проблемы кроссбраузерности. Первоначально многие программисты изобретали кодировки «под себя» и свои нужды, а потом уж возникла необходимость приведения всего этого разнообразия к какому-то единому стандарту. У кодировки текста хоть и существует стандарт, но он не является обязательным.

В результате мы имеет много различных кодировок и постоянную необходимость прописывать в настройках, какую именно кодировку мы сейчас используем. Потому и множатся поисковики запросами типа «как убрать кракозябры» и «что нужно сделать чтобы текст на сайте стал читабельным».

Для тех, у кого проблемы с кодировкой UTF-8 рекомендую мою статью о том как их устранить.