Википедия

Кодировка символов

Набо́р си́мволов (англ. character set) — таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита (точек и тире в коде Морзе, сигнальных флагов на флоте, нулей и единиц (битов) в компьютере).

Набор символов в компьютере

Символы в компьютере обычно кодируются одним или нескольким байтами (группами из восьми битов).

Хотя термин «набор символов» (англ. character set, charset), узаконенный интернет-стандартом RFC 2278, сейчас является, пожалуй, наиболее авторитетным, предшествовавший ему термин «кодировка» (англ. encoding) по-прежнему используется в качестве синонима, в частности, в языках программирования Java, Perl и XSLT, а также в HTML.

Нередко также вместо термина «набор символов» неправильно употребляют термин «кодовая страница», означающий на самом деле частный случай набора символов с однобайтным кодированием.

В настоящее время в основном используются кодировки трёх типов: совместимые с ASCII, совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы, зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Современные 8-битные вычислительные платформы характеризуются небольшими объёмами ОЗУ и ПЗУ; многобайтные кодировки в таких изделиях значительного распространения не получили. Причиной тому не только больший объём, занимаемый текстовыми данными, представленными в многобайтной кодировке, но и отсутствие «лишней» памяти для хранения графического представления дополнительных символов, а также трудность обработки таких строк. В настоящее время часто используются следующие стандартные однобайтные кодировки:

  • В программах на английском языке — CP437;
  • В программах на русском языке используются такие варианты:
    • CP866 — чаще используется более опытными инженерами, начинавшими работать в DOS; позволяет рисовать псевдографические «рамки», но требует хранения исходного текста ПО именно в этой кодовой странице, что бывает затруднительно для начинающих;
    • CP1251 — используется, если необходимо иметь русские символы непрерывным массивом для лёгкости их обработки, и в случае наличия ОС Windows, перекодировать такой текст можно без использования стороннего ПО. Но, не позволяет рисовать «рамки».

Автоматическое распознавание кодировок

Во многих современных текстовых редакторах и браузерах присутствует функция автоматического распознавания кодировок, но она не всегда выдает верный результат. Иногда бывает, что текст, набранный например в командной строке или некоторых программах, неверно декодируется, и вместо нормальных слов получается набор непонятных символов. Справиться с прочтением такого текста может помочь большое количество декодеров текста, которые работают онлайн.

Для однобайтных кодировок нужно учитывать тот факт, что частотность использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частотность байтов лучше соответствует частотности букв данного языка.

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, MIME). Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

Распространённые кодировки

  • BCDIC
  • EBCDIC
    • ДКОИ
  • ISO/IEC 646
    • ASCII
    • КОИ-7
  • ISO/IEC 8859
    • ISO/IEC 8859-1
    • ISO/IEC 8859-2
    • ISO/IEC 8859-3
    • ISO/IEC 8859-4
    • ISO/IEC 8859-5
    • ISO/IEC 8859-6
    • ISO/IEC 8859-7
    • ISO/IEC 8859-8
    • ISO/IEC 8859-9
    • ISO/IEC 8859-10
    • ISO/IEC 8859-11
    • ISO/IEC 8859-13
    • ISO/IEC 8859-14
    • ISO/IEC 8859-15
  • Кодировки DOS
    • CP437
    • [англ.]
    • CP850
    • CP852
    • CP855
    • CP858
    • [англ.]
    • [англ.]
    • [англ.]
    • CP866
    • [англ.]
  • Кодировки Microsoft Windows
    • Windows-1250 для языков Центральной Европы, которые используют латинское написание букв (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)
    • Windows-1251 для кириллических алфавитов
    • Windows-1252 для западных языков
    • Windows-1253 для греческого языка
    • Windows-1254 для турецкого языка
    • [англ.] для иврита
    • [англ.] для арабского языка
    • [англ.] для балтийских языков
    • [англ.] для вьетнамского языка
  • Кодировки Macintosh
    • MacRoman
    • MacCyrillic
  • КОИ-8
    • KOI8-R
    • KOI8-U
  • [англ.]
  • [англ.]
  • VISCII?!
  • [англ.] (наиболее известный вариант — Microsoft [англ.])
    • HKSCS
  • [англ.]
    • GB2312
    • [англ.] (Microsoft [англ.])
    • [англ.]
  • Shift JIS и [англ.] для японского языка (Microsoft [англ.])
  • [англ.] для корейского языка (Microsoft [англ.])
  • [англ.] и [англ.] для китайской письменности
  • Представления Юникода
    • UTF-7
    • UTF-8
    • UTF-16
    • UTF-32

См. также

Ссылки

  • Юникод-коды символов на unicode.org

Примечания

  1. Перечень основных «кодировок» в руководстве по Java SE 6. Дата обращения: 27 сентября 2008. Архивировано 16 декабря 2008 года.
  2. Обсуждение темы «кодировок» в документации по языку Perl. Дата обращения: 27 сентября 2008. Архивировано 6 октября 2008 года.
  3. Обсуждение темы «кодировок» в документации по технологии XSLT. Дата обращения: 5 октября 2008. Архивировано 13 августа 2017 года.
  4. Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML. Дата обращения: 11 октября 2008. Архивировано 26 октября 2008 года.
  5. Спецификации наборов символов на сайте IANA. Дата обращения: 27 сентября 2008. Архивировано 16 июля 2004 года.
  6. Универсальный декодер — конвертер кириллицы. Дата обращения: 4 декабря 2014. Архивировано 28 декабря 2014 года.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Кодировка символов, Что такое Кодировка символов? Что означает Кодировка символов?

Ne sleduet putat s tablicej simvolov spiskom ispolzuemyh identifikatorov sostavlyaemym pri translyacii programmy Etu statyu predlagaetsya udalit Poyasnenie prichin i sootvetstvuyushee obsuzhdenie vy mozhete najti na stranice Vikipediya K udaleniyu 9 aprelya 2022 Poka process obsuzhdeniya ne zavershyon statyu mozhno popytatsya uluchshit odnako sleduet vozderzhivatsya ot pereimenovanij ili nemotivirovannogo udaleniya soderzhaniya podrobnee sm rukovodstvo k dalnejshemu dejstviyu Ne snimajte pometku o vystavlenii na udalenie do podvedeniya itoga obsuzhdeniya Poslednee izmenenie sdelano uchastnikom MBHbot vklad zhurnaly v 21 13 16 maya 2025 UTC okolo 58 dnej nazad Administratoram i podvodyashim itogi ssylki syuda istoriya zhurnaly udalit Nabo r si mvolov angl character set tablica zadayushaya kodirovku konechnogo mnozhestva simvolov alfavita obychno elementov teksta bukv cifr znakov prepinaniya Takaya tablica sopostavlyaet kazhdomu simvolu posledovatelnost dlinoj v odin ili neskolko simvolov drugogo alfavita tochek i tire v kode Morze signalnyh flagov na flote nulej i edinic bitov v kompyutere Nabor simvolov v kompyutereSimvoly v kompyutere obychno kodiruyutsya odnim ili neskolkim bajtami gruppami iz vosmi bitov Hotya termin nabor simvolov angl character set charset uzakonennyj internet standartom RFC 2278 sejchas yavlyaetsya pozhaluj naibolee avtoritetnym predshestvovavshij emu termin kodirovka angl encoding po prezhnemu ispolzuetsya v kachestve sinonima v chastnosti v yazykah programmirovaniya Java Perl i XSLT a takzhe v HTML Neredko takzhe vmesto termina nabor simvolov nepravilno upotreblyayut termin kodovaya stranica oznachayushij na samom dele chastnyj sluchaj nabora simvolov s odnobajtnym kodirovaniem V nastoyashee vremya v osnovnom ispolzuyutsya kodirovki tryoh tipov sovmestimye s ASCII sovmestimye s EBCDIC i osnovannye na Yunikode 16 bitnye s podavlyayushim preobladaniem pervyh Predstavlenie UTF 8 Yunikoda sovmestimo s ASCII Kodirovki na baze EBCDIC naprimer DKOI ispolzuyutsya tolko na nekotoryh mejnfrejmah Pervonachalno v kazhdoj operacionnoj sisteme ispolzovalsya odin nabor simvolov Teper ispolzuemye nabory simvolov standartizovany zavisyat ot tipa operacionnoj sistemy lish po tradicii i ustanavlivayutsya soglasno lokali V Vikipedii i drugih proektah Fonda Vikimedia ispolzuetsya Yunikod UTF 8 Sovremennye 8 bitnye vychislitelnye platformy harakterizuyutsya nebolshimi obyomami OZU i PZU mnogobajtnye kodirovki v takih izdeliyah znachitelnogo rasprostraneniya ne poluchili Prichinoj tomu ne tolko bolshij obyom zanimaemyj tekstovymi dannymi predstavlennymi v mnogobajtnoj kodirovke no i otsutstvie lishnej pamyati dlya hraneniya graficheskogo predstavleniya dopolnitelnyh simvolov a takzhe trudnost obrabotki takih strok V nastoyashee vremya chasto ispolzuyutsya sleduyushie standartnye odnobajtnye kodirovki V programmah na anglijskom yazyke CP437 V programmah na russkom yazyke ispolzuyutsya takie varianty CP866 chashe ispolzuetsya bolee opytnymi inzhenerami nachinavshimi rabotat v DOS pozvolyaet risovat psevdograficheskie ramki no trebuet hraneniya ishodnogo teksta PO imenno v etoj kodovoj stranice chto byvaet zatrudnitelno dlya nachinayushih CP1251 ispolzuetsya esli neobhodimo imet russkie simvoly nepreryvnym massivom dlya lyogkosti ih obrabotki i v sluchae nalichiya OS Windows perekodirovat takoj tekst mozhno bez ispolzovaniya storonnego PO No ne pozvolyaet risovat ramki Avtomaticheskoe raspoznavanie kodirovokVo mnogih sovremennyh tekstovyh redaktorah i brauzerah prisutstvuet funkciya avtomaticheskogo raspoznavaniya kodirovok no ona ne vsegda vydaet vernyj rezultat Inogda byvaet chto tekst nabrannyj naprimer v komandnoj stroke ili nekotoryh programmah neverno dekodiruetsya i vmesto normalnyh slov poluchaetsya nabor neponyatnyh simvolov Spravitsya s prochteniem takogo teksta mozhet pomoch bolshoe kolichestvo dekoderov teksta kotorye rabotayut onlajn Dlya odnobajtnyh kodirovok nuzhno uchityvat tot fakt chto chastotnost ispolzovaniya raznyh bukv silno razlichaetsya naprimer v russkom chasto ispolzuetsya o no redko Poetomu znaya yazyk teksta mozhno legko vybrat kodirovku v kotoroj chastotnost bajtov luchshe sootvetstvuet chastotnosti bukv dannogo yazyka Alternativnaya tochka zreniya schitaet podobnye evristicheskie algoritmy opredeleniya kodirovki teksta vrednymi poskolku sovremennye informacionnye tehnologii raspolagayut sredstvami nedvusmyslenno sopostavit tekstu polozhennuyu emu kodovuyu stranicu sm naprimer MIME Shirokoe zhe rasprostranenie evristicheskih analizatorov pooshryaet ispolzovanie nekachestvennyh programm sozdaniya tekstovyh dannyh narushayushih standarty Rasprostranyonnye kodirovkiBCDIC EBCDIC DKOI ISO IEC 646 ASCII KOI 7 ISO IEC 8859 ISO IEC 8859 1 ISO IEC 8859 2 ISO IEC 8859 3 ISO IEC 8859 4 ISO IEC 8859 5 ISO IEC 8859 6 ISO IEC 8859 7 ISO IEC 8859 8 ISO IEC 8859 9 ISO IEC 8859 10 ISO IEC 8859 11 ISO IEC 8859 13 ISO IEC 8859 14 ISO IEC 8859 15 Kodirovki DOS CP437 angl CP850 CP852 CP855 CP858 angl angl angl CP866 angl Kodirovki Microsoft Windows Windows 1250 dlya yazykov Centralnoj Evropy kotorye ispolzuyut latinskoe napisanie bukv polskij cheshskij slovackij vengerskij slovenskij horvatskij rumynskij i albanskij Windows 1251 dlya kirillicheskih alfavitov Windows 1252 dlya zapadnyh yazykov Windows 1253 dlya grecheskogo yazyka Windows 1254 dlya tureckogo yazyka angl dlya ivrita angl dlya arabskogo yazyka angl dlya baltijskih yazykov angl dlya vetnamskogo yazyka Kodirovki Macintosh MacRoman MacCyrillic KOI 8 KOI8 R KOI8 U angl angl VISCII angl naibolee izvestnyj variant Microsoft angl HKSCS angl GB2312 angl Microsoft angl angl Shift JIS i angl dlya yaponskogo yazyka Microsoft angl angl dlya korejskogo yazyka Microsoft angl angl i angl dlya kitajskoj pismennosti Predstavleniya Yunikoda UTF 7 UTF 8 UTF 16 UTF 32Sm takzheGeneticheskij kod PsevdografikaSsylkiYunikod kody simvolov na unicode orgPrimechaniyaPerechen osnovnyh kodirovok v rukovodstve po Java SE 6 neopr Data obrasheniya 27 sentyabrya 2008 Arhivirovano 16 dekabrya 2008 goda Obsuzhdenie temy kodirovok v dokumentacii po yazyku Perl neopr Data obrasheniya 27 sentyabrya 2008 Arhivirovano 6 oktyabrya 2008 goda Obsuzhdenie temy kodirovok v dokumentacii po tehnologii XSLT neopr Data obrasheniya 5 oktyabrya 2008 Arhivirovano 13 avgusta 2017 goda Obsuzhdenie sootnosheniya terminov kodirovka i nabor simvolov v dokumentacii po yazyku HTML neopr Data obrasheniya 11 oktyabrya 2008 Arhivirovano 26 oktyabrya 2008 goda Specifikacii naborov simvolov na sajte IANA neopr Data obrasheniya 27 sentyabrya 2008 Arhivirovano 16 iyulya 2004 goda Universalnyj dekoder konverter kirillicy neopr Data obrasheniya 4 dekabrya 2014 Arhivirovano 28 dekabrya 2014 goda V state ne hvataet ssylok na istochniki sm rekomendacii po poisku Informaciya dolzhna byt proveryaema inache ona mozhet byt udalena Vy mozhete otredaktirovat statyu dobaviv ssylki na avtoritetnye istochniki v vide snosok 22 dekabrya 2014

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто