Текстовые данные
Эту статью предлагается удалить. |
Те́кстовые да́нные (также те́кстовый форма́т) — представление информации строкового типа (то есть, последовательности печатных символов) в вычислительной системе. В MIME закодированным таким образом данным соответствует тип text/plain.
Часто текстовые данные понимаются в более узком смысле — как текст на каких-либо языках (формальных или естественных), который может быть прочитан и понят человеком.
Текстовому формату противопоставляются «двоичные данные», информация в которых закодирована произвольным образом, не рассчитанным на восприятие человеком.
Для большей части компьютерного оборудования и программ неважно, являются ли данные текстовыми. Однако многие сетевые протоколы рассчитаны на работу только с текстовыми данными и не могут обрабатывать произвольную последовательность байтов. Также, некоторые программы обрабатывают текстовые и двоичные данные по-разному, а некоторые предназначены для обработки именно текстовых данных. Программы для создания и редактирования текстовых данных называются текстовыми редакторами.
Структура
Текстовыми данными как правило называются последовательности из подмножества знаков, включающего только печатные знаки (буквы, цифры, знаки препинания) и некоторые управляющие знаки (пробелы, табуляции, переводы строки). Существуют методы (например, UUENCODE или Base64), позволяющие закодировать в текстовом формате произвольные данные любого формата, что часто используется для кодирования бинарных данных.
Требование к возможности понимания содержимого человеком вносит дополнительную избыточность в представление данных. К примеру, число 123, для кодирования которого достаточно одного 8-битного байта, в текстовом виде кодируется несколькими цифровыми символами — так, в десятичной системе счисления для этого требуется три знака («123»), в двоичной — семь знаков («1111011»), в шестнадцатеричной — два («7B»).
Текстовый формат не позволяет использовать команды форматирования текста, управлять атрибутами шрифтов, размечать содержимое.
Разбиение на строки
Текстовые данные могут разделяться на строки. В некоторых операционных системах (в основном семейства UNIX) разбиение на строки кодируется одним управляющим знаком с кодом 10 в таблице ASCII (наименование — Line Feed, LF), на других (к примеру, в MS-DOS и Microsoft Windows) — парой управляющих знаков с кодами 13 и 10 (Carriage Return и Line Feed, CR/LF). В Mac OS (но не Mac OS X) разбиение кодируется одним знаком с кодом 13.
Такое разбиение управляющим знаком или знаками продиктовано тем, как работали пишущие машинки, через которые осуществлялся ввод в некоторых первых компьютерах — позиция ввода там указывалась положением валика с бумагой, и для поворота валика и перехода к следующей строке требовалось нажатие одной или двух клавиш или рычажков.
Также, знаки разбиения строк использовались для управления механическими принтерами (в качестве которых могли выступать те же печатные машинки, используемые и для ввода) — знак LF вызывал прокрутку рулона с бумагой, а знак CR вызывал возврат печатной каретки (там, где они были) в начало строки. Отсюда и название знаков — англ. Line Feed (перевод строки) и англ. Carriage Return (возврат каретки).
На некоторых платформах разбиение на строки делалось иначе — текст представлялся в виде последовательности записей фиксированной длины, для чего более короткие строки дополнялись нужным количеством пробелов. Это соответствовало представлению данных на перфокартах, которые служили средством ввода и даже хранения данных, имевших фиксированную ширину (например, 80 позиций - колонок).
Использование

cat в окне xtermОсновная цель применения текстовых данных — «общий знаменатель», независимость от отдельных программ, требующих собственного кодирования или форматирования и несовместимых с другими программами. Текстовые файлы (файлы в текстовом формате) могут быть открыты, прочитаны и отредактированы в любых текстовых редакторах, таких как MS-DOS Editor (DOS), Блокнот (Windows), ed, vi и vim (UNIX, Linux), [англ.], TextEdit (Mac OS X) и т. п. Другие программы также как правило умеют читать и импортировать текстовые данные. Просмотреть текстовые файлы можно также встроенными командами (type в DOS и Windows) и утилитами (cat в Unix).
Текстовый формат часто используется для представления данных, которые сами не являются чисто текстовыми. В этом случае другие форматы данных «надстраиваются» над простым текстом, для чего их управляющие конструкции выражаются посредством печатных слов и знаков препинания. Это обеспечивает удобство работы с данными на двух уровнях — например, данные HTML и XML можно просматривать и редактировать с показом форматирования в режиме WYSIWYG, а можно их открыть в обычном текстовом редакторе и иметь доступ ко всем тонкостям языка разметки. При хранении данных в «двоичном» виде (как это делается, например, в Microsoft Word ранних версий) с ними нередко нельзя работать в других программах (из-за недоступности информации о структуре формата) или даже в разных версиях одной и той же программы.
В большинстве языков программирования предполагается использование текстового формата для исходного кода программ. Помимо прочего, это позволяет применять к исходным кодам разнообразные утилиты для преобразований, оформления, поиска, статистики, анализа и т. п.
В файлах конфигурации многих программ применяется текстовый формат, даже если там представлены числа и двоичные переключатели (да/нет). Это несколько усложняет программы из-за необходимости преобразования текстовых данных во внутренний формат и обратно, но появляется возможность править конфигурацию вручную, без использования средств настройки самой программы.
Затруднительным является указание на какую-то определенную часть текста, хранящегося в формате текстовых данных. В качестве указателей могут использоваться номера строк или номера символов.
Близкие термины
Термин открытый текст (англ. plaintext; выглядит очень похоже на термин англ. plain text, используемый для обозначения текстовых данных) широко применяется в криптографии и означает любые незашифрованные данные, в том числе и нетекстовые. Термин чистый текст (англ. cleartext) также применяется в криптографии и означает незашифрованные данные, к тому же понятные человеку и незащищённые от «подслушивания» при передаче.
Примечания
- RFC 2046 "Plain text does not provide for or allow formatting commands, font attribute specifications, processing instructions, interpretation directives, or content markup."
- Источник. Дата обращения: 17 сентября 2016. Архивировано 20 апреля 2016 года.
Ссылки
- 7.1 The Text Content-Type, RFC 1341
Для улучшения этой статьи желательно: |
В статье не хватает ссылок на источники (см. рекомендации по поиску). |
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Текстовые данные, Что такое Текстовые данные? Что означает Текстовые данные?
Etu statyu predlagaetsya udalit Poyasnenie prichin i sootvetstvuyushee obsuzhdenie vy mozhete najti na stranice Vikipediya K udaleniyu 29 maya 2022 Poka process obsuzhdeniya ne zavershyon statyu mozhno popytatsya uluchshit odnako sleduet vozderzhivatsya ot pereimenovanij ili nemotivirovannogo udaleniya soderzhaniya podrobnee sm rukovodstvo k dalnejshemu dejstviyu Ne snimajte pometku o vystavlenii na udalenie do podvedeniya itoga obsuzhdeniya Poslednee izmenenie sdelano uchastnikom Alex NB OT vklad zhurnaly v 10 36 16 iyulya 2025 UTC okolo 17 chasov nazad Administratoram i podvodyashim itogi ssylki syuda istoriya zhurnaly udalitNe sleduet putat s Tekstovyj fajl Te kstovye da nnye takzhe te kstovyj forma t predstavlenie informacii strokovogo tipa to est posledovatelnosti pechatnyh simvolov v vychislitelnoj sisteme V MIME zakodirovannym takim obrazom dannym sootvetstvuet tip text plain Chasto tekstovye dannye ponimayutsya v bolee uzkom smysle kak tekst na kakih libo yazykah formalnyh ili estestvennyh kotoryj mozhet byt prochitan i ponyat chelovekom Tekstovomu formatu protivopostavlyayutsya dvoichnye dannye informaciya v kotoryh zakodirovana proizvolnym obrazom ne rasschitannym na vospriyatie chelovekom Dlya bolshej chasti kompyuternogo oborudovaniya i programm nevazhno yavlyayutsya li dannye tekstovymi Odnako mnogie setevye protokoly rasschitany na rabotu tolko s tekstovymi dannymi i ne mogut obrabatyvat proizvolnuyu posledovatelnost bajtov Takzhe nekotorye programmy obrabatyvayut tekstovye i dvoichnye dannye po raznomu a nekotorye prednaznacheny dlya obrabotki imenno tekstovyh dannyh Programmy dlya sozdaniya i redaktirovaniya tekstovyh dannyh nazyvayutsya tekstovymi redaktorami StrukturaTekstovymi dannymi kak pravilo nazyvayutsya posledovatelnosti iz podmnozhestva znakov vklyuchayushego tolko pechatnye znaki bukvy cifry znaki prepinaniya i nekotorye upravlyayushie znaki probely tabulyacii perevody stroki Sushestvuyut metody naprimer UUENCODE ili Base64 pozvolyayushie zakodirovat v tekstovom formate proizvolnye dannye lyubogo formata chto chasto ispolzuetsya dlya kodirovaniya binarnyh dannyh Trebovanie k vozmozhnosti ponimaniya soderzhimogo chelovekom vnosit dopolnitelnuyu izbytochnost v predstavlenie dannyh K primeru chislo 123 dlya kodirovaniya kotorogo dostatochno odnogo 8 bitnogo bajta v tekstovom vide kodiruetsya neskolkimi cifrovymi simvolami tak v desyatichnoj sisteme schisleniya dlya etogo trebuetsya tri znaka 123 v dvoichnoj sem znakov 1111011 v shestnadcaterichnoj dva 7B Tekstovyj format ne pozvolyaet ispolzovat komandy formatirovaniya teksta upravlyat atributami shriftov razmechat soderzhimoe Razbienie na stroki Tekstovye dannye mogut razdelyatsya na stroki V nekotoryh operacionnyh sistemah v osnovnom semejstva UNIX razbienie na stroki kodiruetsya odnim upravlyayushim znakom s kodom 10 v tablice ASCII naimenovanie Line Feed LF na drugih k primeru v MS DOS i Microsoft Windows paroj upravlyayushih znakov s kodami 13 i 10 Carriage Return i Line Feed CR LF V Mac OS no ne Mac OS X razbienie kodiruetsya odnim znakom s kodom 13 Takoe razbienie upravlyayushim znakom ili znakami prodiktovano tem kak rabotali pishushie mashinki cherez kotorye osushestvlyalsya vvod v nekotoryh pervyh kompyuterah poziciya vvoda tam ukazyvalas polozheniem valika s bumagoj i dlya povorota valika i perehoda k sleduyushej stroke trebovalos nazhatie odnoj ili dvuh klavish ili rychazhkov Takzhe znaki razbieniya strok ispolzovalis dlya upravleniya mehanicheskimi printerami v kachestve kotoryh mogli vystupat te zhe pechatnye mashinki ispolzuemye i dlya vvoda znak LF vyzyval prokrutku rulona s bumagoj a znak CR vyzyval vozvrat pechatnoj karetki tam gde oni byli v nachalo stroki Otsyuda i nazvanie znakov angl Line Feed perevod stroki i angl Carriage Return vozvrat karetki Na nekotoryh platformah razbienie na stroki delalos inache tekst predstavlyalsya v vide posledovatelnosti zapisej fiksirovannoj dliny dlya chego bolee korotkie stroki dopolnyalis nuzhnym kolichestvom probelov Eto sootvetstvovalo predstavleniyu dannyh na perfokartah kotorye sluzhili sredstvom vvoda i dazhe hraneniya dannyh imevshih fiksirovannuyu shirinu naprimer 80 pozicij kolonok IspolzovanieTekstovyj fajl pokazannyj komandoj cat v okne xterm Osnovnaya cel primeneniya tekstovyh dannyh obshij znamenatel nezavisimost ot otdelnyh programm trebuyushih sobstvennogo kodirovaniya ili formatirovaniya i nesovmestimyh s drugimi programmami Tekstovye fajly fajly v tekstovom formate mogut byt otkryty prochitany i otredaktirovany v lyubyh tekstovyh redaktorah takih kak MS DOS Editor DOS Bloknot Windows ed vi i vim UNIX Linux angl TextEdit Mac OS X i t p Drugie programmy takzhe kak pravilo umeyut chitat i importirovat tekstovye dannye Prosmotret tekstovye fajly mozhno takzhe vstroennymi komandami type v DOS i Windows i utilitami cat v Unix Tekstovyj format chasto ispolzuetsya dlya predstavleniya dannyh kotorye sami ne yavlyayutsya chisto tekstovymi V etom sluchae drugie formaty dannyh nadstraivayutsya nad prostym tekstom dlya chego ih upravlyayushie konstrukcii vyrazhayutsya posredstvom pechatnyh slov i znakov prepinaniya Eto obespechivaet udobstvo raboty s dannymi na dvuh urovnyah naprimer dannye HTML i XML mozhno prosmatrivat i redaktirovat s pokazom formatirovaniya v rezhime WYSIWYG a mozhno ih otkryt v obychnom tekstovom redaktore i imet dostup ko vsem tonkostyam yazyka razmetki Pri hranenii dannyh v dvoichnom vide kak eto delaetsya naprimer v Microsoft Word rannih versij s nimi neredko nelzya rabotat v drugih programmah iz za nedostupnosti informacii o strukture formata ili dazhe v raznyh versiyah odnoj i toj zhe programmy V bolshinstve yazykov programmirovaniya predpolagaetsya ispolzovanie tekstovogo formata dlya ishodnogo koda programm Pomimo prochego eto pozvolyaet primenyat k ishodnym kodam raznoobraznye utility dlya preobrazovanij oformleniya poiska statistiki analiza i t p V fajlah konfiguracii mnogih programm primenyaetsya tekstovyj format dazhe esli tam predstavleny chisla i dvoichnye pereklyuchateli da net Eto neskolko uslozhnyaet programmy iz za neobhodimosti preobrazovaniya tekstovyh dannyh vo vnutrennij format i obratno no poyavlyaetsya vozmozhnost pravit konfiguraciyu vruchnuyu bez ispolzovaniya sredstv nastrojki samoj programmy Zatrudnitelnym yavlyaetsya ukazanie na kakuyu to opredelennuyu chast teksta hranyashegosya v formate tekstovyh dannyh V kachestve ukazatelej mogut ispolzovatsya nomera strok ili nomera simvolov Blizkie terminyTermin otkrytyj tekst angl plaintext vyglyadit ochen pohozhe na termin angl plain text ispolzuemyj dlya oboznacheniya tekstovyh dannyh shiroko primenyaetsya v kriptografii i oznachaet lyubye nezashifrovannye dannye v tom chisle i netekstovye Termin chistyj tekst angl cleartext takzhe primenyaetsya v kriptografii i oznachaet nezashifrovannye dannye k tomu zhe ponyatnye cheloveku i nezashishyonnye ot podslushivaniya pri peredache PrimechaniyaRFC 2046 Plain text does not provide for or allow formatting commands font attribute specifications processing instructions interpretation directives or content markup Istochnik neopr Data obrasheniya 17 sentyabrya 2016 Arhivirovano 20 aprelya 2016 goda Ssylki7 1 The Text Content Type RFC 1341Dlya uluchsheniya etoj stati zhelatelno Najti i oformit v vide snosok ssylki na nezavisimye avtoritetnye istochniki podtverzhdayushie napisannoe Prostavit snoski vnesti bolee tochnye ukazaniya na istochniki Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom V state ne hvataet ssylok na istochniki sm rekomendacii po poisku Informaciya dolzhna byt proveryaema inache ona mozhet byt udalena Vy mozhete otredaktirovat statyu dobaviv ssylki na avtoritetnye istochniki v vide snosok 4 iyunya 2013
