Википедия

Текстовый файл

Те́кстовый файл — компьютерный файл, содержащий текстовые данные. Текстовым файлам противопоставляются двоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).

Текстовый файл
image
MIME-тип text/plain
Расширение файла .txt или .text
Противоположно двоичный файл и графический файл[вд]
image Медиафайлы на Викискладе
image
Пиктограммное описание текстового файла с CSV-данными

В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.

Описание

Текстовый файл содержит последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows). В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.: Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркеры конца файла.

Преимущества и недостатки

Преимущества:

  • Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе или ОС, особенно если речь идёт об однобайтных кодировках вроде ASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница в порядке байтов или длине машинного слова.
  • Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как у сжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многие системы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
  • Формат текстового файла крайне прост и его можно изменять текстовым редактором — программой, входящей в комплект практически любой ОС.

Недостатки:

  • У больших несжатых текстовых файлов низкая информационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя эта избыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных с носителей, например, с магнитной ленты.
  • Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе с большими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающий интероперабельность.

Форматы, основанные на текстовых файлах

В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например, логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).

Текстовый формат служит основой для многих более специализированных форматов (например, .ini, SGML, HTML, XML, TeX, исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например, Rich Text Format, HTML).

Расширения имён файлов

В DOS, macOS и Windows для файлов с неформатированным текстом обычно используется расширение .txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например, исходные коды программ обычно хранятся в файлах с расширениями, соответствующими языку программирования, на котором написаны программы (.java, .bas, .pas, .c).

Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату или языку разметки — .rtf, .htm, .html.

Кодировки

8-битный текст

Исторически для кодирования текстовых файлов применялась 7-битная кодировка ASCII, а также совместимые с EBCDIC и ASCII 8-битные кодировки (кодовые страницы). В ASCII-совместимых кодовых страницах (так называемом [англ.]) позиции 0x000x7F кодовой таблицы, как правило, полностью совпадают с ASCII.

Преимуществом 8-битного представления текста является программная простота и независимость от порядка байтов или длины машинного слова. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.

Unicode в текстовых файлах

Применение Unicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации в потоке данных является байт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системы UTF-8 и две версии UTF-16 (UTF-16LE и UTF-16BE с противоположным порядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большей избыточностью, нежели 8-битные.

Управляющие символы

Различные операционные системы придерживаются своего представления перевода строки и конца файла. В UNIX перевод строки состоит из одного символа LF (код 0xA), в Mac OS (но не macOS) — из символа CR (код 0xD), а в DOS и Windows перевод строки кодируется последовательностью двух символов: CR и LF.

Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.

Помимо названных, в текстовых файлах встречаются такие символы, как табуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобие ЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.

Примечания

  1. Стандарт Unicode, ч. 2. (англ.). Дата обращения: 11 августа 2008. Архивировано 22 апреля 2021 года.

Литература

  • Sascha Kersken. IT-Handbuch für Fachinformatiker. Galileo Computing, Bonn 2009, ISBN 978-3-8362-1420-9
  • Nell B. Dale, John Lewis. Computer science illuminated. Jones and Bartlett Publishers, Sudbury 2007, ISBN 978-0-7637-4149-5.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Текстовый файл, Что такое Текстовый файл? Что означает Текстовый файл?

Zapros TXT perenapravlyaetsya syuda sm takzhe drugie znacheniya Etu statyu predlagaetsya udalit Poyasnenie prichin i sootvetstvuyushee obsuzhdenie vy mozhete najti na stranice Vikipediya K udaleniyu 28 maya 2022 Poka process obsuzhdeniya ne zavershyon statyu mozhno popytatsya uluchshit odnako sleduet vozderzhivatsya ot pereimenovanij ili nemotivirovannogo udaleniya soderzhaniya podrobnee sm rukovodstvo k dalnejshemu dejstviyu Ne snimajte pometku o vystavlenii na udalenie do podvedeniya itoga obsuzhdeniya Poslednee izmenenie sdelano uchastnikom D Ilin vklad zhurnaly v 08 48 16 aprelya 2025 UTC okolo 90 dnej nazad Administratoram i podvodyashim itogi ssylki syuda istoriya zhurnaly udalit Te kstovyj fajl kompyuternyj fajl soderzhashij tekstovye dannye Tekstovym fajlam protivopostavlyayutsya dvoichnye binarnye fajly v kotoryh soderzhatsya dannye ne rasschitannye na interpretaciyu v kachestve tekstovyh naprimer fajly hranyashie tekst v zakodirovannom ili szhatom vide ili hranyashie ne tekst a zvuk izobrazhenie ili inye dannye Tekstovyj fajlMIME tiptext plainRasshirenie fajla txt ili textProtivopolozhnodvoichnyj fajl i graficheskij fajl vd Mediafajly na VikiskladePiktogrammnoe opisanie tekstovogo fajla s CSV dannymi V otlichie ot termina tekstovye dannye tekstovyj format dannyh harakterizuyushego soderzhimoe dannyh termin tekstovyj fajl otnositsya k fajlu i harakterizuet ego kak kontejner hranyashij takie dannye OpisanieOsnovnaya statya Tekstovye dannye Tekstovyj fajl soderzhit posledovatelnost simvolov v osnovnom pechatnyh znakov prinadlezhashih tomu ili inomu naboru simvolov Eti simvoly obychno sgruppirovany v stroki angl lines rows V sovremennyh sistemah stroki razdelyayutsya razdelitelyami strok v proshlom zhe primenyalos hranenie strok v vide zapisej postoyannoj ili peremennoj dliny sm Perfokarta Inogda konec tekstovogo fajla osobenno esli v fajlovoj sisteme ne hranitsya informaciya o razmere fajla takzhe otmechaetsya odnim ili bolee specialnymi znakami izvestnymi kak markery konca fajla Preimushestva i nedostatki Preimushestva Universalnost tekstovyj fajl mozhet byt prochitan tak ili inache na lyuboj sisteme ili OS osobenno esli rech idyot ob odnobajtnyh kodirovkah vrode ASCII kotorye ne podverzheny probleme harakternoj dlya drugih formatov fajlov dlya nih ne vazhna raznica v poryadke bajtov ili dline mashinnogo slova Ustojchivost kazhdoe slovo i simvol v takom fajle samodostatochny i esli sluchitsya povrezhdenie bajtov v takom fajle to obychno mozhno vosstanovit dannye ili prodolzhit obrabotku ostalnogo soderzhimogo v to vremya kak u szhatyh ili dvoichnyh fajlov povrezhdenie neskolkih bajtov mozhet sdelat fajl sovershenno nevosstanovimym Mnogie sistemy upravleniya versiyami rasschitany na tekstovye fajly i s dvoichnymi fajlami mogut rabotat tolko kak s edinym celym Format tekstovogo fajla krajne prost i ego mozhno izmenyat tekstovym redaktorom programmoj vhodyashej v komplekt prakticheski lyuboj OS Nedostatki U bolshih neszhatyh tekstovyh fajlov nizkaya informacionnaya entropiya eti fajly zanimayut bolshe mesta nezheli minimalno neobhodimo Hotya eta izbytochnost i opredelyaet povyshennuyu ustojchivost k sboyam v kanalah peredachi dannyh i pri poluchenii dannyh s nositelej naprimer s magnitnoj lenty Nekotorye operacii s tekstovymi fajlami neeffektivny Naprimer esli v fajle vstretitsya chislo vychislitelnaya sistema do nachala operacij s nim dolzhna budet perevesti ego v svoj vnutrennij format primeniv sravnitelno slozhnuyu proceduru konvertacii chisla chtoby perejti na 1000 yu stroku trebuetsya schitat 999 strok idushih do neyo slozhno zamenit odnu stroku drugoj i t d Poetomu pri rabote s bolshimi obyomami dannyh tekstovye fajly primenyayut tolko kak promezhutochnyj format obespechivayushij interoperabelnost Formaty osnovannye na tekstovyh fajlah V silu svoej prostoty tekstovye fajly neredko ispolzuyutsya dlya hraneniya sluzhebnoj informacii naprimer logov tak kak operaciya dobavleniya v konec tekstovogo fajla novyh dannyh ne trebuet skol nibud znachitelnyh vychislitelnyh resursov nezavisimo ot uzhe imeyushegosya obyoma fajla i vida dobavlyaemyh tekstovyh dannyh vedenie tekstovyh log fajlov obychno proishodit effektivno i nezametno dlya polzovatelya i dlya drugih prilozhenij vplot do ischerpaniya diskovogo prostranstva Tekstovyj format sluzhit osnovoj dlya mnogih bolee specializirovannyh formatov naprimer ini SGML HTML XML TeX ishodnyh tekstov yazykov programmirovaniya V nekotoryh iz takih formatov opredelyonnye sochetaniya simvolov mogut ispolzovatsya kak sredstva razmetki teksta V takom sluchae fajl mozhet hranit formatirovannyj tekst v kotorom dlya simvolov dopolnitelno mozhet byt zadan shrift nachertanie razmer i t p naprimer Rich Text Format HTML Rasshireniya imyon fajlov V DOS macOS i Windows dlya fajlov s neformatirovannym tekstom obychno ispolzuetsya rasshirenie txt Tem ne menee tekstovymi mogut yavlyatsya fajly s lyubym drugim rasshireniem ili bez onogo Naprimer ishodnye kody programm obychno hranyatsya v fajlah s rasshireniyami sootvetstvuyushimi yazyku programmirovaniya na kotorom napisany programmy java bas pas c Formatirovannyj tekst tekst s razmetkoj obychno hranitsya v fajlah s rasshireniem sootvetstvuyushim formatu ili yazyku razmetki rtf htm html Kodirovki8 bitnyj tekst Osnovnaya statya Kodovaya stranica Istoricheski dlya kodirovaniya tekstovyh fajlov primenyalas 7 bitnaya kodirovka ASCII a takzhe sovmestimye s EBCDIC i ASCII 8 bitnye kodirovki kodovye stranicy V ASCII sovmestimyh kodovyh stranicah tak nazyvaemom angl pozicii a href wiki D0 A8 D0 B5 D1 81 D1 82 D0 BD D0 B0 D0 B4 D1 86 D0 B0 D1 82 D0 B5 D1 80 D0 B8 D1 87 D0 BD D0 B0 D1 8F D1 81 D0 B8 D1 81 D1 82 D0 B5 D0 BC D0 B0 D1 81 D1 87 D0 B8 D1 81 D0 BB D0 B5 D0 BD D0 B8 D1 8F title Shestnadcaterichnaya sistema schisleniya 0x a 00 a href wiki D0 A8 D0 B5 D1 81 D1 82 D0 BD D0 B0 D0 B4 D1 86 D0 B0 D1 82 D0 B5 D1 80 D0 B8 D1 87 D0 BD D0 B0 D1 8F D1 81 D0 B8 D1 81 D1 82 D0 B5 D0 BC D0 B0 D1 81 D1 87 D0 B8 D1 81 D0 BB D0 B5 D0 BD D0 B8 D1 8F title Shestnadcaterichnaya sistema schisleniya 0x a 7F kodovoj tablicy kak pravilo polnostyu sovpadayut s ASCII Preimushestvom 8 bitnogo predstavleniya teksta yavlyaetsya programmnaya prostota i nezavisimost ot poryadka bajtov ili dliny mashinnogo slova Nedostatok bolshoe kolichestvo razlichnyh standartov chto mozhet privodit k nesovmestimosti Unicode v tekstovyh fajlah Primenenie Unicode v tekstovyh fajlah hotya v osnovnom reshaet problemu kodirovok i standartiziruet upotreblenie upravlyayushih simvolov no sozdayot svoi problemy V bolshinstve sovremennyh sistem nedelimoj edinicej informacii v potoke dannyh yavlyaetsya bajt 8 bit kotoryh dlya kodirovaniya odnogo simvola iz Yunikoda trebuetsya neskolko V kachestve resheniya primenyayutsya nesovmestimye mezhdu soboj sistemy UTF 8 i dve versii UTF 16 UTF 16LE i UTF 16BE s protivopolozhnym poryadkom bajtov Inogda v nachalo fajla dobavlyayut specialnyj simvol marker U FEFF pozvolyayushij raspoznat format odnoznachno UTF 8 imeet preimushestvo obratnoj sovmestimosti s ASCII odnako programmnaya obrabotka teksta v UTF 8 uslozhnyaetsya nepostoyannym razmerom simvola Takzhe teksty v Yunikode otlichayutsya eshyo bolshej izbytochnostyu nezheli 8 bitnye Upravlyayushie simvoly Osnovnaya statya Upravlyayushie simvoly Razlichnye operacionnye sistemy priderzhivayutsya svoego predstavleniya perevoda stroki i konca fajla V UNIX perevod stroki sostoit iz odnogo simvola LF kod 0xA v Mac OS no ne macOS iz simvola CR kod 0xD a v DOS i Windows perevod stroki kodiruetsya posledovatelnostyu dvuh simvolov CR i LF Takoj raznoboj prodiktovan principami raboty pishushih mashinok chtoby perejti na novuyu stroku nado vernut karetku v nachalo stroki carriage return a zatem provernut baraban na odnu stroku line feed Pri pechati na printere tot i drugoj simvol mog stoyat obosoblenno naprimer chtoby vydelit stroku propechatav eyo dvazhdy ili prokrutit baraban na neskolko strok no v tekstovyh fajlah v etom net nuzhdy Pomimo nazvannyh v tekstovyh fajlah vstrechayutsya takie simvoly kak tabulyaciya kod 9 i perevod stranicy kod 0xC Poslednij ispolzovalsya starymi tekstovymi redaktorami napodobie LEKSIKON a takzhe v fajlah prednaznachennyh dlya raspechatki na printere PrimechaniyaStandart Unicode ch 2 angl Data obrasheniya 11 avgusta 2008 Arhivirovano 22 aprelya 2021 goda LiteraturaSascha Kersken IT Handbuch fur Fachinformatiker Galileo Computing Bonn 2009 ISBN 978 3 8362 1420 9 Nell B Dale John Lewis Computer science illuminated Jones and Bartlett Publishers Sudbury 2007 ISBN 978 0 7637 4149 5 Dlya uluchsheniya etoj stati zhelatelno Najti i oformit v vide snosok ssylki na nezavisimye avtoritetnye istochniki podtverzhdayushie napisannoe Prostavit snoski vnesti bolee tochnye ukazaniya na istochniki Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто