Как найти информационный вес каждого символа. Урок информатики и ИКТ "Измерение информации. Алфавитный подход". Что такое мощность алфавита: начальное понятие

Измерение информации.

Алфавитный подход к измерению информации.

Одно и то же сообщение может нести много информации для одного человека и не нести её совсем для другого человека. При таком подходе количество информации определить однозначно затруднительно.

Алфавитный подход позволяет измерить информационный объём сообщения, представленного на некотором языке (естественном или формальном), независимо от его содержания.

Для количественного выражения любой величины необходима, прежде всего, единица измерения. Измерение осуществляется путём сопоставления измеряемой величины с единицей измерения. Сколько раз единица измерения «укладывается» в измеряемой величине, таков и результат измерения.

При алфавитном подходе считается, что каждый символ некоторого сообщения имеет определённый информационный вес - несёт фиксированное количество информации . Все символы одного алфавита имеют один и тот же вес, зависящий от мощности алфавита. Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется 1 бит.

Обратите внимание, что название единицы измерения информации «бит» (bit) происходит от английского словосочетания binary digit - «двоичная цифра».

За минимальную единицу измерения информации принят 1 бит. Считается, что таков информационный вес символа двоичного алфавита.

1.6.2. Информационный вес символа произвольного алфавита

Ранее мы выяснили, что алфавит любого естественного или формального языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита N связана с разрядностью двоичного кода i, требуемой для кодирования всех символов исходного алфавита, соотношением: N = 2 i.

Информационный вес символа алфавита i и мощность алфавита N связаны между собой соотношением: N = 2 i.

Задача 1. Алфавит племени Пульти содержит 8 символов. Каков информационный вес символа этого алфавита?

Решение. Составим краткую запись условия задачи.

Известно соотношение, связывающее величины i и N: N = 2 i.

С учётом исходных данных: 8 = 2 i. Отсюда: i = 3.

Полная запись решения в тетради может выглядеть так:

Ответ: 3 бита.

1.6.3. Информационный объём сообщения

Информационный объём сообщения (количество информации в сообщении), представленного символами естественного или формального языка, складывается из информационных весов составляющих его символов.

Информационный объём сообщения I равен произведению количества символов в сообщении К на информационный вес символа алфавита i: I = K * i.

Задача 2 . Сообщение, записанное буквами 32-символьного алфавита, содержит 140 символов. Какое количество информации оно несёт?

Задача 3. Информационное сообщение объёмом 720 битов состоит из 180 символов. Какова мощность алфавита, с помощью которого записано это сообщение?

1.6.4. Единицы измерения информации

В наше время подготовка текстов в основном осуществляется с помощью компьютеров. Можно говорить о «компьютерном алфавите», включающем следующие символы: строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и др. Такой алфавит содержит 256 символов. Поскольку 256 = 28, информационный вес каждого символа этого алфавита равен 8 битам. Величина, равная восьми битам, называется байтом. 1 байт - информационный вес символа алфавита мощностью 256.

1 байт = 8 битов

Бит и байт - «мелкие» единицы измерения. На практике для измерения информационных объёмов используются более крупные единицы:

1 килобайт = 1 Кб = 1024 байта = 210 байтов

1 мегабайт = 1 Мб = 1024 Кб = 210 Кб = 220 байтов

1 гигабайт = 1 Гб = 1024 Мб = 210 Мб = 220 Кб = 230 байтов

1 терабайт = 1 Тб = 1024 Гб = 210 Гб = 220 Мб = 230 Кб = 240 байтов

Задача 4. Информационное сообщение объёмом 4 Кбайта состоит из 4096 символов. Каков информационный вес символа используемого алфавита? Сколько символов содержит алфавит, с помощью которого записано это сообщение?

Задача 5 . В велокроссе участвуют 128 спортсменов. Специальное устройство регистрирует прохождение каждым из участников промежуточного финиша, записывая его номер цепочкой из нулей и единиц минимальной длины, одинаковой для каждого спортсмена. Каков будет информационный объём сообщения, записанного устройством после того, как промежуточный финиш пройдут 80 велосипедистов?

Решение. Номера 128 участников кодируются с помощью двоичного алфавита. Требуемая разрядность двоичного кода (длина цепочки) равна 7, так как 128 = 27. Иначе говоря, зафиксированное устройством сообщение о том, что промежуточный финиш прошёл один велосипедист, несёт 7 битов информации. Когда промежуточный финиш пройдут 80 спортсменов, устройство запишет 80 7 = 560 битов, или 70 байтов информации.

Современные компьютерные технологии, информатика, мощность алфавита, системы исчисления и многие другие понятия имеют самые непосредственные связи между собой. Очень немногие пользователи сегодня достаточно хорошо разбираются в этих вопросах. Попробуем прояснить, что такое мощность алфавита, как ее вычислять и применять на практике. В дальнейшем это, вне всякого сомнения, может пригодиться на практике.

Как измеряется информация

Прежде чем приступить к изучению вопроса о том, какова мощность алфавита, и вообще, что это такое, следует начать, так сказать, с азов.

Наверняка всем известно, что сегодня существуют специальные системы измерения каких-либо величин, на основе эталонных значений. Например, для расстояний и аналогичных величин это метры, для массы и веса - килограммы, для временных промежутков - секунды и т.д.

Что такое мощность алфавита: начальное понятие

Итак, если следовать общепринятому правилу, что конечное значение какой-либо величины представляет собой параметр, определяющий, какое количество раз эталонная единица уложена в измеряемой величине, можно сделать вывод: мощность алфавита есть полное количество символов, использующихся для того или иного языка.

Чтобы было понятнее, оставим пока вопрос о том, как находить мощность алфавита, в стороне, и обратим внимание на сами символы, естественно, с точки зрения информационных технологий. Грубо говоря, полный список используемых символов содержит литеры, цифры, всевозможные скобки, специальные символы, знаки препинания, и т.д. Однако, если подходить к вопросу о том, что такое мощность алфавита именно компьютерным способом, сюда следует включить еще и пробел (единичный разрыв между словами или другими символами).

Возьмем в качестве примера русский язык, вернее, клавиатурную раскладку. Исходя из вышесказанного, полный перечень содержит 33 литеры, 10 цифр и 11 специальных знаков. Таким образом, полная мощность алфавита равна 54.

Информационный вес символов

Однако общее понятие мощности алфавита не определяет сущности вычислений информационных объемов текста, содержащего литеры, цифры и символы. Здесь требуется особый подход.

В принципе, задумайтесь, ну вот каким может быть минимальный набор с точки зрения компьютерной системы, сколько символов он может содержать? Ответ: два. И вот почему. Дело в том, что каждый символ, будь то буква или цифра, имеет свой информационный вес, по которому машина и распознает, что именно перед ней. Но компьютер понимает лишь представление в виде единиц и нулей, на чем, собственно, и основана вся информатика.

Таким образом, любой символ можно представить в виде последовательностей, содержащих цифры 1 и 0, то есть, минимальная последовательность, обозначающая букву, цифру или символ, состоит из двух компонентов.

Сам же информационный вес, принятый за стандартную информационную единицу измерения, называется битом (1 бит). Соответственно, 8 бит составляют 1 байт.

Представление символов в двоичном коде

Итак, что такое мощность алфавита, думается, уже немного понятно. Теперь посмотрим на другой аспект, в частности, практическое представление мощности с использованием двоичного кода. В качестве примера для простоты возьмем алфавит, содержащий всего 4 символа.

В двузначном двоичном коде последовательность и их информационное представление можно описать следующим образом:

Порядковый номер

Двоичный код

Отсюда - простейший вывод: при мощности алфавита N=4 вес единичного символа составляет 2 бита.

Если использовать трехзначный двоичный код для алфавита, например, с 8 символами, количество комбинаций будет следующим:

Порядковый номер

Двоичный код

Иными словами, при мощности алфавита N=8 вес одного символа для трехзначного двоичного кода будет равен 3 битам.

Как находить мощность алфавита и использовать ее в компьютерном выражении

Теперь попробуем посмотреть на зависимость, которую выражает количество знаков в коде и мощность алфавита. Формула, где N - алфавитная мощность алфавита, а b - количество знаков в двоичном коде, будет выглядеть так:

То есть, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 и т.д. Грубо говоря, искомое количество знаков самого двоичного кода и есть вес символа. В информационном выражении это выглядит так:

Измерение информационного объема

Однако это были всего лишь простейшие примеры, так сказать, для начального понимания того, что такое мощность алфавита. Перейдем непосредственно к практике.

На данном этапе развития компьютерной техники для набора текста с учетом заглавных, прописных и строчных букв, кириллических и латинских литер, знаков препинания, скобок, знаков арифметических действий и т.д. используется 256 символов. Исходя из того, что 256 это 2 8 , нетрудно догадаться, что вес каждого символа в таком алфавите равен 8, то есть, 8 битам или 1 байту.

Если исходить из всех известных параметров, можно с легкостью получить нужное нам значение информационного объема любого текста. Например, у нас есть компьютерный текст, содержащий 30 страниц. На одной странице располагается 50 строк по 60 любых знаков или символов, включая и пробелы.

Таким образом, одна страница будет содержать 50 х 60= 3 000 байт информации, а весь текст - 3000 х 50=150000 байт. Как видим даже небольшие тексты измерять в байтах неудобно. А что говорить о целых библиотеках?

В данном случае лучше переводить объем в более мощные величины - килобайты, мегабайты, гигабайты и т.д. Исходя из того, что, например, 1 килобайт равен 1024 байта (2 10), а мегабайт - 2 10 килобайт (1024 килобайта), нетрудно посчитать, что объем текста в информационно-математическом выражении для нашего примера составит 150000/1024=146,484375 килобайт или приблизительно 0,14305 мегабайт.

Вместо послеловия

В общем и целом, это вкратце и все, что касается рассмотрения вопроса, что такое мощность алфавита. Остается добавить, что в данном описании был использован чисто математический подход. Само собой разумеется, что смысловая нагрузка текста в данном случае не учитывается.

Но, если подходить к вопросам рассмотрения именно с позиции, которая дает человеку что-то для осмысления, набор бессмысленного сочетания или последовательностей символов в этом плане будет иметь нулевую информационную нагрузку, хотя, с точки зрения понятия информационного объема, результат все равно можно вычислить.

В целом же, знания о мощности алфавита и сопутствующих понятиях не так уж и сложны для понимания и элементарно могут применяться в смысле практических действий. При этом любой пользователь практически каждый день сталкивается с этим. Достаточно привести в пример популярный редактор Word или любой другой такого же уровня, в котором используется такая система. Но не путайте его с обычным «Блокнотом». Здесь мощность алфавита ниже, поскольку при наборе текста не используются, скажем, прописные буквы.

Развитие высоких технологий привело к появлению большого количества терминов и понятий, с которыми сталкиваются все пользователи в процессе работы с компьютерами. Продвинутые юзеры имеют представление о большинстве из них, однако, для новичков разобраться со всеми терминами очень сложно. Одним из таковых терминов, о которых имеют представление не все даже опытные пользователи, является мощность алфавита. Что подразумевается под этим понятием и как она рассчитывается?

Методы измерения информации в электронном виде

Мощность алфавита может пригодиться очень многим пользователям в процессе работы. Однако перед тем как дать определение этому термину и разобраться в методах его расчета необходимо немного поговорить о том, как измеряется электронная информация, поскольку это является материальной базой, на основании которой базируется дальнейшая теория.

Каждый человек знает о том, что любая величина имеет свою систему измерений. Например, температура измеряется в градусах, расстояние выражается в метрах, временные интервалы строятся из секунд и так далее. Однако немногие пользователи знают о том, в каких величинах измеряется текстовая информация в электронном виде. Для этих целей в информатике и было создано определение мощность алфавита.

Определение термина

Исходя из того, что значение абсолютно любой величины, известной в наши дни человечеству, является неким параметром, состоящим из набора измерительных единиц, то определение понятию мощности алфавита проще всего сделать следующим образом: мощность алфавита - это количество символов, которое входит в состав любого языка.
Однако это всего-лишь общее определение, которое отражает только поверхностное значение мощности алфавита, поскольку само определение носит более глубокий характер. Чтобы понять всю его суть необходимо разобраться с тем, что представляют собой символы, с точки зрения высоких технологий. Все символы, используемые в компьютере, включают в себя буквы, цифры, знаки препинания и набор специальных символов. Однако это еще не все, поскольку для определения мощности алфавита необходимо еще учитывать и пробел, который предназначен для разделения слов между собой.

Давайте в качестве примера рассмотрим русскую раскладку клавиатуры, которая используется для печати русскоязычного текста и состоит из 34 букв, 10 цифр и 11 дополнительных символов, суммарное количество которых составляет 54, что, в свою очередь, классифицируется как мощность алфавита русской раскладки клавиатуры..

Информационный вес символов

Давайте постепенно продвигаться далее. Мощность алфавита не заключается в одном лишь числе букв и цифр, которые используются в напечатанном тексте. Для определения этого параметра необходим более глубокий подход.
Давайте на секунду задумаемся о том, какой минимальный объем символов входит в состав одной буквы, цифры или специального знака? Правильный ответ - два. Каждый символ в компьютере обладает своим информационным весом, благодаря которому машина способна распознавать какую информацию ввел пользователь. Все дело в том, что машина не способна распознавать информацию в том виде, в котором ее представляют люди. Вместо этого, он использует специальный машинный язык, состоящий из нулей и единиц, при помощи которых происходит преобразование текстовой информации в двоичный код, понятный компьютерной системе.
Что касается информационного веса, то он выражается в битах и является стандартной единицей для измерения информации в электронном виде.

Немного о двоичном коде

Теперь мы имеем более-менее доступным для понимания определением мощности алфавита. Однако для понимания всей глубины теории представления электронной информации машинами необходимо иметь представление о двоичном коде. Давайте рассмотрим этот вопрос на примере мощности алфавита, состоящей из четырех любых символов, каждый из которых имеет вес два бита.

Следуя из всего вышесказанного, четыре символа будут иметь весь четыре бита, восемь - три и так далее. На основании этого принципа и происходит расчет веса текстовой информации, выраженной в электронном виде, компьютерными системами.

Вычисления мощности алфавита и ее практическое использование

С терминологией и основными теоретическими терминами мы разобрались, поэтому теперь давайте рассмотрим какая существует взаимосвязь между мощностью алфавита и его весом. Чтобы более наглядно провести взаимосвязь между ними давайте рассмотрим одну формулу: N=2b, в которой первая переменная соответствует количеству символов, а вторая - количеству знаков, используемых компьютерами в машинном языке.
Из этого математического выражения следует, что 21=2, 22=4, 23=8, 24=16 и так далее. На основании этого можно сделать весьма разумный и обоснованный вывод: число символов, используемых в машинном языке, представляет собой вес символа.

Как измеряется объем информации?

Рассмотренные выше примеры являются очень простыми, на примере которых можно дать общее представление мощности алфавита. Однако на деле все выглядит намного сложнее, поскольку каждый пользователь в процессе набора текста использует не только строчные, но и заглавные буквы, а также различные шрифты, языковую раскладку, знаки препинания, специальные символы, цвета и многое другое. Исходя из этого можно предположить, что общее число всех суммарных символов равняется 256. Поскольку 256 равняется 28 в двоичном коде, то в этом случае вес каждого символа составляет 8 битам или одному байту.

Таким образом, обладая всеми необходимыми параметрами, мы можем рассчитать объем электронной информации. Например, мы напечатали 30 страниц печатной информации, на каждой из которых содержится 50 строк по 60 различных символов. Используя известную нам формулу, производим необходимые вычисления:

— информационный вес одной строки будет равен: 50 х 60 = 3000 байт;
— а весь текст будет весить: 3000 х 50 = 150 000 байт.

Стоит отметить, что конечный результат можно выражать не только в байтах, а переводить стандартную единицу измерения в килобайты, мегабайты и другие. Для этого необходимо величину более младшего порядка разделить на 1024, поскольку именно столько единиц младшей величины образуют старшую единицу измерения.

Заключение

Прочитав эту статью, вы получили общее представление о том, что представляет собой мощность алфавита, а также о методах ее расчета. Однако был рассмотрен исключительно математический подход, в котором не учитываются некоторые другие параметры, основным из которых является смысловая нагрузка. Этот аспект является одним из наиболее важных для понимания, поскольку независимо от объема символов, если они не несут никакой информационной ценности, то его ценность равна нулю. Однако рассчитать вес бессмысленного набора символов все равно можно.

Если говорить в общем, то мощность алфавита, как один из терминов информатики, не представляет собой ничего сложного для понимания. Но многие пользователи пренебрегают этим терминов, поскольку считают его бесполезным, однако, на практике все обстоит совершенно иначе. В наши дни пользователи работают преимущественно с электронной информацией, которая со временем может полностью вытеснить печатную, поэтому необходимо иметь представление о том, как эта информация выражается в машинном виде и каким образом она рассчитывается.

Существует несколько способов измерения количества информации. Один из них называется алфавитный .

Алфавитный подход позволяет измерять количество информации в тексте (символьном сообщении), составленном из символов некоторого алфавита.

Алфавит – это набор букв, знаков, цифр, скобок и т.д.
Количество символов в алфавите называется его мощностью .

При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес . Информационный вес символа зависит от мощности алфавита.

Какова минимальная мощность алфавита, с помощью которого можно записывать (кодировать) информацию?



Назовем комбинацию из 2-х, 3-х и т.д. бит двоичным кодом .

Сколько символов можно закодировать двумя битами?

Порядковый номер символа

1

2

3

4

Двухзначный двоичный код

00

01

10

11

4 символа 2 бита .

Сколько символов можно закодировать тремя битами?

Порядковый номер символа

1

2

3

4

5

6

7

8

Трехзначный двоичный код

000

001

010

011

100

101

110

111


Отсюда следует, что в алфавите мощностью 8 символов информационный вес каждого символа - 3 бита .

Можно сделать вывод, что в алфавите мощностью 16 символов информационный вес каждого символа будет 4 бита .

Обозначим мощность алфавита буквой N , а информационный вес символа буквой b .

Зависимость между мощностью алфавита N и информационным весом символа b .

N

2

4

8

16

b

1 бит

ЛЕКЦИЯ № 3

Темы занятия:

1. Мощность алфавита.

2. Таблицы кодирования символов.

3. Кодирование изображений.

4. Кодирование звука.

5. Сжатие информации

6. Примеры решения типовых задач.

7. Цифровая электронная подпись.

Мощность алфавита

Алфавит – набор символов, используемых для создания информационных сообщений. Например, алфавит русского языка включает 32 буквы (символа), однако следует учитывать, что в информационном сообщении могут присутствовать кроме букв специальные символы: запятая, точка, восклицательный знак, скобки и др.

Мощность алфавита (математ. - мощность множества) – количество (набор) символов, используемых для передачи сообщения.

В вычислительной технике используют алфавит из двух символов: 0 и 1

Примечание:

*Максимальное количество N вариантов (наборов) для бинарного n-разрядного слова составляет

Например, количество возможных вариантов восьмиразрядного слова (1 байт), составленного из 0 и 1, составляет 2 8 =256.

Задача № 1.1.:

Скорость чтения учащегося составляет приблизительно 250 символов в минуту. Приняв мощность используемого алфавита за 64, определите, какой объем информации в килобайтах получит учащийся, если он будет непрерывно читать в течение 40 минут?

Решение:

1) Количество информации, которое несет один знак алфавита (из 64 знаков) равен:

2) Количество символов, которые читает учащийся за 40 минут равно: 250 x 40 = 10 000.

3) Количество информации, которое получает учащийся за 40 минут равно: 10 000 ⋅ 6 = 60 000 бит = 7,3 Кбайт.