Skip to content

Latest commit

 

History

History
222 lines (128 loc) · 9.52 KB

presentation1.md

File metadata and controls

222 lines (128 loc) · 9.52 KB
author title
Беднов Г.А.
Практическое занятие 1

кто я и где искать?

Преподаватель: Беднов Григорий Александрович, ассистент кафедры ПИ ИИИ

{ width=5% } etzelhun { width=5% } gregorybednov { width=5% } [email protected] { width=5% } gregorybednov.github.io

записан как Аноним666? Представься!

обзор курса

  • 32 практические работы, каждая с отчётом

  • это Много дел, поэтому курс разбит по модулям.

  • Дедлайн любой работы не более 1 месяца.

  • Много работ Excel, но там где я указываю, можно прогать

Вопросы?

Есть ли вопросы - задавайте.

P.S. Во время объяснения материала можно спрашивать.

Информация и её кодирование.

  • О понятиях информации и энтропии, а также кодах

простой и экзотический пример с кодированием

выводы

  • даже отсутствие знака бывает другим знаком (и тогда всего знаков минимум 2)

  • информация осмыслена: это про связь знака с чем-то ещё, с вещью или признаком

  • информация контекстуальна;

  • информация как правило характеризуется ярко выраженными и легко различимыми кодами.

Формула Хартли

Применяется для вычисления количества информации равновероятных событий

$$ N \le 2^{K} $$

$$ K=\left\lceil \log_{2} N \right\rceil $$

"Провокации"

Казалось бы, если 0 и 1 достаточно...

  1. Ясно ли сейчас в Париже? (0/1, "не знаю" нельзя)

  2. А снижается ли неопределённость когда говоришь "не знаю"?

определениЯ

ГОСТ Р 50922-96 Защита информации. Основные термины и определения

"Информация - сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления."

определениЯ

ГОСТ 33707 - 2016 Информационные технологии. Словарь

"Информация (в области обработки информации): Любые данные, представленные в электронной форме, написанные на бумаге, высказанные на совещании или находящиеся на любом другом носителе, используемые финансовым учреждением для принятия решений, перемещения денежных средств, установления ставок, предоставления ссуд, обработки операций и т. п., включая компоненты программного обеспечения системы обработки."

определения

"Информация в наиболее общем смысле термина есть отображение реальности, осуществленное в той или иной системе предназначенных для этого средств. Это, если угодно, продукт способности самоотражения материи.

Отражение - всякое копирование, изображение, подражание, и даже постижение и выражение сущности отражаемого"

("Начала информатики", Н.П. Брусенцов, 1994 г.)

Выводы

  • у информации много определений,

  • понятие скорее философское - уточняйте точное значение,

  • но все сходятся что существуют различные формы представления или кодирования,

  • важна среда информации (писатель, носитель и читатель),

  • но в инженерных задачах - стандарты.

Информационная ёмкость и кодирование информации

Единицы измерения

  • бит (б)

  • Байт (Б) = 8 б

  • десятичные (1000) приставки: кило (к), мега (М), гига (Г), ...

  • двоичные ($2^8=1024$) приставки: киби (Ки), меби (Ми), гиби (Ги), ...

Ячейки

  • Не являются строгими единицами измерения информации!

  • Ниббл (4 бита), байт (8 бит), слово (16 бит или 32 бит), двойное слово (32 бита или 64 бита)

  • char, unsigned char, signed char из C/C++ - байт (как минимальная ячейка)

  • как правило, слово - это основная ячейка.

  • это инженерное решение, о причинах - см. след. занятие

Пример

Машинная ячейка длиной 1 байт всегда 8 бит:

00000000

...

10110110

...

11111111

256 ($=2^8$) различных значений.

Ячейки - выводы

  • постоянная информационная ёмкость
  • постоянное количество различных значений

Но: возможны разные способы трактовки 0 и 1, например

  • разные типы данных
  • разные диапазоны значений

Кодирование текстовых данных.

ASCII

  • Изобрели телетайпную (телеграфную) связь

  • Выяснилось, что пересылать данные между разными организациями и моделями компов невозможно

  • Утвердили единую семибитную кодировку (ASCII)

Национальные кодировки однобайтные

  • Воспользовались оставшимся битом на разные национальные кодировки (DOS CP866, Windows-1251, КОИ-8R)

  • Выяснилось, что общаться с другими странами всё равно невозможно

Попытка 1

  • начало семейства Юникод;

  • Придумали расширить кодировки двумя (UTF-16) или четырьмя (UTF-32) байтами

  • Стало ясно что американцам/европейцам очень не удобно, теперь де-факто "сломан" ASCII

  • Да и документы стали сильно больше весить

Попытка 2

  • (мы здесь!) продолжение семейства кодировок Юникод
  • Как сделать чтобы бывший ASCII весил строго 1 байт, а всё остальное как можно меньше?
  • Кодировка переменной длины UTF-8!
  • Если 0..., то это ASCII.
  • Если 10.., надо прочитать все оставшиеся биты этого байта и полностью читать 1 следующий
  • Если 110.., надо еще 2 байта...
    • добавить символы-комбинаторы

Итоги

Достоинства юникода

  • (𓎼𓂋𓇋 𓎼𓍿𓂋𓇋𓇋 𓄿𓃭𓇋𓎡𓋴𓄿𓈖𓂧𓂋𓍿𓆑𓇋𓍿) ❤️ 单一码

Оставшиеся проблемы

  • шрифты (их недостаток)
  • BOM
  • сложность реализации: вплоть до теоретически возможной Тьюринг-полноты

Выводы

  • UTF-8 захватил мир,
  • ASCII --- вечная классика,
  • ещё живы: 1251, даже 866;
  • в Азии бывают свои особенности, например, Unified Hangul Code - CP949,
  • мертвы как вид 🦖: КОИ-8R, КОИ-8U, MacCyrillic, MacRoman, MIK, EUC-KR.