Программно-аппаратное обеспечение
Рефераты >> Программирование и компьютеры >> Программно-аппаратное обеспечение

Проблема регистровых портов может быть решена, например, путем реализации отдельной выдачи команд загрузки, записи и пересылки с ПТ. В случае составления ими пары с обычной операцией ПТ ситуацию можно рассматривать как структурный конфликт. Такую схему легко реализовать, но она будет иметь существенное воздействие на общую производительность. Конфликт подобного типа может быть устранен посредством реализации в регистровом файле двух дополнительных портов (для выборки и записи).

Если пара команд состоит из одной команды загрузки с ПТ и одной операции с ПТ, которая от нее зависит, необходимо обнаруживать подобный конфликт и блокировать выдачу операции с ПТ. За исключением этого случая, все другие конфликты естественно могут возникать, как и в обычной машине, обеспечивающей выдачу одной команды в каждом такте. Для предотвращения ненужных приостановок могут, правда, потребоваться дополнительные цепи обхода.

Другой проблемой, которая может ограничить эффективность суперскалярной обработки, является задержка загрузки данных из памяти. В суперскалярном конвейере результат команды загрузки не может быть использован в том же самом и в следующем такте. Это означает, что следующие три команды не могут использовать результат команды загрузки без приостановки. Задержка перехода также становится длиною в три команды, поскольку команда перехода должна быть первой в паре команд. Чтобы эффективно использовать параллелизм, доступный на суперскалярной машине, нужны более сложные методы планирования потока команд, используемые компилятором или аппаратными средствами, а также более сложные схемы декодирования команд.

Архитектура машин с длинным командным словом

Архитектура машин с очень длинным командным словом (VLIW - Very Long Instruction Word) позволяет сократить объем оборудования, требуемого для реализации параллельной выдачи нескольких команд, и потенциально чем большее количество команд выдается параллельно, тем больше эта экономия. Например, суперскалярная машина, обеспечивающая параллельную выдачу двух команд, требует параллельного анализа двух кодов операций, шести полей номеров регистров, а также того, чтобы динамически анализировалась возможность выдачи одной или двух команд и выполнялось распределение этих команд по функциональным устройствам. Хотя требования по объему аппаратуры для параллельной выдачи двух команд остаются достаточно умеренными, и можно даже увеличить степень распараллеливания до четырех (что применяется в современных микропроцессорах), дальнейшее увеличение количества выдаваемых параллельно для выполнения команд приводит к нарастанию сложности реализации из-за необходимости определения порядка следования команд и существующих между ними зависимостей.

Архитектура VLIW базируется на множестве независимых функциональных устройств. Вместо того, чтобы пытаться параллельно выдавать в эти устройства независимые команды, в таких машинах несколько операций упаковываются в одну очень длинную команду. При этом ответственность за выбор параллельно выдаваемых для выполнения операций полностью ложится на компилятор, а аппаратные средства, необходимые для реализации суперскалярной обработки, просто отсутствуют.

VLIW-команда может включать, например, две целочисленные операции, две операции с плавающей точкой, две операции обращения к памяти и операцию перехода. Такая команда будет иметь набор полей для каждого функционального устройства, возможно от 16 до 24 бит на устройство, что приводит к команде длиною от 112 до 168 бит

Процессоры Intel

Pentium I

Процессоры Pentium фирмы Intel представляют пятое поколение процессоров семейства 80x86. По базовой регистровой архитектуре и системе команд они совместимы с вышеописанными 32-битными процессорами, но имеют 64-битную шину данных, благодаря чему их иногда ошибочно называют 64-разрядными. По сравнению с предыдущими поколениями процессоры Pentium имеют следующие качественные отличия:

· Суперскалярная архитектура: процессор имеет два параллельно работающих конвейера обработки (U-конвейер с полным набором и V-конвейер с несколько ограниченным набором инструкций), благодаря чему он способен одновременно выполнять две инструкции. Однако преимущества этой архитектуры полностью реализуются только при специальном режиме компиляции ПО.

· Применение технологии динамического предсказания ветвлений совместно с выделенным внутренним кэшем команд объемом 8 Кбайт обеспечивает максимальную загрузку конвейеров.

· Внутренний (Level 1) кэш данных объемом 8 Кбайт в отличие от 486 работает с отложенной (до освобождения внешней шины) записью и настраивается на режим сквозной или обратной записи, поддерживая протокол MESI.

· Внешняя шина данных ради повышения производительности имеет разрядность 64 бит, что требует соответствующей организации памяти.

· Встроенный сопроцессор за счет архитектурных улучшений (конвейеризации) в 2-10 раз превосходит FPU-486 по производительности.

· Введено несколько новых инструкций, в том числе распознавание семейства и модели CPU.

· Применено выявление ошибок внутренних устройств (внутренний контроль паритета) и внешнего интерфейса шины, контролируется паритет шины адреса.

· Введена возможность построения функционально избыточной двухпроцессорной системы.

· Реализован интерфейс построения двухпроцессорных систем с симметричной архитектурой (начиная со второго поколения Pentium).

· Введены средства управления энергопотреблением.

· Применена конвейерная адресация шинных циклов.

· Сокращено время (количество тактов) выполнения инструкций.

· Введена трассировка инструкций и мониторинг производительности.

· Расширены возможности виртуального режима - введена виртуализация флага прерываний.

· Введена возможность оперирования страницами размером 4 Мб (вместо 4 Кб) в режиме страничной переадресации (Paging).

Все Pentium-процессоры имеют средства SMM, возможности которых расширялись по мере появления новых моделей.

Pentium II/III

Семейство P6/6x86, первые представители появились в мае 1997 г. Семейство этих процессоров объединяет под общим именем процессоры, предназначенные для разных сегментов рынка: Pentium II (Klamath, Deschutes, Katmai) – для массового рынка ПК среднего уровня, Celeron (Covington, Mendocino, Dixon и т.д.) – для недорогих компьютеров, Xeon (Xeon, Tanner, Cascades и т.д.) – для высокопроизводительных серверов и рабочих станций. Имеет модификации для Slot 1, Slot 2, Socket 370, а также соответствующие варианты для мобильных компьютеров.

Katmai

Katmai – наименование ядра (сентябрь 1999 г.) процессоров Pentium III, пришедшего на смену Deschutes. Добавлен блок SSE (Streaming SIMD Extensions), расширен набор команд MMX, усовершенствован механизм потокового доступа к памяти. Техпроцесс – 0,25 мкм, тактовая частота – 450-600 МГц, кэш-память L2, размещенная на процессорной плате, – 512 Кбайт. Частота шины – 100 МГц, но в связи с задержкой Coppermine были выпущены модели 533 и 600 МГц, рассчитанные на частоту шины процессора 133 МГц.


Страница: