блог alexanius'а

Переезд

2020-09-11T22:00:00.001+02:00

Итак, ~~фирма~~ блог переезжает.

Теперь я обзавёлся собственным сайтом alexanius.ru, все новые публикации будут появляться там, все старые по мере возможности обновляться и переноситься.

Межъязыковые тесты производительности

2019-12-22T17:29:00.001+02:00

Недавно попался на глаза сайт, идеей которого является сравнение производительности разных языков. Посмотрел на этот сайт и решил подумать над тем какие вообще есть подобные проекты, какие у них проблемы и как вообще следовало бы делать измерения производительности.
Для начала надо сказать что задача измерения производительности вычислительной системы довольно сложная, справляются с ней очень немногие. Если говорить именно про производительность центрального процессора (или компиляторов языка Си), но лучше пакета тестов SPEC я ничего не видел.

Если производительность оценивается на основе одного-двух тестов, тем более без перекомпиляции, то к производительности этот тест никакого отношения не имеет. Тут можно было бы упомянуть, например, тесты 7zip, которые таки интересные, но надо понимать что измеряют они только скорость конкретного алгоритма.

Но вернёмся к Benchmark Game. Мне очень понравился подход автора, который заключается в следующем: берём какой-то алгоритм, пишем его решение на соответствующем языке, сравниваем время работы получившейся программы с реализациями алгоритма на других яхыках. Однако в данном проекте есть проблемы, которые не позволяют сделать реальную оценку производительности ни языков, ни компиляторов, ни процессоров.

Во-первых каждый тест умещается в один файл, более того в одну процедуру. Т.е. мы сразу теряем возможность оценки работы оптимизатора и скорости вызова разных процедур. Более того, в тестах не предоставляется неоптимизированный вариант что сужает нашу картину.

Во-вторых все тесты очень короткие. Они исполняются по нескольку секунд, а на таком времени любой случайный выброс будет давать погрешность в десятки процентов. Нормальный тест должен проходить хотя бы несколько сотен секунд чтобы уменьшить данный эффект.

В-третьих в тестах нет разделения на однопоточный/монгопоточный режим. Это ещё больше сужает наше видение относительной скорости системы.

Кажется были ещё какие-то идеи касательно этого проекта, но сейчас я уже немножко про них подзабыл. Я смог найти несколько схожих проектов (хотя их довольно мало). Во-первых это старый проект, из которого вырос benchmark game: Great Language Shootout. Это был проектик, изначально замерявший скорость скриптовых языков. Что довольно интересно, хотя и имеет не так много смысла (жаль что в актуальном проекте их нет just for fun).

Ещё из крупных пузомерок можно назвать проект Web Framework Benchmarks с довольно говорящим названием. Но в нём измеряется преимущественно скорость веб-фреймворков, уж не знаю на сколько качественно - я в них совершенно не разбираюсь.

Есть ещё один интересный любительский проектик от некоего Кости. В нём неплохая подборка языков, но он нацелен не на поиск самого быстрого языка, а на сравнительный анализ программ, написанных "средним разработчиком" (полагаю автор имел ввиду себя). Тестовых задания в проекте немного, но много реализаций на разных языках. Особенно понравилось сравнение скорости реализации языка Brainfuck. У автора явно имеется неплохое чувство юмора.

Если у кого-либо есть ещё ссылки на аналогичные интересные проекты - буду рад услышать.

А теперь подумаю над тем как бы я видел проект по измерению скорости работы различных языков.

1. В таком проекте должно быть множество тестов, направленных на измерение различных аспектов современных программ. Должны быть тесты на различные типы вычислений, на работу с памятью, на работу с большим количеством вызовов и т.п. Т.е. покрыто максимально большое количество областей применений языка программирования. Причём очень желательно чтобы со временем тесты пополнялись актуальными для данного времени задачами.

2. Мне очень нравится соревновательная идея, поэтому для каждого теста должно быть хорошо описанное задание и набор тестов. Причём должен быть определённый эталон, из которого можно понять как следует реализовывать данный алгоритм.

3. Время работы теста должно быть достаточно большим - для замеров важно чтобы выбросы +/- 2 секунды не влияли на итоговый результат. Вообще, каждый тест следует запускать по нескольку раз и брать минимальное значение (мы же ведь наилучший случай ищем).

4. Измерение времени должно быть точным: нужно предоставлять sys,user,real время для каждого запуска. Заодно позволит проверить корректность замера.

5. Программы должны быть корректными: тестовые данные должны быть разнообразными, программа должна уметь с ними работать. В идеале каждая программа должна быть оттестирована различными способами, не только на заранее известных входных данных. Более того, каждая программа должна соответствовать стандарту (привет -Wall -Werror для C/C++).

6. Программы следует измерять в различных режимах. Во-первых, как я уже упоминал, следует отдельно держать тесты для однопоточной и многопоточной реализации. Кроме того, следует иметь отдельные измерения для базового (т.е. без компиляторных оптимизаций) и пикового (т.е. со специально подобранными опциями) режимов.

7. В результатах следует указывать характеристики машины, на которой всё запускалось. Т.е. нужно знать архитектуру, микроархитектуру, свойства памяти, версию ядра, версию компилятора, вообще всё что может хоть как-то влиять на результаты.

8. Для каждого процессора более оптимальной может быть своя версия реализации алгоритма. Более того, существует практика подбора специальных библиотек для накрутки результата (привет, jmalloc, которым на спеках результат накручивают). Для тестов SPEC мне это кажется не особо честным, но в случае соревонавания по получению наиболее быстрой программы сойдёт.

9. Сложность реализации каждого теста. Это очень большой вопрос, т.к. простые тесты не дают понимания реальной производительности, а сложные тесты на разных языках никто не будет поддерживать. Так что я понимаю почему в benchmark game был выбран именно такой подход.

Это всё мысли, которые приходят при беглом анализе существующих бенчмарков. Даже из них можно видеть что это очень сложная задача, которая не поднимается одиночками, а хорошие наборы стоят тысячи долларов. В то же время, эти (и многое другие вещи) стоит помнить когда кто-то пытается рассуждать о том что язык X быстрее языка Y.

Обновление:

В обсуждения принесло ссылку на весьма занятный проект "Розетского камня" для языков программирования. Хотя там не делается замеров, но объясняется как на каждом языке программирования реализовать ту или иную конструкцию. В общем, мне понравилось.

Answer to "Is software prefetching (__builtin_prefetch) useful for performance?"

2018-05-02T17:45:00.000+02:00

Recently I've read a short note where an author tells that software prefetch is useless for performance. I think that it would be interesting to listen to another point of view.
First of all let's say a few words about software prefetch itself. Prefetch is an instruction in modern processor that makes possible to load data from given address into cache. That is done before some read/write access to eliminate memory latency during the effective access. Prefetch may be hardware or software. In the current note we will speak about software prefetch.

The first thing that should be said about prefetch is that it mainly should be filled in by a compiler. This proposition grows up from the principal of its work. The success of prefetch optimization depends on the guess about the time when the data is needed by a program. If we insert prefetch too early, the data by the address will not be in the cache. If we insert prefetch too late the given cache line will be useless for us. The exact time of the prefetch instruction strongly depends on the target hardware memory system and it is not very portable.

Even for a compiler it may be difficult to find a good place for a prefetch. So there is a builtin to make available to insert prefetch by hand.

Now let us see a loop that we are going to make faster with prefetch (code on github):

    for(int i = 0; i < ARR_SIZE; i+= unroll)

    {   

        res += data[i] * A * B + C - D * E;

        res += data[i + 1] * A * B + C - D * E;

    }

We can see that this is simple loop counting some kind of sum of all elements of an array. It is unrolled with factor 2 by hand to make good effect for prefetch. In normal case this is the work for a compiler to find optimal combination of optimizations with a prefetch instruction. Our prefetch version is:

    int interval = 32;



    for(int i = 0; i < ARR_SIZE; i+= unroll)

    {

        __builtin_prefetch(&data[i + interval], 0, 0);

        res += data[i] * A * B + C - D * E;

        res += data[i + 1] * A * B + C - D * E;

    }

In this version we see a regular prefetch of an element that will be used only after 32 iterations of a loop. This is heuristic value and of course you should not do this in real application. But my aim was to make a simple example were prefetch speed ups a program.

So let us see the geometrical mean of five launches of two versions of loops. The launches are made by the line: gcc regular_load.c && taskset -c 1 ./a.out && gcc -DPREF regular_load.c && taskset -c 1 ./a.out. The mean results:

Simple	3.9906
Prefetch	3.9372

Let us see what happens with cache:

$ gcc regular_load.c && perf stat -B -e cache-misses,cache-references ./a.out 

Simple start

Simple seconds: 3.935150



 Performance counter stats for './a.out':



       111 588 965      cache-misses:u            #   71,735 % of all cache refs    

       155 557 440      cache-references:u                                          



       6,468928214 seconds time elapsed

$ gcc -DPREF regular_load.c && perf stat -B -e cache-misses,cache-references ./a.out 
Prefetch start
Prefetch seconds: 3.962791

 Performance counter stats for './a.out':

        71 325 602      cache-misses:u            #   29,053 % of all cache refs    
       245 499 956      cache-references:u                                          

       6,456740799 seconds time elapsed

We can see that prefetch allowed us to decrease cache misses from 71.735% to 29.053%. The performance improvement is 1.36%. We can say this is not a very good result and we will be right. The main problem is that prefetch itself takes time for execution. A good solution for that case will be the asynchronous array access unit as it was implemented in the Elbrus processors.

The other case when prefetch may be useful is loads by non-regular addresses for example in recursive structures as lists or trees. May be I will write about it later.

Выступил в SDCast

2017-10-13T00:45:00.000+02:00

Недавно поучаствовал в двух выпусках подкаста SDCast. Если кто не в курсе, подкаст - это что-то вроде радиопередачи, только по интернету :)

Первый выпуск прошёл совместно с интересными коллегами из Интела - Александром Титовым и Амиром Аюповым. Выпуск получился очень интересным, разделённым на два больших тематических блока. Сначала по большей части ребята рассказывали про актуальное развитие аппаратуры, а во второй половине обсудили состояние образование в сфере ИТ (благо и я и Александр являемся действующими преподавателями).

Второй выпуск прошёл только со мной, я рассказывал истории из жизни, немного про МЦСТ, немного про Эльбрус, немного про компиляторы.

В общем, надеюсь, что получилось интересно, слушайте и подписывайтесь на SDCast, потому как это, наверное, один из наиболее интересных подкастов в русскоязычном сегменте. Отдельное спасибо автору подкаста - Константину Буркалёву за предоставленную возможность и вообще интересный проект :)

Как бы я изменил язык Си в 2017 году

2017-01-14T19:51:00.000+02:00

В этом посте мне хотелось бы порассуждать на тему того что я бы поменял/убрал/добавил в язык Си. Си является моим основным языком, более того уже больше 4 лет я занимаюсь разработкой оптимизирующего компилятора Си, который пишется на Си. За это время у меня накопились некоторые мысли на тему того что должен и чего не должен современный язык, какие проблемы есть в Си, как их можно было бы решить.

Введение

Для начала объясню чем мне нравится Си - он простой, предсказуемый, быстрый язык, который позволяет взять и сделать то что тебе нужно. Если писать по стандарту, то вероятность огрести неадекватную плоходиагностируемую проблему мала. Но к сожалению, Си позволяет писать не по стандарту, что приводит к большому количеству проблем. Более того некоторые пункты стандарта написаны не лучшим образом, некоторые его пункты не отвечают современным требованиям. Поэтому мне хотелось бы сохранить простоту и скорость языка, устранив из него устаревшие или неправильные на мой взгляд моменты. Возможно при этом добавить ещё несколько простых возможностей.

Сначала пройдёмся по уже существующим возможностям. Чтобы упростить чтение подчёркиванием я выделил основной вердикт по тому или иному пункту.

Убрать или изменить

Преобразование указателя в целое и наоборот

Начнём с не самого очевидного пункта, но от него надо избавиться вообще полностью. Почему это вдруг мешает? Во-первых результат таких действий implementation-defined, т.е. зависит от реализации компилятора. Здесь очень хорошо расписано к чему могут приводить такие операции. Есть ещё одна вещь, о которой почти никто не задумывается - потеря информации о типе указателя. В Эльбрусе, например, существует аппаратная возможность контроля типов, но такое приведение указателя полностью перечёркивает её.

Приведение типов указателей

Это очень частый источник ошибок, которые игнорируются программистами. Кратко: в Си нельзя к переменной типа int обращаться через указатель типа float:

int i;

float * f = (float *) &i;

*f = 5.0; // Undefined behaviour

К сожалению мало того что компилятор позволяет творить такое безобразие, его ещё часто используют на практике. От него надо также полностью избавиться.

Более сложная проблема - указатели на void и char. От них также необходимо избавиться, но на данный момент я не понимаю получится ли сделать это без противоречий к последующим пунктам того что я хочу.

Неявные приведения типов

Неявные приведения типов необходимо полностью запретить. Они служат источником неочевидностей и ошибок. На всякий случай - описание правил приведения типов в Си: вот и вот. Я хочу видеть статический строго типизированный язык, это позволит устранить ошибки и ускорить исполнение.

Синтаксис typedef

На данный момент он ужасен. Как только нам надо сделать alias для указателя на функцию жизнь превращается в боль. Сейчас это выглядит примерно так:

typedef void (*SignalHandler)(int);

Каждый раз приходится вспоминать что как и за чем следует. На мой взгляд подобный синтаксис должен быть примерно таким:

alias SignalHandler = * (void)(int);

Также я уже писал про проблемы с typedef и const, это ещё один пример совершенно безумного синтаксиса, и его нужно переделать.

void в сигнатуре функции

Сейчас если функция не содержит аргументов, то необходимо писать void в её сигнатуре, иначе компилятор будет считать что это K&R стиль и множество оптимизаций от неё тупо отвалят:

int foo() {return 1;} // K&R - плохо

int bar(void) {return 1} // Си - хорошо

Это историческое наследие, от которого давно пора избавиться.

Прототипы функций

С ними ситуация тоже сложная. К сожалению в некоторых случаях Си позволяет использовать функции без прототипа, достраивая его самостоятельно. Я уже писал про проблемы, к которым это приводит. Как минимум нужно всегда обязывать писать прототипы функций. Но я бы пошёл дальше и вообще запретил бы их :) Ниже будет понятно почему, если в кратце, то компилятор должен видеть всю компилируемую программу, соответственно всегда должна быть видна реализация функции.

Проблемы с enum

Ещё один источник проблем - то что enum не является отдельным типом. На самом деле это int, что тоже приводит к ошибкам. В частности, есть возможность присвоения типа int объекту типа enum, и, что ещё хуже, есть возможность присвоения значения объекта одного enum'а объекту другого enum'а. Такие вещи должны быть запрещены. Сам enum - самостоятельный тип со всеми вытекающими.

Signed и unsigned типы

Есть с ними интересная проблема. Так по стандарту signed int не может переполняться, значит компилятор всегда подразумевает что поведение таких переменных предсказуемо и всегда справедливо неравенство: (i+1) > i. С unsigned всё не так, и мы не можем исходить из такого предположения. Это не позволяет применяться некоторым оптимизациям. Сейчас мне видится что их поведение должно быть унифицировано и переполнения должны быть исключены.

Массивы переменной длины (vla)

В c99 были введены variable length arrays - массивы переменной длины. Это объект, память под который выделяется на стеке, но при этом его размер неизвестен во время компиляции. Особо много проблем они доставляют если помещать их в середине структуры (непонятно как считать её размер, как вообще это обрабатывать). Да и просто работа оптимизаций с ним крайне затруднительна. В нормальном языке VLA быть не должно.

union

Тоже очень больная тема для Си. Для них стандарт прописан очень криво и муторно, основная проблема с ними в том что в одной области памяти могут лежать данные разных типов, и во время компиляции мы не знаем конкретный тип на данный момент. Совсем кошмар начинается если на union внезапно берут указатель (а ещё хуже если на его поле). Тогда компилятор полностью теряет возможность отслеживать происходящее. У меня есть понимание что union'ы нужны, но пока нет понимания как их грамотно сделать.

Глобалы

Глобалы нужно запретить. Никаких extern int. Самое глобальное что только можно делать - static объекты, которые видны только внутри модуля. Если кому-то понадобится прочитать/записать глобальное значение, то это очень легко реализуется через extern функции, меняющие static объект.

Арифметика указателей

Тоже довольно интересный момент. Она даёт большую гибкость в работе с памятью, но в реальности выливается в совершенно уродливое хаккерство, нарушающее стандарт и убивающее переносимость. Для всех объектов и типов (кроме, возможно char) её следует запретить.

Конструкция switch

Сейчас она ужасна и приводит к ошибкам, её нужно полностью переделать. Во-первых каждый case должен быть отдельным лексическим блоком, окончанием которого должен быть break. Во-вторых имеет смысл добавить нормальный синтаксис для перечисления диапазонов значений switch. Нужно всегда явно требовать default ветки.

inline

Убрать. Сейчас компиляторы всё равно по дефолту игнорируют это ключевое слово. В реальности же программист сам не может знать нужно делать подстановку функции или нет, часто это приводит к деградациям. Этим вопросом должен заведовать компилятор. Также неплохо бы избавиться от других устаревших ключевых слов (register, auto и т.п.).

Макросы

С ними тоже очень неоднозначная ситуация. Макросы очень полезны для условной компиляции, поэтому в том или ином виде я бы оставил #ifdef и #if. Я бы полностью избавился от #include. Ещё необходимо полностью запретить конкатенацию макросов - генерация имени функции в compile time это сущий ад, за такое хочется убивать. Далее #define. С одной стороны он позволяет делать функции высшего порядка. Например мы в качестве аргумента можем подавать участки кода:

#define debug(actions) \
{ \
    if ( enablePrint ) \
    { \
        actions; \
    } \
}

С другой - она является источником ошибок. Не являясь конструкцией языка, она не делает проверку типов своих аргументов, здесь довольно много пунктов как с ними следует обращаться. Поэтому я скорее склоняюсь к тому что #define необходимо убрать.

goto, longjump

Убрать. Я знаю что есть техники, в которых goto может быть красив и полезен. Но это не отменяет вреда от его использования. Более того я знаю что есть техники где без longjump не обойтись, но всё же он доставляет больше проблем, а места его использования следует переписать.

Система сборки

Текущая система сборки Си не отвечает современным требованиям. В Си есть "единица трансляции" - один модуль, т.е. .c файл. Компилятор генерирует из них объектный файл, потом линкует. Такая схема приводит к множеству проблем. Про проблемы с сигнатурами функций я уже писал, более того это приводит к зависимости от порядка линковки! Ну и как бонус - такая система не позволяет делать межмодульные оптимизации, что не позволяет нормально оптимизировать программы. Современный компилятор для современного языка должен собирать всё в режиме "вся программа". Это более продвинутая (и более сложная) техника чем lto, но только так можно обеспечить качественные и быстрые приложения. Тут есть проблемы с библиотеками (особенно подключением динамических библиотек), пока что я не знаю как их разрешить.

One Definition Rule

Как следствие из предыдущего пункта в языке должен действовать ODR. Это правило есть в C++, оно говорит о том что в лексическом блоке одному имени может соответствовать только одна реализация класса. Это правило должно быть обязательно.

static

На данный момент все переменные вне функций и сами функции неявно считаются extern'ами, т.е. видны другим модулям. По умолчанию функции должны быть static, глобалы вообще могут быть только static.

Подсказки компилятору

Сейчас подобные вещи реализиуютсячерез #pragma или через __attribute__. Я бы убрал оба варианта и сделал унифицированный способ подачи метаинформации. Пока сложно сказать как это должно выглядеть, потому как метаинформация может быть нужна для типов, для объектов, для синтаксических конструкций.

Unspecified и Implementation-defined behavior

В Си существует три типа неопределённого поведения: unspecified, implementation-defined и undefined. Первые два типа я бы убрал полностью. Если же компилятор может статически доказать undeifned behavior, программа не должна собираться.

Добавить

Выше были пункты, которые я бы убрал/переделал. А теперь хотелось бы показать то что я в язык добавил бы. Некоторые пункты можно легко добавить без накладных расходов на реализацию и изменения концептов языка, некоторые могут противоречить моим требованиям, поэтому я не уверен на сколько их стоит добавлять.

JIT

Под jit может подразумеваться несколько вещей, поэтому поясню. Во-первых мне кажется интересной возможность выполнить eval в языке. Т.е. скомпилировать строку прямо во время исполнения и обращаться к фунциям и неё. Ещё одной возможностью является перекомпиляция функций если во время исполнения выясняется что они были соптимизированы неоптимально. Это довольно сложная фича и у меня пока нет понимания возможно ли её реализовать "малой кровью", т.е. без переноса исполнения в виртуальную машину.

Обобщённые функции

В Си есть некоторые проблемы с полиморфизмом. Наименьшая - его отсутствие, но она тянет все другие. Разделим проблему на две части. Первая - это полиморфизм по отношению к вложенным структурам. На самом деле его можно делать на вполне законных основаниях (тут strict-aliasing нарушаться не будет), но т.к. я хочу запретить адресную арифметику, с этим будут проблемы. Вторая проблема - каждый тип данных требует реализации отдельной функции, например если мы делаем список, то у нас будет отдельная функция для добавления целого, отдельная для плавающего и т.д.

Это заставляет задумать о механизме обобщённых функций (или перегрузке), которые избавят нас от всех этих проблем. Но тут возникнет другая сложность - я хочу избежать манглирования. Основная идея в том что имя функции из дизассемблера должно легко находиться в исходнике. Поэтому перед введением такой вкусной фичи надо много думать и хорошенько всё взвесить.

Классы

Большие и сложные проекты на Си в любом случае сводятся к написанию собственной системы объектов и классов, иногда даже с наследованием. Такие вещи хотелось бы иметь из коробки. Т.е. как минимум хотелось бы уметь создавать методы объектов, конструкторы/деструктры. Но методы опять же усложняют язык, что противоречит моей изначальной цели. Поэтому тут тоже следует всё хорошенько обдумать.

Параметры по умолчанию, именованные параметры

Очень полезным было бы добавление в функцию параметров по умолчанию и именованных параметров. По идее это не должно сильно усложнять компилятор и язык, но при этом является весьма полезной возможностью.

Инициализация полей структуры

Хотелось бы иметь возможность делать так:

typedef struct {

int a = 1;

float b = 2.0;

} MyStruct_t;

Неизменяемые поля

Хочется уметь навешивать признак immutable на поля структуры, чтобы показать что они не будут меняться в течении работы программы. Вообще это некоторого рода синтаксический сахар, но иметь такою возможность было бы полезно, благо её легко поддержать в оптимизаторе.

Вложенные комментарии

Можно спокойно жить и без них, но мне кажется это было бы удобно.

Многострочные строки

В python есть отличная возможность создавать много строчные литералы:

"""

текст

текст

текст

"""

Хотелось бы иметь такою же возможность в своём языке.

Синтаксис для регулярных выражений

В C++11 был добавлен специальный синтаксис для описания регулярных выражений:

regex integer("(\\+|-)?[[:digit:]]+");

В он был бы крайне полезен.

Заключение

В этом посте я поразмышлял над тем каким я хотел бы видеть Си, что поменял бы в нём. Это очень субъективный пост, на которой во многом повлияло то что я занимаюсь разработкой компилятора. Когда я только начинал думать на этот счёт, казалось что я получу просто более строгий Си, но в реальности получается принципиально другой язык.

Эльбрусы: информационное поле и пропаганда

2016-07-16T21:16:00.000+02:00

Сегодня будет несколько необычный пост для моего технического бложика. В комментах недавнего поста где развели очередное трололо про Эльбрус, я пообещал одному уважаемому Анониму ответить на его высказывание отдельным постом. Господа тролли, это пост для вас!

Для начала приведу два его комментария.

Первый:

Скажите, а можно объяснить постоянные теоретические рассуждения тем, что проект Эльбруса представлен как теоретический проект в основном в виде каких-то ссылок на результаты, полученные где-то. А возможно ли такое, что если Эльбрус станет доступен практически, то количество теоретических рассуждений будет уменьшаться?

Если Эльбрус изначально задуман, как проект для военных и для "узкого круга ограниченных людей", то зачем тогда о нем писать в технических новостях общего назначения?

Конкретной ссылке в интернете доверять нельзя, оценку делать можно статистикой. Почему 80% ссылок на Эльбрус негативные, а только 20% - позитивные. В чем тут может быть проблема?
...

Второй:

Да, есть много других политических блогов, на которых ничего не узнаешь. Пишу тут, потому что хочется узнать из первых рук мнение профи, кто пишет на ассемблере под эльбрус. Давайте, чтобы было все в порядке, я буду спрашивать общий вопрос и сразу что-то по ассемблеру. (Если так плохо, то напишите, чтобы я больше не писал вообще, и я больше писать не буду).
Однажды к Путину на передачу Ярмольник привел Шевчука из ДДТ. Шевчук спросил Путина, почему все так плохо. В ответ получил, что не надо все уравнивать, были отдельные частные хорошие случаи, про которые не надо забывать, и начал их перечислять в качестве ответа. У Вас ответы очень похожие - на вопрос о тенденции, Вы отвечаете перечислениями частных случаев, которые не меняют этой тенденции. (80% случаев - это тенденция :)
...

Вообще с определённого момента я стал отслеживать информационное поле вокруг процессоров Эльбрус и кажется пришло время поделиться моими наблюдениями. Но для начала выделим тезисы, высказанные Анонимом:

Множественные рассуждения про Эльбрус не имеют под собой фактов т.к. Эльбрус, он как бы есть, но его как бы и нет.
Возможно ли уменьшение количества теоретических рассуждений при более массовой доступности Эльбруса?
Если Эльбрус изначально задуман, как проект для военных и для "узкого круга ограниченных людей", то зачем тогда о нем писать в технических новостях общего назначения?
80% ссылок на Эльбрус негативные, а 20% - позитивные. Т.е. статистически можно считать проект Эльбруса неудачным. Справедливо ли данное высказывание и как это можно объяснить?
Мои ответы сводятся к перечислению отдельных хороших частных случаев но статистически их довольно мало.

Начнём с первого тезиса. Конечно же он в корне неверен. Для начала давайте оговоримся что мы рассматриваем процессоры с архитектурой e2k, т.к. процессоры серии R, основанные на Sparc v9, используются преимущественно военными ставить под сомнение их существование странно. Итак, у нас есть процессоры Эльбрус-2С+, Эльбрус-2СМ и Эльбрус-4С. Новостей о данных процессорах предостаточно в совершенно различных источниках: например известный обзор от CNews, Интерфакс, Лента, даже, прости, Господи, Медуза, внезапно не облившая всё потоком фекалий. Более того, МЦСТ постоянно участвует в различных выставках микроэлектроники где любой желающий может подойти и поиграться с машинами. Более того можно попробовать написать в МЦСТ и попросить удалённый доступ к машине. Я уже не говорю о том что они доступны любому студенту ФРТК кафедры системного программирования. В последнее время стали появляться очень интересные статьи от пользователей Эльбруса, и от людей, которые вообще никак с МЦСТ не связаны.

Т.е. видно что доступ к машинам имеет довольно широкий круг людей. Но зачем заниматься проверкой фактов, попыткой получить доступ к машине или поиском людей, которые хоть немного в курсе происходящего? Легче просто полить говном, обычно даже не читая статью (с.м. комменты к почти любым статьям в социальных сетях). В общем если кто-то сомневается в существовании Эльбрусов могу только порекомендовать носить шапочку из фольги.

Надеюсь что ответ на первый тезис дан. Теперь перейдём ко второму.

Я думаю что сразу после этого в интернете окажется поток совершенно технически неграмотных статей в стиле "оно тормозит", "не смог поставить винду", "ааа, там не проигрывается flash", "почему там не запускается Crysis". Рассмотрим даже вполне адекватный случай - человек взял какой-нибудь бенчмарк типа UnixBench, он покажет плохие результаты и вроде как это даже следствие объективного замера. Но есть одно "но". Тесты из данного бенчмарка устарели и для современных машин не подходят в принципе. Вообще сравнение производительности это довольно сложная тема, в которой нужно понимать что именно и как замеряется. Обычно люди совершенно не представляют что такое VLIW и какую роль в нём играет оптимизирующий компилятор, и, как следствие, качественный код.

В общем я думаю что при массовом распространении Эльбрусов поток мифотворчества только увеличится, а грамотные статьи будут тонуть в потоке негатива.

Переходим к третьему тезису.

Сначала автор жалуется на малое количество информации по теме, а потом задаётся вопросом "а зачем мне эта информация"? Уж как-то определиться надо :) Вопрос "зачем тогда о нем писать в технических новостях общего назначения" особенно шикарен, т.к. само МЦСТ этим практически не занимается. Т.е. о фактах внедрения данного процессора пишут либо СМИ, либо непосредственно пользователи. Так что рекомендую задать вопрос именно им :)

Четвёртый тезис.

Во-первых мне не очень понятно как именно автор вывел данные цифры (даже если это просто условные цифры для того чтобы показать общие настроения). Большинство новостей которые я периодически читаю - это просто обычные сообщения от СМИ про выход той или иной модели, заключение какого-то контракта и т.п. которые совершенно нейтральны. Есть различные технические новостные ленты, в которых проскальзывают новости про Эльбрус. Обычно они тоже крайне нейтральны, например вот, вот, или вот (в поисковиках дофига таких ссылок).

Далее есть статьи в бложиках. Это могут быть либо отчёты с каких-нибудь конференций (уже приводил), либо собственные мысли авторов. Совершенно разные мысли. Постов от людей, тестировавших реальные Эльбрусы я не припомню. Вообще тут сложно судить об общем настроении постов, оно довольно разное. Плюс ещё встаёт вопрос выборки, ведь если включать сайт "Сделано у нас", то можно сильно повлиять на результаты.

Ну и чаще всего упоминания Эльбрусов можно встретить в комментах. В комментах действительно открывается портал в ад. На нетехнических ресурсах их читать смысла вообще не имеет, т.к. понабежит толпа креаклов и расскажет про откаты и распилы. На технических ресурсах читать комменты... тоже смысла не имеет, но там могут попадаться люди, которые непосредственно работают с Эльбрусами, и их комментарии резко выделяются на фоне остальных "почему стоит так дорого, но медленней чем Atom".

Т.о. что мы видим. Характер сообщений очень зависит от типа сообщения (СМИ, блоги, комменты). Сообщения из класса блогов и комментов очень зависят от компетенции автора и от того имел ли он дела с реальным Эльбрусом. Опираться на мнение людей, которые не имеют никакого представления о теме я смысла не вижу, а остальных можно по пальцам пересчитать.

И теперь пятый тезис.

Собственно ответ на пятый тезис следует из четвёртого. Я привожу примеры статей от людей, которые либо понимают в теме, либо имели возможность реально протестировать данные машины. Даже к ним у меня могут быть определённые замечания по методике исследований, но там хотя бы можно вести предметный разговор.

Это то что касается моего ответа на коммент. А теперь пару интересных собственных наблюдений.

Иногда я натыкаюсь на самую настоящую пропаганду. К сожалению не нашёл статью 2014 или 2015 года про ноутбук и жёсткий диск, но от каклов была целая волна смешков по этому поводу. Но нет ссылки - нет и разговора. Из недавних поступлений - такая статья или вот этот весьма забавный товарищ. Это примеры политической пропаганды. Кому и зачем она нужна оставим за рамками поста. Из этих примеров видно что авторы ради приличия почитали википедию чтобы совсем уж идиотами не казаться (однако не особо помогает). Но определённые ляпы их всё равно выдают. Основная задача таких деятелей - влияние на людей, незнакомых с предметом и вкладывание в их умы мысли о том что всё плохо, что у России нет микроэлектронной промышленности и что надо срочно выходить на улицы. Ещё частенько вспыхивают всякие фейки про ноутбуки и т.п., но их рассматривать вообще не за чем.

Помимо специальных политических троллей есть просто разные каклы-балаболы. В целом посыл их статей схож с политической пропагандой, но не думаю что им платят деньги непосредственно за такую подачу материала. Скорей всего это просто работа на свою целевую аудиторию (что не исключает того что они могут сами верить в то что пишут).

Ещё есть идеологические противники импортозамещения. Что движет ими я сказать не могу, но тут есть хороший пример того как умные дяденьки сидят и уже много лет в рабочее время троллят на форуме. Интересно то что у них нет возможности оценить актуальное состояние Эльбрусов, но трололо всё ещё продолжается.

В общем что я могу сказать по всему этому... Ищите информацию в достоверных источниках, а не у анонимных аналитиков или журналистов.

А вообще у меня идея - кидайте мне в комменты статьи про Эльбрусы, а я через какое-то время сделаю подборку и классификацию. ~~Это очень поможет когда придёт приказ 66.~~

Управляющие конструкции в ассемблере

2016-06-30T14:08:00.000+02:00

Первый урок по ассемблеру состоял из обычного вывода сообщения. Теперь давайте посмотрим на управляющие конструкции.

Содержание:

1. Введение

Итак, сформулируем задание: написать программу, сравнивающую два числа. Если первое число больше, программа выводит "gt", если равно - "eq", если меньше - "le".

На Си программа выглядит следующим образом:


#include <stdio.h>

int a, b;




int main()

{

    scanf("%d%d", &a, &b);



    if( a > b )

        printf("gt\n");

    else if( a == b )

        printf("eq\n");

    else

        printf("le\n");



    return 0;

}

Сборка и запуск:


$ gcc comp.c -o comp

$ ./comp 

3 4

le

$ ./comp 

3

3

eq

$ ./comp

4 3

gt

Здесь мы уже используем стандартную библиотеку чтобы не возиться с системными вызовами. Использование глобальных переменных сделано специально (чтобы пока не объяснять работу со стеком).

Теперь посмотрим как эту программу писать на ассемблерах.

2. amd64

Программа писалась для процессора Core i5, ОС Gentoo GNU/Linux, синтаксис AT&T.


.section .data
    scanf_str:
        .string "%d%d\0"
    gt_str:
        .string "gt\n

\0"
    eq_str:
        .string "eq\n

\0"
    le_str:
        .string "le\n

\0"


.section .bss
    .lcomm a, 32
    .lcomm b, 32

.section .text
    .globl _start

_start:

    # Считываем два числа
    mov $scanf_str, %rdi # Первый аргумент - форматная строка
    mov $a, %rsi         # Второй аргумент - адрес первого числа
    mov $b, %rdx         # Третий аргумент - адрес второго числа
    call scanf           # Вызов scanf

    # Кладём считанные сравнения на регистры
    mov a, %rax
    mov b, %rbx

    # Сравниваем значения регистров
    cmp %rbx, %rax

    jg .print_gt # Если больше, то идём на участок, печатающий "gt"
    je .print_eq # Если равно, то идём на участок, печатающий "eq"

    # Если переходов не было, то печатаем "le"
    mov $le_str, %rdi
    call printf

    # Теперь безусловно идём на выход
    jmp .exit

.print_gt:
    mov $gt_str, %rdi
    call printf
    jmp .exit

.print_eq:
    mov $eq_str, %rdi
    call printf

# Здесь выходим из программы
.exit:
    mov $60, %rax
    mov $0, %rdi
    syscall

Сборка и запуск:


$ as t.s -o t.o && ld t.o -o a.out -lc --dynamic-linker /lib/ld-2.23.so

$ ./a.out

3 4

le

$ ./a.out

3

3

eq

$ ./a.out

4 3

gt

Видно, что теперь к сборке добавились опции -lc --dynamic-linker /lib/ld-2.23.so. Опция -lc говорит о том, что нам надо линковаться с libc.a (стандартная библиотека), --dynamic-linker задаёт конкретный бинарник динамического линковщика.

Теперь посмотрим на новые элементы в исходном коде. Во-первых мы задействовали секцию .bss. В ней хранятся статические переменные (т.е. локальные для данного модуля).

Операция .lcomm symbol, length является псевдо операцией. Она резервирует length байт для локальной переменной, обозначаемой symbol. Т.о. мы выделили память для двух локальных переменных, в которые будем записывать результаты scanf.

Теперь немного про код, вызывающий scanf. Сейчас мы используем передачу аргументов через регистры. В соответствии с соглашениями [amd64abi] для передачи аргументов используются следующие регистры:

rdi - первый аргумент
rsi - второй аргумент
rdx - третий аргумент
rcx - четвёртый аргумент
r8 - пятый аргумент
r9 - шестой аргумент

Последующие аргументы передаются через стек.

Далее рассмотрим инструкцию cmp. Она вычисляет разницу между двумя целочисленными операндами и в зависимости от результата обновляет один из следующих флагов: OF, SF, ZF, AF, PF, CF.

Немного про данные флаги. В процессоре Intel существует специальный регистр EFLAGS, содержащий группу статусных флагов, флаг управления и группу системных флагов. Графически их можно представить так (взято из [intel1]):

Рассмотрим флаги, на которые влияет cmp:

OF - Overflow Flag (флаг переполнения). Выставляется если целочисленный результат - слишком большое положительное или слишком малое отрицательное число.
SF - Sign Flag (флаг знака). Выставляется если результат, являющийся знаковым целым отрицателен. Иначе равен нулю.
ZF - Zero Flag (флаг нуля). Устанавливается если результат равен нулю.
AF - Auxiliary Carry Flag (вспомогательный флаг переноса). Выставляется если произошёл перенос из третьего бита.
PF - Parity Flag (флаг чётности). Выставляется если самый младший байт результата содержит чётное количество битов, равных 1.
CF - Carry Flag (флаг переноса). Выставляется в случае переполнения unsigned арифметики

Операции jg и je являются операциями условного перехода. Они передают управление на указанный адрес в случае выполнения соответствующего условия. В случае его невыполнения, исполнение продолжается со следующей команды. Бывают следующие операции условного перехода:

Инструкция	Условие (Состояния флагов)	Описание
Беззнаковые условные переходы
`JA/JNBE`	(CF or ZF) = 0	Больше (>)
`JAE/JNB`	CF = 0	Больше или равно (>=)
`JB/JNAE`	CF = 1	Меньше (<)
`JBE/JNA`	(CF or ZF) = 1	Меньше или равно (<=)
`JC`	CF = 1	Взведён флаг переноса (Carry)
`JE/JZ`	ZF = 1	Равно/ноль (=)
`JNC`	CF = 0	Взведён флаг переноса (Carry)
`JNE/JNZ`	ZF = 0	Не равно/не ноль (!=)
`JNP/JPO`	PF = 0	Не взведён влаг чётности
`JP/JPE`	PF = 1	Взведён флаг чётности
`JCXZ`	CX = 0	Нулевой регистр CX
`JECXZ`	ECX = 0	Нулевой регистр ECX
Знаковые условные переходы
`JG/JNLE`	((SF xor OF) or ZF) = 0	Больше (>)
`JGE/JN`L	(SF xor OF) = 0	Больше или равно (>=)
`JL/JNGE`	(SF xor OF) = 1	Меньше (<)
`JLE/JNG`	((SF xor OF) or ZF) = 1	Меньше или равно (<=)
`JNO`	OF = 0	Нет переполнения
`JNS`	SF = 0	Не отрицательное
`JO`	OF = 1	Переполнение
`JS`	SF = 1	Отрицательное

Последней не рассмотренной инструкцией осталась jmp. Это безусловный переход. Он передаёт управление программы по указанному адресу не сохраняя адрес возврата. Адрес перехода может быть как относительным, так и абсолютным. В нашем случае мы прыгали по адресу метки, расположенной прямо перед участком кода, завершающим программу.

С версией для amd64 пожалуй всё, теперь посмотрим как условные переходы выглядят в других системах команд.

3. Sparc v9

Переходим к спарку. Тестовые машины те же - TI UltraSparc III+ (Cheetah+) с ОС Gentoo и Эльбрус R1000 c ОС Эльбрус. Переходим к примеру:

.section .data

  scanf_str:
    .ascii "%d%d\0"
  gt_str:
    .ascii "gt\n\0"
  eq_str:
    .ascii "eq\n\0"
  le_str:
    .ascii "le\n\0"

  .global _start

.section .bss
  .lcomm a, 32
  .lcomm b, 32

.section .text

_start:

  ! Готовим аргументы для scanf
  set scanf_str, %o0 ! Кладём адрес строки на регистр
  set a, %o1         ! Кладём адрес a на регистр
  set b, %o2         ! Кладём адрес b на регистр

  ! Вызываем scanf
  call scanf
  nop

  set a, %g1    ! Кладём адрес a на регистр
  ld [%g1], %g1 ! Загружаем значение, лежащее по адресу в регистре %g1

  set b, %g2    ! Кладём адрес b на регистр
  ld [%g2], %g2 ! Загружаем значение, лежащее по адресу в регистре %g2

  cmp %g1, %g2  ! Сравниваем значения

  bg .print_gt  ! Если больше, то переходим на ветвь с gt
  nop
  be .print_eq  ! Если равно, то переходим на ветвь с eq
  nop

  ! В остальных случаях продолжаем исполнять ветвь с le
  set le_str, %o0
  call printf
  nop

  ba .exit ! Безусловно идём на выход
  nop

.print_gt:
  set gt_str, %o0
  call printf
  nop

  ba .exit ! Безусловно идём на выход
  nop

.print_eq:
  set eq_str, %o0
  call printf
  nop

.exit:
  ! Готовим аргументы для exit
  mov 0, %o0
  mov 1, %g1

  ! Вызываем exit
  ta 0x10

Сборка и запуск:


$ as -Av9 -64 sparc.s -o sparc.o && ld --dynamic-linker /lib64/ld-2.17.so -Av9 -m elf64_sparc sparc.o -lc

$ ./a.out 
3 4
le
$ ./a.out
3
3
eq
$ ./a.out
4 3
gt

Тут всё на столько похоже на программу для интела, что не сразу понятно что нуждается в комментариях :) Подготовка аргументов для scanf, думаю, понятна, эти инструкции описывались в предыдущем посте. Перейдём сразу к инструкции вызова.

Итак, мы можем видеть инструкцию call scanf, которая на самом деле является синтетической инструкцией, разворачивамой следующим образом:

call address -> jmpl address, %o7

Но переходы - это тема для отдельного поста, поэтому пока будем считать что это просто вызов процедуры. Отдельно отмечу что после каждого перехода стоит операция nop (т.е. пустышка). Это связано с тем что большинство управляющих инструкций sparc'а работают через delay slot [delay1,delay2]. Если в кратце, то процессор при подаче инструкции перехода безусловно исполнит следующую за переходом инструкцию. Т.к. нам это свойство сейчас не нужно, то мы забиваем эти инструкции nop'ами.

После того как scanf вернёт управление, нам нужно будет загрузить значения, введённые пользователем. Этим занимается инструкция ld, осуществляющая чтение значения из памяти в регистр. В спарке доступ в память осуществляется только через инструкции ld/st. Инструкции ld бывают следующих видов:

ldsb [address], regrd - Загрузить знаковый байт (Load Signed Byte)
ldsh [address], regrd - Загрузить знаковое полуслово (Load Signed Halfword)
ldsw [address], regrd - Загрузить знаковое слово (Load Signed Word)
ldub [address], regrd - Загрузить беззнаковый байт (Load Unsigned Byte)
lduh [address], regrd - Загрузить беззнаковое полуслово (Load Unsigned Halfword)
lduw [address], regrd (синоним: ld) - Загрузить беззнаковое слово (Load Unsigned Word)
ldx [address], regrd - Загрузить расширенное (Load Extended Word)
ldd [address], regrd - Загрузить двойное (Load Doubleword)

Положив полученные значения на регистр нам нужно их сравнить. И тут мы видим инструкцию cmp, которая... тоже является синтетческой! Она раскрывается следующим образом:

cmp regrs1, reg_or_imm -> subcc regrs1, reg_or_imm, %g0

Да, в спарке нет отдельной инструкции сравнения. Большинство арифметических инструкций имеют два режима работы - с выработкой результатов сравнения в качестве побочного эффекта и без неё. Результат сравнения складывается в CCR (Condition Codes Register) - 8-битный регистр условных кодов. CCR используется для целочисленных операций, причём делится на две части:

Регистр icc используется для 32-х битных операций, а xcc - для 64-х битных. При этом арифметические операции модифицируют обе части CCR. Каждая часть регистра делится на 4 поля по одному биту:

Поля имеют следующие значения:

N - показывает что результат вычисления был отрицательным
Z - показывает что результат был равен нулю
V - показывает что во время последней арифметической операции было переполнение
C - флаг переноса (carry flag)

Т.о. оттранслированная операция cmp задаёт нам соответствующие флаги CCR, на основе которых мы совершаем переход:

Инструкция	Условие (icc test)	Описание
`ba`	1	Branch Always
`bn`	0	Branch Never
`bne` (или `bnz`)	not Z	Branch on Not Equal
`be` (или `bz`)	Z	Branch on Equal
`bg`	not (Z or (N xor V))	Branch on Greater
`ble`	Z or (N xor V)	Branch on Less or Equal
`bge`	not (N xor V)	Branch on Greater or Equal
`bl`	N xor V	Branch on Less
`bgu`	not (C or Z)	Branch on Greater Unsigned
`bleu`	C or Z	Branch on Less or Equal Unsigned
`bcc`	not C	Branch on Carry Clear (Greater than or Equal, Unsigned)
`bcs`	C	Branch on Carry Set (Less than, Unsigned)
`bpos`	not N	Branch on Positive
`bneg`	N	Branch on Negative
`bvc`	not V	Branch on Overflow Clear
`bvs`	V	Branch on Overflow Set

По инструкции ba, как можно догадаться, мы безусловно переходим на участок программы, вызывающий exit. Оставшая часть программы должна быть понятна.

4. Эльбрус

Версия для Эльбруса несколько сложнее, но гораздо интересней. Здесь будет затронуто больше концептов чем хотелось бы рассказывать для данного поста. Машина, на которой всё это проверялось та же - Эльбрус-4С с системой команд v3 под управлением ОС Эльбрус. Собственно, сам код:

.section .data

$scanf_str:
    .ascii  "%d%d\0"
$gt_str:
    .string "gt\n\0"
$eq_str:
    .string "eq\n\0"
$le_str:
    .string "le\n\0"

.section .bss
    .lcomm a, 32
    .lcomm b, 32

.section .text
    .global _start

_start:
    {
!              база       размер     текущий
      setbn    rbs = 0x4, rsz = 0x3, rcur = 0x0
!             размер окна
      setwd    wsz = 0x8, nfx = 0x1
      disp    %ctpr1, $scanf                  ! Подготовка перехода на scanf
      getsp, 0    _f32s,_lts1 0xffffffd0, %r1 ! Получаем адрес стека
    }

    ! Здесь подготовливаем аргументы scanf
    ! ABI Эльбруса говорит что в случае процедур с элипсом следует
    ! резмещать аргументы на стеке, поэтому будут применены операции st
    {
      addd, 0 0x0, [ _f64,_lts0 $scanf_str], %b[0] ! Кладём адрес форматной строки на регистр
      addd, 1 0x0, [ _f64,_lts2 $a],         %b[1] ! Кладём адрес первого глобала на регистр
    }
    {
      addd, 0 0x0, [ _f64,_lts2 $b],         %b[2] ! Кладём адрес второго глобала на регистр
      std,  2 %b[0], 0x0, %r1                      ! Кладём содержимое регистра с адресом строки на стек
    }
    {
      std,  2 %b[1], 0x8, %r1                      ! Кладём содержимое регистра с адресом первого глобала на стек
      std,  5 %b[2], 0x10, %r1                     ! Кладём содержимое регистра с адресом второго глобала на стек
    }

    ! Непосредственно вызов
    call %ctpr1, wbs = 0x4  ! Вызываем подготовленную функцию scanf

    {
      ldw, 2 0x0, [_f64,_lts0 $a], %b[1] ! Кладём значение глобала a на регистр
      ldw, 5 0x0, [_f64,_lts2 $b], %b[2] ! Кладём значение глобала b на регистр
    }

    {
      cmplsb, 1 %b[1], %b[2], %pred0 ! Производим сравнение a < b
      cmplsb, 0 %b[2], %b[1], %pred1 ! Производим сравнение b < a
      disp %ctpr1, $printf           ! Подготавливаем вызов printf
    }

    ! В этой ШК вычисляем третий предикат (т.е. условие == )
    {
      pass %pred0, @p0        ! Записываем результат сравнения a < b в локальный предикат
      pass %pred1, @p1        ! Записываем результат сравнения b < a в локальный предикат
      andp ~@p0, ~@p1, @p4    ! Вычисляем !pred1 & !pred2
      pass @p4, %pred2        ! Записываем результат в глобальный предикат
    }

    ! Готовим аргументы для printf
    {
      addd, 0 0x0, [ _f64,_lts0 $le_str ], %b[0] ? %pred0 ! Если a < b, то в качестве аргумента кладём адрес строки "le" в регистр
      addd, 2 0x0, [ _f64,_lts2 $gt_str ], %b[0] ? %pred1 ! Если a > b, то в качестве аргумента кладём адрес строки "gt" в регистр
    }
    addd, 0 0x0, [ _f64,_lts0 $eq_str ], %b[0] ? %pred2 ! Если a = b, то в качестве аргумента кладём адрес строки "eq" в регистр
    std,  2 %b[0], 0x0, %r1                             ! Кладём содержимое регистра с адресом строки на стек

    ! Вызываем printf
    call %ctpr1, wbs = 4

    ! Готовим аргументы для exit
    {
      sdisp %ctpr2, 0x3
      addd, 0 0x0, 0x0, %b[1]
      addd, 1 0x0, 0x1, %b[0]
    }

    ! Вызываем exit
    call %ctpr2, wbs = 4

Сборка и запуск:


$ las t.s -o t.o && ld t.o -o a.out -lc --dynamic-linker /lib/ld-2.21.so

$ ./a.out  

3 4
le
$ ./a.out 
3
3
eq
$ ./a.out 
4 3
gt

Начало программы полностью идентично предыдущим вариантам и в пояснениях не нуждается, поэтому перейдём к первой ШК (широкой команде).

    {
      setbn    rbs = 0x4, rsz = 0x3, rcur = 0x0
      setwd    wsz = 0x8, nfx = 0x1
      disp    %ctpr1, $scanf                  ! Подготовка перехода на scanf
      getsp, 0    _f32s,_lts1 0xffffffd0, %r1 ! Получаем адрес стека
    }

Первые две инструкции я подробно описывать не буду, т.к. для этого примера они значения не имеют, но расскажу что они делают. Инструкция setbn устанавливает базу циклических регистров, инструкция setwd изменяет размер окна стека процедур. Эти инструкции являются частью процедурного механизма, о котором я расскажу в других постах. Также в этой ШК присутствует инструкция getsp, которая возвращает свободную область в незащищённом стеке пользователя.

Ну и отдельно рассмотрим инструкцию disp. Инструкция имеет следующий синтаксис:disp ctp_reg, label. Здесь ctp_reg - регистр перехода, а label - адрес перехода. Как мы помним из предыдущего поста, в Эльбрусах есть механизм подготовки переходов, начинающий подкачку кода из указанного адреса. Это позволяет избавиться от накладных расходов при непосредственно переходе. disp подготавливает переход на известный адрес, в нашем случае это адрес функции scanf.

Следующие три ШК подготавливают аргументы для вызова printf. С инструкциями add мы уже знакомы, поэтому рассмотрим только инструкции std. Это инструкция записи в незащищённое пространство памяти. Синтаксис инструкции следующий: st(b/h/w/d) src3, [ address ]. В зависимости от суффикса мы можем записать следующее:

stb - запись байта
sth - запись полуслова
stw - запись одинарного слова
std -запись двойного слова

Рассматривая инструкцию std, 2 %b[0], 0x0, %r1 можно сказать что мы запишем содержимое регистра %b[0] по адресу, хранящемуся в регистре %r1 со смещением 0x0 используя АЛК номер 2.

А теперь зачем это было нужно (и почему не было в примерах для amd64 и sparc). В соответствии с ABI Эльбруса если мы вызываем функцию с эллипсисом (т.е. с переменным количеством аргуменов), то мы должны все аргументы размещать на стеке. Т.о. в рассматриваемых ШК мы положили адреса строки и двух глобалов на стек для вызова scanf.

Далее у нас идёт уже знакомая иструкция call. Здесь особенностью является то что она не обрамлена фигурными скобками. Это означает что наша ШК состоит только из одной инструкции. Это неприятно, но в таком примере ШК особо ничем полезным не набьёшь :)

После выполнения call у нас идёт ШК следующего содержания:
{
ldd, 3 0x0, [_f64,_lts0 $a], %b[1] ! Кладём значение глобала a на регистр
ldd, 5 0x0, [_f64,_lts2 $b], %b[2] ! Кладём значение глобала b на регистр
}
В ней использованы инструкции ldd, которые, как можно догадаться, обратны std. Общий синтаксис инструкции таков: ld(b/h/w/d) [ address ], dst. Эта инструкция выполняет чтение из незащищённого пространства. В зависимости от суффикса возможны следующие варианты:

ldb - считывание байта
ldh - считывание полуслова
ldw - считывание одинарного слова
ldd - считывание двойного слова

Т.о. инструкцию ldw, 2 0x0, [_f64,_lts0 $a], %b[1] следует читать: прочтём данные по адресу символа a со смещением 0x0 и положим их в регистр %b[1].

Теперь у нас на регистрах есть значения, введённые пользователем, и мы можем приступить к сравнению значений. В Эльбрусах операции сравнения несколько отличаются от интела. Здесь у нас нет отдельного регистра для eflags (хотя мы можем запустить арифметическую операцию с выработкой значения в формате IFL), но есть отдельная проверка под каждый случай:

Инструкция	Описание
CMP(s/d)b группа из 8 операций сравнения
`CMPO(s/d)`	сравнение 32/64 "переполнение"
`CMPB(s/d)b`	сравнение 32/64 "< без знака"
`CMPE(s/d)b`	сравнение 32/64 "равно"
`CMPBE(s/d)b`	сравнение 32/64 "<= без знака"
`CMPS(s/d)b`	сравнение 32/64 "отрицательный"
`CMPP(s/d)b`	сравнение 32/64 "нечетный"
`CMPL(s/d)b`	сравнение 32/64 "< со знаком"
`CMPLE(s/d)b`	сравнение 32/64 "<= со знаком"
CMPAND(s/d)b группа из 4 операций проверки
`CMPANDE(s/d)b`	поразрядное "and" и проверка 32/64 "равно 0"
`CMPANDS(s/d)b`	поразрядное "and" и проверка 32/64 "отрицательный"
`CMPANDP(s/d)b`	поразрядное "and" и проверка 32/64 "нечетный"
`CMPANDLE(s/d)b`	поразрядное "and" и проверка 32/64 "<=0 со знаком"

Операции CMP вычитают операнд 2 из операнда 1, определяют флаги результата и проверяют указанное условие. Операции CMPAND выполняют поразрядное логическое "и", а далее по состоянию флагов проверяют заданное условие. Результатом данных операций будет сформированный предикат "true" или "false".

И тут начинается ещё более интересный механизм, применяемый во VLIW процессорах - предикаты. Процессор Эльбрус имеет предикатный файл, содержащий в себе первичные и вторичные предикаты. Первичные предикаты - это битовые значения, вырабатываемые операциями сравнения, вторичные - результат логических операций над первиными предикатами. Всего у нас есть 32 первичных предиката и 7 вторичных. Первичные предикаты записываются как %pred0 - %pred31

Рассмотрим ШК со сравнением:

    {
      cmpldb, 1 %b[1], %b[2], %pred0 ! Производим сравнение a < b
      cmpldb, 0 %b[2], %b[1], %pred1 ! Производим сравнение b < a
      disp %ctpr1, $printf           ! Подготавливаем вызов printf
    }

В ней мы получили результат для двух сравнений a < b и b > a. В первом случае мы записали предикат в регистр %pred0, во втором - в %pred1. В принципе самым простым (и быстрым) способом было бы в этой же ШК выполнить третье сравнение и получить третий предикат, но мне хотелось продемонстрировать вычисление одного предиката на основе других.

Переходим к следующей ШК:

    ! В этой ШК вычисляем третий предикат (т.е. условие == )
    {
      pass %pred0, @p0        ! Записываем результат сравнения a < b в локальный предикат
      pass %pred1, @p1        ! Записываем результат сравнения b < a в локальный предикат
      andp ~@p0, ~@p1, @p4    ! Вычисляем их !a & !b
      pass @p4, %pred2        ! Записываем результат в глобальный предикат
    }

Она довольно необычна. В ней мы выполняем запись значения в реистр, вычисление с ним и запись результата. И всё в одной ШК! Давайте по подробнее рассмотрим что тут происходит. Мы не можем выполнять вычисления с первичными предикатами. Для этих целей мы должны записать их в локальные предикаты командой pass. Всего у нас есть 7 локальных предикатов, обозначаемых @p0 - @p6. При этом предикаты @p0 - @p3 могут быть использованы только для хранения первичных предикатов, а предикаты @p4 - @p6 для хранения результатов вычислений и записи в первичные предикаты.

Для вычислений с предикатами нам доступна только инструкция andp, выполняющая операцию "и". Тильда перед предикатом означает отрицание. Т.о. рассматривая инструкцию andp ~@p0, ~@p1, @p4 можно сказать, что если у нас не выполнилось условие a > b и b > a, то a == b, и мы записываем это в локальный предикат @p4. После этого пересылаем его в первичный предикат %pred2.

И теперь, глядя на следующую ШК, можно понять как используются предикаты. Рассмотрим инструкцию addd, 0 0x0, [ _f64,_lts0 $le_str ], %b[0] ? %pred0. Помимо уже известного синтаксиса сюда добавился хвостик `? %pred0'. Он означает что данная инструкция будет исполнена только если предикат %pred0 имеет значение true. Такой способ называется "условным исполнением", он же "предикатный режим". Под предикат можно поставить почти любую инструкцию. Это обеспечивает возможность исполнять код, содержащий большоее количество ветвей не используя инструкции переходов, при этом плотно забивая ШК.

Остаток программы должен быть более или менее понятен, поэтому описание программ можно заканчивать :)

5. Заключение

Уже на таком простом примере можно видеть довольно сильные различия между системами команд различных процессоров. Так процессоры intel имеют инструкцию mov, способную работать как с регистрами, так и с памятью, в то время как в процессорах sparc и Эльбрус работа с памятью ведётся через отдельные команды. Случай с Эльбрусом вообще очень показателен, т.к. из него мы можем видеть что программу можно довольно красиво и органично избавить от ветвлений (что рекомендуется делать при любой возможности). Интересно заметить что в sparc'е половина применённых инструкций является "псевдо" и раскрывается в какие-то другие, что, правда, добавляет читабельность коду и делает его красивым. А вот ассемблер Эльбруса довольно сложно читать и писать, хотя для этого есть и объективные причины.

Источники

[0xax] Продолжение серии постов про основы ассемблера, которые меня вдохновили
[intel1] Intel® 64 and IA-32 Architectures Software Developer’s Manual Volume 1: Basic Architecture
[amd64abi] System V Application Binary Interface
[sparcv9]The SPARC Architecture Manual Version 9
[sparcasmbook] SPARC Architecture, Assembly Language Programming, and C. Очень хороший учебник по ассемблеру и по спарку
[delay1] Описание delay slot на wiki
[delay2] Хорошее объяснение про delay slot и вообще годный бложик одного ассемблериста
[cs217] Introduction to Programming Systems - учебный курс, включающий в себя описание sparc-машин.
[elbrus] Микропроцессоры и вычислительные комплексы семейства «Эльбрус»
[wasm] Вновь оживший ресурс wasm.ru. Я им не пользовался, но на нём довольно много материала по разным ассемблерам и живой форум.

Список учебных курсов по оптимизирующим компиляторам

2016-06-04T12:43:00.000+02:00

Как вы помните, я читаю курс по оптимизирующим компиляторам. В процессе подготовки к лекциям приходится искать много материала по теме, часто бывает что какой-то информации нету в книгах, и гугл выбрасывает меня на лекции с других ВУЗов или публикации. В этом посте поделюсь ссылками на другие курсы лекций, относящиеся к компиляторам, из которых я брал информацию.

CSE501 - Implementation of Programming Languages, University of Washington.
Курс довольно разнообразный и не совсем по оптимизациям. Меня интересовал раздел по анализу потока данных и немного про анализ указателей. Но помимо этого там есть интересный материал по верификации и по высокопроизводительным вычислениям. В разделе prerequirements есть ссылки на более базовые курсы.
CIS570 - Modern Programming Language Implementation, Penn Engineering.
Общий курс по компиляторам, затрагиваются вопросы анализов потока данных, анализа указателей, распределения регистров.
CS252 - Advanced Topics in Programming Languages, Harvard School of Engeneering and Applied Sciences.
Очень интересный курс по анализу программ. Затрагивает как статические, так и динамические языки.
CS378 - Programming For Performance, The University of Texas.
Весьма интересный курс по высокопроизводительным системам с большим упором на аппаратуру. Затронуты особенности работы процессора, памяти, многопоточности. Отдельно можно отметить хорошую лекцию по цикловым оптимизациям.
CS143 - Compilers, Stanford University.
Почти классический курс по компиляторам - большое внимания лексерам/парсерам, довольно мало внимания оптимизациям. Но даже там встречается полезный материал. (Не, на самом деле хороший курс, сделан и продуман лучше некоторых предыдущих).
COMP512 - Advanced Compiler Construction, Rice University.
Его читает сам K. D. Cooper, автор книги "Engineering a compiler"! Теперь о курсе. В общем очень клёвый курс, посвящённый оптимизирующим компиляторам. Подразумевает что студенты уже имеют определённое представление о компиляторах.
COMP515 - Advanced Compilation for Vector and Parallel Processors,
Rice University.
Курс посвящён оптимизациям для архитектур с явным параллелизмом. Т.о. основное внимание уделяется анализу зависимостей, векторизации, конвейеризации, работе с кэшем.
COS320 - Compiling Techniques, Princeton University.
Ещё один классический курс по компиляторам. Изюминку ему придаёт наличие материала по компиляции ML, и вообще повышенное внимание к структуре промежуточного представления программы. Радуют отдельные лекции по AST и по системе типов.
CS352 - Compilers: Principles and Practice, Purdue Universit.
Довольно базовый курс, ближе к классическому. Про оптимизации почти ничего нет, но есть про структуру программы и про проверки типов (что не так часто встречается).
CS243 - Program Analysis and Optimization, Stanford University.
Это почти канонъ хотя бы потому что одним из лекторов является сама М. Лам (одна из авторов Dragon Book'а)! Курс, как можно догадаться, посвящён анализам и оптимизациям. Рассказывается про анализ и оптимизацию потока данных, конвейеризацию, прочие цикловые оптимизации, анализ указателей, немного про динамическую компиляцию.
CS745 - Optimizing Compilers, Carnegie Mellon University.
Базовый курс по компиляторам, минимум треть которого посвящена анализу потока данных и локальным оптимизациям. Но прочие темы, необходимые для данного курса присутствуют. Несколько лекций посвящено LLVM, что делает курс интересным.
CS745 - Optimizing Compilers, Carnegie Mellon University.
Нет, я не опечатался. Это тот же курс из того же университета. Но он читается другой группой преподавателей, и поэтому немного отличается. Набор тем в целом такой же, но слайды иногда различаются. В любом случае стоит иметь его ввиду.
CS412/413 - Introduction to Compilers, Cornell University.
Тоже весьма годный классический курс по компиляторам, но для оптимизаций тоже есть несколько хороших лекций. Радует большое внимание семантическому анализу и представлению программы в компиляторе.
CS5470 - Compiler Principles and Techniques, The University of Utah.
Данный курс тоже является довольно классическим. Его особенность в том что теоретический курс идёт в тесной привязке к практической работе - разработке компилятора MiniJava, поэтому он является весьма целостным и хорошо структурированным. На самом деле как-то так и должен выглядеть хороший курс по программированию.
CS553: Programming Language Design and Implementation (Algorithmic Language Compilers), Colorado State University.
Курс по оптимизирующим компиляторам. Тоже уделено внимание LLVM, есть видео с лекций. К сожалению внешним пользователям не все материалы доступны.

Можно заметить что в списке нет ни одного русскоязычного ресурса. В первую очередь это связано с тем что при поиске англоязычных терминов в выдаче сначала присутствуют англоязычные ресурсы.

Но есть и другая проблема - в России почему-то не принято выкладывать материалы курса в общий доступ. Если вы посмотрите на приведённые мной ссылки, то тут у каждого курса есть своя страничка с описанием и материалами. У нас такое встречается крайне редко. Часто по причине банального отсутствия материалов (ну нету у преподов слайдов, всё на бумажках и из головы читается).

У меня есть мечта выложить свои материалы, но пока я этого не делаю просто потому что курс пока не готов. Только после второго года чтения я начинаю понимать как правильно строить структуру этого курса. А ведь ещё нужно придумать практические задания. В общем пока ещё надо много над чем поработать.

PS. Если кто подкинет ссылочек на хорошие русскоязычные курсы - буду очень благодарен ;)

Профиль программы и его предсказание

2016-05-26T23:39:00.000+02:00

Сегодня хотел бы рассказать про то как в компиляторе представлена профильная информация и как она предсказывается. Студентам и просто людям часто выносит мозг тот факт что компилятор статически (т.е. без реального исполнения) может предсказывать такие вещи как количество итераций у цикла или просто вероятности переходов, поэтому расскажу об этом по подробнее.
Для начала опишу проблему. В некоторых процессорах с прямым порядком исполнения команд (in-order) нужно уметь хорошо планировать код. Более того ситуация становится совсем плохой если в процессоре отсутствует предсказатель переходов. Т.о. компилятору становится необходимо брать все эти функции на себя. Необходимо понять по какой ветке и с какой вероятностью пойдёт исполнение, какой цикл является горячим и стоит ли его раскручивать/конвейеризовывать, какая функция является горячей и стоит ли её инлайнить. (Кстати, из интеловских лекций следует что они также используют предсказатель и для x86 процессоров).

Чтобы уметь делать всё выше перечисленное, мы приходим к понятию профиля. Внутри компилятора он представляет из себя немного не то к чему привыкли пользователи gprof/perf/etc. Надеюсь что читатель уже знает что такое cfg, поэтому перейдём к описанию. Профилем программы является информация о количестве проходов по узлам cfg и вероятность перехода по каждой дуге. Чтобы было понятно, можно посмотреть на рисунок:

На нём видно, что каждая дуга (исходящая, но к входящим это тоже относится) имеет 2 цифры. Первая - это счётчик. Он говорит сколько раз мы прошли по данной дуге. Вторая - это вероятность. Она говорит с какой вероятностью мы переходим на данную дугу из исходного узла. Эти две цифры вазимозаменяемы и должны постоянно поддерживаться в согласованном состоянии. Для узла вероятность смысла не имеет (на самом деле имеет, но не в данном контексте), поэтому у него есть только счётчик.

Откуда берётся данная информация? Есть два способа её получить. Первый, и довольно очевидный - исполнить программу и посмотреть. Но такой метод имеет много минусов, и к сожалению используется редко (а ведь он может значительно ускорить программа на Эльбрусах, да и не только).

Второй метод - предсказать. Предсказание проходит по следующему принципу: мы полагаем что стартовый узел имеет счётчик 1. Далее для всех исходящих дуг мы вычисляем счётчики по формуле:
$$
C(E_{\text{out}}) = C(N) C(P_{\text{out}})
$$
Далее для каждого узла мы вычисляем счётчик по формуле:
$$
C(N) = \sum\limits_{i = 1}^K C(E^{in}_i)
$$
Таким образом проходим по всей процедуре и предсказываем профиль. Возникает логичный вопрос: откуда взять вероятности? Их ~~берём с полка~~ выставляем исходя из данных, известных во время компиляции или некоторых эвристик. Например если мы можем статически прикинуть результат условного оператора, то вероятность вычислить легко. Если нет, то компилятор имеет определённую статистику по вероятностям переходов при определённой структуре cfg.

Теперь вопрос: что делать если у нас встретилась обратная дуга? Т.е. имеем cfg следующего вида:

Если будем действовать по описанному выше алгоритму, то зациклимся и будем постоянно наращивать счётчик. Решается это поиском вероятности выйти из цикла (т.е. без учёта обратной дуги) и проставления счётчиков в соответствии с этой вероятностью. Формула для этого на удивление простая, а реализация её вычисления на удивление сложное:
$$
I = \frac1{P_{loop\_out}(E^{out}_i)}
$$
Самая большая хитрость в том чтобы её посчитать. Не буду описывать здесь как это делается (это долго и скучно), скажу только что сложность алгоритма немного возрастает если идёт гнездо циклов, и сильно возрастает если цикл несводимый.

Касательно точности такого предсказания могу сказать что никогда не делал исследования этого вопроса, но попытки отключения профиля или неаккуратная его корректировка могут просаживать производительность в разы.

Пишем "Hello, world" на ассемблере

2016-05-12T19:50:00.000+02:00

Так сложилось, что я совсем не знаю ассемблера. Даже несмотря на то, что я разрабатываю компиляторы, на уровень близкий к аппаратуре я почти не спускаюсь. Была пара попыток его выучить, но я просто не находил подходящего материала. В итоге решил что если его нет, то нужно написать самому. В этой заметке я планирую показать как написать простой Hello world на ассемблере.

В данной статье я преследую несколько целей:

Изучить основы работы с ассемблером
Сравнить ассемблеры процессоров различных архитектур и, как следствие, показать разные аппаратные особенности
Написать материал по которому новички далее смогут самостоятельно продолжить изучение ассемблера

Содержание:

1. Введение

Я буду стараться давать минимум теории, т.к. её рассказывают много где, гораздо более подробно и понятно. Поэтому буду описывать только то, что касается данного примера.
Итак, задача: написать программу, выводящую на экран сообщение "Hello, world". В качестве эталона возьмём программу на C:


#include <unistd.h>

int main()
{
        const char * msg = "Hello, world\n";
        write(0, msg, 13);
        return 0;
}

Сборка и запуск:


$ gcc t.c && ./a.out
Hello, world

Здесь специально не использована стандартная библиотека, а применён системный вызов write. Подробнее про него можно прочесть по команде man 2 write.

2. amd64

В качестве процессора на данной архитектуре применяется Intel Core i5, операционная система - Gentoo GNU/Linux, синтаксис AT&T. По моей любимой привычке сначала напишем программу, а потом будем думать.


.section .data
        hello_str: 
                .string "Hello, world\n"
                .set hello_str_len, . - hello_str - 1


.section .text
        .globl _start

_start:

        # Здесь подготавливаем и вызываем write
        mov $1, %rax
        mov $1, %rdi
        mov $hello_str, %rsi
        mov $hello_str_len, %rdx
        syscall


        # Здесь подготавливаем и вызываем exit

        mov $60, %rax
        mov $0, %rdi
        syscall

Сборка и запуск:


$ as tt.s -o tt.o && ld tt.o && ./a.out
Hello, world

Теперь попытаемся понять что произошло.

Краткое описание синтаксиса:
На каждой строчке находятся команды (statement). Команда начинается с нуля и более меток, после которых находится ключевой символ, обозначающий тип команды. Всё что начинается с точки `.' является директивой ассемблера. Всё что начинается с буквы является инструкцией ассемблера и транслируется в машинный код. Комментарии бывают многострочными `/**/' и однострочными `#'.

Директивы .section обозначают начало секций. Секция - это диапазон адресов без пробелов, содержащий в себе данные, предназначенные для одной цели [as]. Объектный файл, сгененрированный as имеет как минимум три секции: .text, .data, .bss. Внутри объектного файла по адресу 0 располагается секция .text, за ней идёт секция .data, а за ней секция .bss. Все адреса as вычисляет как (адрес начала секции) + (смещение внутри секции). Итак, что же означают секции:

.data - в этой секции обычно хранятся константы
.text - в этой секции обычно хранятся инструкции программы
.bss - содержит обнулённые байты и применяется для хранения неинициализированной информации

В начале секции .data у нас стоит метка hello_str, которая указывает на начало строки.

Далее идёт директива .string. Это псевдо операция, копирующая байты в объектник.

Директива .set присваивает символу значение выражения. Т.о. мы говорим что символ hello_str_len равен выражению . - hello_str - 1. Символ `.' означает текущий адрес. Вычитая из него адрес метки hello_str получаем длину строки с завершающим нулём. Чтобы он не попал на печать вычитаем 1.

Директива .globl говорит что данный символ должен быть виден ld. Т.е. теперь символ _start сможет быть слинкован. Это нужно, т.к. вход в программу осуществляется именно через этот символ.

После метки _start начинаются непосредственно ассемблерные инструкции. И теперь опять вернёмся к теории.

Данная программа написана под процессор Intel архитектуры amd64 (она же x86_64). Это 64-х битное расширение архитектуры IA-32. Описание самой архитектуры процессора находится в [intel1]. Подробное описание команд процессора находится в [intel2].

Итак, в данной программе мы оперируем регистрами - внутренней памятью процессора. Архитектура amd64 содержит очень мало регистров - всего 16 64-х разрядных регистров общего назначения: RAX, RBX, RCX, RDX, RBP, RSI, RDI, RSP, R8D-R15D.

Операция mov предназначена для копирования первого операнда во второй (заметьте, что это особенность синтаксиса AT&T, и интеловский синтаксис имеет обратный порядок операндов). Мы можем скопировать константу, значение общего или сегментного регистра или значение из памяти. Копировать можно в общий или сегментный регистр или память. Для обозначения констант используется символ $, а для регистров - % Чуть позже станет понятно что куда и зачем мы копировали.

Далее идёт операция syscall. Она делает системный вызов. Системный вызов - это функция из ядра ОС. Каждый системный вызов производится по номеру. Он должен находиться в регистре rax. Номера системных вызовов можно посмотреть в таблицах [syscall1][syscall2]. Но можно выяснить самому. Их конкретное местоположение зависит от дистрибутива. В моём случае они, например, находятся в файле /usr/include/asm/unistd_64.h. Вот выдержка из этого файла:


... 

#define __NR_read 0
#define __NR_write 1
#define __NR_open 2
...

#define __NR_execve 59
#define __NR_exit 60
#define __NR_wait4 61
...

Понятно, что помимо номеров нам нужны ещё аргументы этих вызовов. Их можно найти следующим образом:


$ cd /usr/src/linux/

$ grep -rA3 'SYSCALL_DEFINE.\?(write,' *
fs/read_write.c:SYSCALL_DEFINE3(write, unsigned int, fd, const char __user *, buf,
fs/read_write.c-           size_t, count)
fs/read_write.c-{
fs/read_write.c-   struct fd f = fdget_pos(fd);

Но в целом таблицами, подготовленными хорошими людьми пользоваться удобнее.

Итак, видно, что вызов write требует 3 аргумента. Первый - это дескриптор файла вывода. Он кладётся на регистр rdi. Мы на rdi кладём 1, что является дескриптором stdout. На регистр rsi кладётся указатель на адрес строки. И на регистр rdx кладётся длина строки. Всё, теперь, когда все регистры подготовлены, можно делать syscall и нам будет выведено сообщение.

Далее нужно выйти из программы. Для этого используется системный вызов exit. Он имеет номер 60 и требует код возврата в качестве первого аргумента. Мы завершаемся с кодом 0, как и положено успешно выполненной программе.

3. Sparc v9

Не устали? Теперь внезапно рассмотрим sparc. Меня эта платформа интересует, т.к. одна из линеек процессоров Эльбрус основана на этой архитектуре. Я тестировался на процессорах TI UltraSparc III+ (Cheetah+) с ОС Gentoo и процессорах Эльбрус R1000 c ОС Эльбрус. Итак, смотрим:


.section .data

hello_str:

    .ascii "Hello, world\n"

    .set hello_str_len, . - hello_str



.global _start



.section .text



_start:

    ! Подготавливаем и вызываем write 

    mov 1, %o0

    set hello_str, %o1

    mov hello_str_len, %o2

    mov 4, %g1

    ta 0x10



    ! Подготавливаем и вызываем exit

    mov 0, %o0

    mov 1, %g1

    ta 0x10

Сборка и запуск:




$ as -Av9 -64 t1.s -o t1.o && ld -Av9 -m elf64_sparc t1.o && ./a.out

Hello, world

Вроде как отличий немного. Синтаксис as был описан в блоке amd64, разве что здесь однострочные комментарии задаются символом !, поэтому его опускаем и переходим сразу к отличиям. Сразу скажу, что речь идёт о Sparc v9 если не оговорено другое. v9 является 64-х битным расширением архитектуры sparc v8. Начнём с регистров. Их здесь больше чем в amd64 - целых 32 общего назначения, доступных пользователю. Сами регистры называются %r0 - %r31, но у них есть логическое разделение:

Регистры общего назначения
Название	Имя внутри окна	Имя r-регистра
Глобальные (global)	%g0 - %g7	%r0 - %r7
Выходные (out)	%o0 - %o7	%r8 - %r15
Локальные (local)	%l0 - %l7	%r16 - %r23
Входные (in)	%i0 - %i7	%r24 - %r31

Данные регистры называются r регистрами и используются для целочисленных вычислений. Плавающие регистры называются f регистрами, они расположены отдельно, и о них мы сегодня говорить не будем. Интересно отметить, что сама архитектура предполагает от 64 до 528 r регистров, но регистровое окно содержит только 24. Чтение %g0 всегда возвращает 0, а запись в него не даёт эффекта. Вообще на спарке регистры сделаны очень круто, но их очень долго описывать, советую прочитать документацию [sparcv9].

Переходим к инструкциям. Начнём с инструкции mov. От интела эта инструкция отличается тем, что её нет в Спарке. Sparc - это RISC архитектура с малым количеством команд, но для удобства программистов ассемблер поддерживает синтетические инструкции. В частности приведённый mov возможно будет оттранслирован следующим образом (есть несколько способов трансляции в зависимости от аргументов):
mov 1, %o1 -> or %g0, 1, %o1
Синтетические инструкции не являются частью стандарта, но входят в информационное приложение к нему, так что их можно смело использовать.
Следующая инструкция set, являющаяся синонимом к инструкции setuw, которая тоже является синтетической инструкцией. Её раскрытие возможно выглядит следующим образом:

set hello_str %o2

sethi %hi(hello_str), %o2

or %o2, %lo(hello_str), %o2

Инструкция sethi поместит старшие 22 бита hello_str (т.е. её адрес) на регистр %o2. Инструкция or поместит туда младший остаток. Обозначения %hi и %lo нужны для взятия старших и младших битов соответственно. Такие сложности возникают из-за того что инструкция кодируется 32 битами, и просто не может включать в себя 32-х битную константу.

Далее мы кладём значение 4 на глобальный регистр %g1. Можно догадаться что это номер вызова write. Системный возов будет искать номер вызова именно там.

Операция ta инициирует системное прерывание. Её аргументом является тип системного прерывания. Скажу честно - я не нашёл нормального описания системных вызовов для v9, а то что туда надо подавать 0x10 выяснил случайно из архивов какой-то переписки. Поэтому придётся просто это запомнить :)

Далее производятся аналогичные действия для вызова exit, думаю их пояснять не нужно.

UPD:

Спасибо уважаемому Анониму за версию данной программы для SunOS 5.10:


.section        ".text"
        .global         _start
_start:
        mov     4,%g1                   ! 4 is SYS_write
        mov     1,%o0                   ! 1 is stdout
        set     .msg,%o1                ! pointer to buffer
        mov     (.msgend-.msg),%o2      ! length
        ta      8

        mov     1,%g1                   ! 1 is SYS_exit
        clr     %o0                     ! return status is 0
        ta      8

.msg:
        .ascii  "Hello world!\n"
.msgend:

Запуск:

$ as t1.s -o t1.o && ld t1.o && ./a.out
Hello world!

4. Эльбрус

Ну и, собственно, жемчужина коллекции - процессор Эльбрус. Работа проводилась на процессоре Эльбрус-4С, который имеет архитектуру команд v3 (наше внутреннее обозначение). Управляется машина ОС Эльбрус. Про сам Эльбрус можно почитать в [elbrus], про какую-либо документацию, находящуюся в открытом доступе мне неизвестно.

Как и Sparc, архитектура Эльбруса рассчитана в первую очередь на то что оптимальный код выдаст компилятор. Но в отличает от Sparc, ассемблер Эльбруса вообще не предназначен для людей. Итак, вот наш пример:


.section ".data"



$hello_msg:

    .ascii    "Hello, world\n\000"



.section ".text"

    .global _start



_start:

    ! Подготавливаем вызов write 

    {

      sdisp %ctpr1, 0x3

      addd, 0 0x0, 13, %b[3]

      addd, 2 0x0, [ _f64, _lts1 $hello_msg ], %b[2]

      addd, 1 0x0, 0x1, %b[1]

      addd, 3 0x0, 0x4, %b[0]

    }



    ! Вызываем write

    {

      call %ctpr1, wbs = 0x4

    }



    ! Подготавливаем вызов exit

    {

      sdisp %ctpr2, 0x1

      addd, 0 0x0, 0x0, %b[1]

      addd, 1 0x0, 0x1, %b[0]

    }



    ! Вызываем exit

    {

      call %ctpr2, wbs = 0x4

    }

Сборка и запуск:


$ las t.s -o t.o && ld t.o && ./a.out

Hello, world

Начнём с изменения синтаксиса.

Мы видим что к синтаксису добавились фигурные скобки. Процессоры Эльбрус основаны на VLIW архитектуре, а значит могут исполнять множество статически спланированных команд за такт. Набор таких команд называется широкой командой (ШК) и заключается в фигурные скобки. Остальной синтаксис более или менее идентичен.

Если посмотреть на команду сборки, то вместо as используется las. Это наш местный ассемблер, но сейчас идёт процесс перехода на gas, поэтому скоро он станет неактуален (отдел, занимающийся ассемблером уже сейчас ругается если я его использую, но в дистрибутиве пока именно он).
Чтобы процессор мог исполнять много команд за такт, ему нужно много регистров. Согласен, что их никогда не бывает много, но для программы на Эльбрусе регистровый файл содержит 256 регистров общего назначения размером 64 бита. Из них 224 предназначены для процедурного стека, а 32 являются глобальными регистрами. В Эльбрусе нет отдельных регистров для плавающих вычислений, все они выполняются на одном конвейере и хранятся в общих регистрах. Именование регистров идёт следующим образом:

%r<номер> - прямоадресуемые регистры текущего окна. <номер> является индексом относительно базы текущего окна
%b[<номер>] - вращаемые регистры текущего окна. <номер> - индекс относительно текущей базы
%g<номер> - глобальные регистры. <номер> является индексом относительно базы текущей глобальной области

Иногда в ассемблере регистры имеют различные префиксы. Подобные названия не влияют ни на что и нужны только для наглядности. Префиксы бывают следующие:

s одинарный формат регистра - 32 бита (Single)
d двойной формат регистра - 64 бита (Double)
x расширенный двойной регистра - 80 бит (Extended)
q квадро формат регистра - 128 бит (Quadro)

Существует программное соглашение, согласно которому для передачи аргументов в вызываемую процедуру мы используем вращающиеся регистры.

Итак теперь переходим к самой программе. Думаю первые несколько строк и так понятны, поэтому рассмотрим сразу первую ШК:


_start:

    {

      sdisp %ctpr1, 0x3

      addd, 0 0x0, 13, %b[3]

      addd, 2 0x0, [ _f64, _lts1 $hello_msg ], %b[2]

      addd, 1 0x0, 0x1, %b[1]

      addd, 3 0x0, 0x4, %b[0]

    }

Рассмотрим первую команду sdisp %ctpr1, 0x3. А чтобы понять что это такое и что оно делает нужно ещё немного рассказать про механизм работы переходов в Эльбрусе. В процессорах Эльбрус вызов функции является дорогим удовольствием, поэтому переходы следует готовить заранее. Для этого существует два типа команд - ctp (подготовка перехода) и ct - фактический переход. Нам доступно три регистра перехода: %ctpr1-%ctpr3, т.е. за раз мы можем подготовить три маршрута для прыжка. Существует несколько команд подготовки перехода, нас здесь интересует sdisp. Эта команда подготавливает переход для системного вызова. Первым аргументом идёт регистр перехода, по которому мы будем совершать прыжок. Вторым аргументом - точка входа в операционную систему, нам она нужна равной 3 (64-х битный вход в ОС).

Далее рассмотрим команды addd. Как я уже говорил, ассемблер Эльбруса не предназначен для людей, и общепринятых мнемоников здесь пока нет. Так в ассемблере нет команды MOV. Чтобы положить значение на регистр применяется команда add. Она производит сложение регистров или констант и записывает их в регистр.

Для Эльбруса одновременно доступно 6 арифметико-логических каналов (АЛК), т.е. за такт мы можем производить до 6 сложений. Итак, в первой операции мы кладём число 13 в регистр %b[3] - это длина нашей строки. (В версиях для других архитектур мы вычисляли это программно, и в Эльбрусе можно сделать также, но для las у меня это так и не получилось, хотя в gas всё заработало). Далее на регистр %b[2] мы кладём адрес начала нашего сообщения. Затем в %b[1] кладём идентификатор устройства вывода, и, наконец, в %b[0] кладём номер системного вызова. В целом аналогия с другими архитектурами прослеживается.

Далее может возникнуть вопрос зачем в команде addd третья d. В мнемониках команд, реализованных для нескольких форматов операндов, последняя буква обозначает используемый формат. В данном случае мы работаем в double формате, т.е. с полноценным 64-х битным регистром.

Отдельно рассмотрим команду addd, 2 0x0, [ _f64, _lts1 $hello_msg ], %b[2], которая, как можно догадаться, кладёт в регистр %b[2] адрес печатаемого сообщения. Для того чтобы закодировать адрес в памяти используется аргумент [ _f64, _lts1 $hello_msg ]. Квадратные скобки означают взятие адреса. Внутри расположен длинный литерал. Его содержимое означает следующее:

_f64 - формат литерала. В данном случае мы говорим что это литерал размера 64 (хотя он уместится и в 32 бита)
_lts1 - литеральный слог, кодирующий константное значение. Всего доступно 4 литеральных слога, так что в одной ШК мы не сможем поместить более 4 длинных литералов (в случае формата _f64 - не более 2).
$hello_msg - идентификатор, обозначающий нашу метку

Во второй ШК у нас производится операция call %ctpr1, wbs = 0x4, которая вызывает функцию, переход на которую подготовлен на регистре %ctpr1. т.е. вызывается наш write. Второй аргумент задаёт смещение для новой базы регистрового окна. Здесь я не буду объяснять что это значит, т.к. это займёт много времени, просто пока придётся запомнить что это должно быть так (на самом деле это очень частный случай и нужно понимать как его высчитывать)

В третьей ШК мы аналогичным образом подготавливаем переходы для вызова exit, и в четвёртой ШК мы его вызываем.

Всё, проще некуда.

Послесловие

Как я уже говорил в начале, данный материал появился потому что я не смог найти чего-то подобного в сети. На самом деле многое я взял из этого [0xax] блога - описание примера на x86 и вообще саму идею. Для остальных архитектур пришлось изворачиваться :) Позже, во время работы над заметкой, я нашёл это [mechasm] неплохое описание, но оно уже было неактуально.

Вообще я планировал написать эту заметку за неделю-две и перейти на следующий пример. Более того хотел ещё включить описание llvm IR. Но внезапно простенькая заметка про hello world заняла у меня несколько месяцев. Преимущественно из-за Эльбруса. Тут оказалось много нового и непонятного при почти полном отсутствии читабельной документации. И тут хотелось бы сказать огромное спасибо многим моим коллегам, которые терпеливо в течении долгого времени разъясняли мне простейшие вещи.

В данной заметки могут быть неточности, ошибки и вообще фиг знает что, поэтому если что-то не так - пишите, я поправлю :)

Источники

[intel1] Intel® 64 and IA-32 Architectures Software Developer’s Manual Volume 1: Basic Architecture
[intel2] Intel® 64 and IA-32 Architectures Software Developer’s Manual Combined Volumes: 1, 2A, 2B, 2C, 3A, 3B, 3C and 3D
[syscall1] Таблица системных вызовов linux
[syscall2] Другая таблица системных вызовов linux
[as] Мануал по ассемблеру
[0xax] Серия постов про написание hello world на ассемблере amd64. Во многом при написании заметки я смотрел именно в этот пост, там весьма подробное и доходчивое описание с замечаниями в комментах
[mechasm]Аналогичный пост на русском, который я нашёл не сразу и не пользовался им. Но стиль изложения мне нравится
[sparcv9]The SPARC Architecture Manual Version 9
[sparcv9asm] SPARC Assembly Language Reference Manual
[oracle] Актуальная документация от Oracle
[sparcasmbook]SPARC Architecture, Assembly Language Programming, and C. Очень хороший учебник по ассемблеру и по спарку
[elbrus] Микропроцессоры и вычислительные комплексы семейства «Эльбрус»

Собираем кросс-компилятор gcc для sparc

2016-01-09T21:25:00.000+02:00

Бывает, что перед разработчиком встаёт задача собрать проект, запускающийся на одной платформе, но при этом для разработки проекта используется другая. Для этих целей применяется кросс-компилятор - специальная сборка компилятора, работающая на host-платформе, и генерирующая код для target-платформы. Здесь я расскажу как собирать gcc с хостом на x86, генерирующий код под sparc.
Думаю вкратце понятно что такое кросс-компилятор, и для чего он нужен, поэтому немного о данной заметке. Во многом это будет вольный конспект данного поста. Основное различие в том, что там автор собирал компилятор для arm, а я делаю это для sparc, что вносит свои коррективы. Ну и я попытался немного автоматизировать данный процесс.

Итак, поехали. Создаём какую-нибудь директорию, и скачиваем туда всё необходимое:


$ mkdir tmp && cd tmp

$ svn checkout svn://gcc.gnu.org/svn/gcc/trunk gcc_trunk

$ wget http://ftp.gnu.org/gnu/binutils/binutils-2.25.tar.gz

$ wget https://cdn.kernel.org/pub/linux/kernel/v4.x/testing/linux-4.4-rc3.tar.xz

$ git clone git://sourceware.org/git/glibc.git

$ wget http://ftp.gnu.org/gnu/glibc/glibc-2.22.tar.xz

$ wget http://www.mpfr.org/mpfr-current/mpfr-3.1.3.tar.xz

$ wget https://gmplib.org/download/gmp/gmp-6.1.0.tar.xz

$ wget ftp://ftp.gnu.org/gnu/mpc/mpc-1.0.2.tar.gz

$ wget ftp://gcc.gnu.org/pub/gcc/infrastructure/isl-0.15.tar.bz2



$ for i in *.tar*; do tar -xpvf $i; done

Это набор необходимых пакетов. Здесь используется транковская версия gcc (можно и стабильную) и транковская версия glibc. Последнее связано с тем что >=gcc-5 не собирает glibc-2.22 из-за ошибок компиляции. Недавно вышел glibc-2.23, но я его не пробовал.

gcc использует сторонние библиотеки, поэтому для сборки нужно их заранее подготовить:


$ pushd gcc_trunk/

$ ln -s ../mpfr-3.1.3 mpfr

$ ln -s ../gmp-6.1.0 gmp

$ ln -s ../mpc-1.0.2 mpc

$ ln -s ../isl-0.15 isl

$ popd

Теперь создадим директорию куда будем устанавливать компилятор и библиотеки:


$ mkdir cross

$ export PREFIX="`pwd`/cross" # Директория установки

$ export TARGET="sparc-sun-linux" # Целевая архитектура 

$ # export TARGET="sparc64-sun-linux" # Это если нам нужен 64-х битный sparc

$ export PATH="$PREFIX"/bin:$PATH # Пути для бинарников

Сначала соберём binutils. В нём содержатся кросс-ассемблер, кросс-линкер и прочие инструменты:


$ export BINUTILS_OBJS="`pwd`/binutils_objs"

$ export BINUTILS_SRC="`pwd`/binutils-2.25/"

$ mkdir -p "$BINUTILS_OBJS"

$ pushd "$BINUTILS_OBJS" > /dev/null

$ "$BINUTILS_SRC"/configure --prefix="$PREFIX" --target=$TARGET --with-sysroot

$ make -j5

$ make install

$ popd > /dev/null

Далее ставим некоторые файлы ядра чтобы приложения могли использовать спарковские системные вызовы


$ export LINUX_SRC="`pwd`/linux-4.4-rc3"

$ pushd "$LINUX_SRC" > /dev/null

$ export LINUX_ARCH="sparc"

$ # export LINUX_ARCH="sparc64" # Это для 64-х битной версии

$ make ARCH=$LINUX_ARCH INSTALL_HDR_PATH="$PREFIX/$TARGET" headers_install

$ popd > /dev/null

Собираем только компиляторы без библиотек


$ export GCC_OBJS="`pwd`/gcc_objs"

$ export GCC_SRC="`pwd`/gcc_trunk"

$ mkdir -p "$GCC_OBJS"

$ pushd "$GCC_OBJS" > /dev/null

$ "$GCC_SRC"/configure --prefix="$PREFIX" --target=$TARGET --enable-languages=c,c++,fortran --enable-gold=yes --enable-ld=yes --enable-lto CFLAGS="-O3" CXXFLAGS="-O3"

$ make -j5 all-gcc

$ make install-gcc

$ popd > /dev/null

Конфигурацию gcc следует подстраивать под себя, мне обычно нужно чтобы компилятор имел фронтенды только для c/c++/fortran (опция --enable-languages), а также чтобы он умел lto.

Теперь ставим заголовочные файлы glibc. При этом создадим заглушку для libc.so. Тут стоит обратить внимание на опцию "-fno-stack-protector", без неё версия для sparc не соберётся.


$ export GLIBC_OBJS="`pwd`/glibc_objs"

$ export GLIBC_SRC="`pwd`/glibc"

$ mkdir -p "$GLIBC_OBJS"

$ pushd "$GLIBC_OBJS" > /dev/null

$ "$GLIBC_SRC"/configure --prefix="$PREFIX"/$TARGET/ --build=$MACHTYPE --host=$TARGET --target=$TARGET --with-headers="$PREFIX"/$TARGET/include CFLAGS="-O2 -fno-stack-protector" CPPFLAGS="-O2 -fno-stack-protector"

$ make install-bootstrap-headers=yes install-headers

$ make -j5 csu/subdir_lib

$ install csu/crt1.o csu/crti.o csu/crtn.o "$PREFIX"/$TARGET/lib

$ "$PREFIX"/bin/$TARGET-gcc -nostdlib -nostartfiles -shared -x c /dev/null -o "$PREFIX"/$TARGET/lib/libc.so

$ touch "$PREFIX"/$TARGET/include/gnu/stubs.h

$ popd > /dev/null

Теперь соберём библиотеки поддержки компилятора. В них, например, содержится обработка исключений c++.


$ pushd "$GCC_OBJS" > /dev/null

$ make -j5 all-target-libgcc

$ make install-target-libgcc

$ popd > /dev/null

Непосредственно собираем и устанавливаем glibc


$ pushd "$GLIBC_OBJS" > /dev/null

$ make -j8

$ make install

$ popd > /dev/null

И последнее - собираем и устанавливаем стандартную библиотеку c++:


$ pushd "$GCC_OBJS" > /dev/null

$ make -j8

$ make install

$ popd > /dev/null

Собственно, всё, теперь можно использовать кросс-компилятор. Пока что мне не удалось собрать версию под 64 бита с multilib'ом - т.е. чтобы компилятор целевой платформой имел sparc64, но при этом умел генерить 32-х битный код, но в целом это не большая потеря. Можно тупо собрать две версии компилятора.

Также у автора оригинального поста есть скрипт для автоматической сборки, но я его не тестировал.

Опасность вызова функций без объявленного прототипа в C

2015-12-15T20:45:00.000+02:00

Ещё один пост про тонкости линковки. Предыдущий лежит здесь. На этот раз речь пойдёт преимущественно о старых исходниках, переносе их в 64-х битный режим, ну и немного про режим сборки "вся программа". Пример основан на реальных ~~событиях~~ исходниках.
В языке C в большинстве случаев допустимо делать вызов функции если в модуле не был объявлен прототип функции. Это очень плохое свойство языка, которое было оставлено для совместимости со старым софтом. Давайте для понимания сразу рассмотрим пример:

 $ cat t1.c   
  int main()   
  {   
   int * a;   
   a = (int *)foo();   
   *a = 10;   
  }   

 $cat t2.c
 #include <stdlib.h>  
 int * foo(void)  
 {  
   int * a = malloc(sizeof(int));  
   *a = 100;  
   return a;  
 }

 $ lcc t1.c t2.c -Wl,-Tdata=0x700000000  
 lcc: "1.c", line 5: warning: function "foo" declared implicitly  
      [-Wimplicit-function-declaration]  
    a = (int *)foo();  
          ^

Видно что в t1.c функция foo не имеет прототипа, и что именно мы вызываем становится понятно только после линковки. Поэтому и ругается компилятор.

Сразу скажу, что используется компилятор Эльбруса, и на gcc я не смог это воспроизвести. И это вовсе не комплимент в сторону gcc (ну или моих рук). Опция -Wl,-Tdata=0x700000000 нужна чтобы секция данных начиналась с больших адресов (допустимых только в 64-битном режиме). Теперь запустим пример и получим:

 $ ./a.out   
 Segmentation fault

Казалось бы, что тут не так? Начнём рассмотрение со строчки a = (int *)foo();. На первый взгляд всё корректно. Но в реальности при сборке объектника из t1.c компилятор ничего не знает о функции foo, поэтому подставляет прототип по умолчанию, который возвращает int. Это приводит к генерации следующего кода:

 o7. CALL     proc:foo ()     :4<sint32>           // 't1.c' 4  
 o8. I2P      o7:4<sint32>    :8<sint32 *>          // 't1.c' 4  
 o9. WRITE     loc:a <- o8:8:(sint32 *)              // 't1.c' 4

Видно что мы берём возвращаемое из функции значение как int размера 4 байта, и приводим его к (int *) размера 8 байт. На 32-х битной системе это работает нормально (очевидно, что (int *) там тоже 4 байта). Проблемы возникают на больших адресах 64-х битного режима. Думаю теперь становится понятно зачем была нужна опция -Wl,-Tdata=0x700000000. Она заставляет malloc выдавать указатели со значениями > 2^32. Соответственно в момент преобразования значения в int мы теряем значимые биты, что приводит к ошибке сегментирования.

А теперь про режим сборки "вся программа", он же -fwhole, он же -flto. В данном режиме подобные ошибки становятся видны, т.к. оба модуля становятся видны, и мы можем подставить корректный вызов. Но возникает вопрос - а надо ли? Тут моё мнение разошлось с мнением более умных людей, которые считают что в режиме сборки "вся программа" нужно эмулировать ошибки обычного линкера,т.е. генерить некорректный код и ломаться тогда когда этого никто не ожидает.

В общем мораль сего поста такова - всегда объявляйте прототип вызываемой функции.

Лекции по оптимизирующим компиляторам

2015-05-09T22:36:00.000+02:00

В последние несколько месяцев занимался довольно новым для себя делом - читал лекции по курсу "Оптимизирующие компиляторы". Раньше мне не приходилось читать лекции (ну или почти не приходилось), да и предмет не самый распространённый. В общем о том что получилось, что хочется дополнить и исправить расскажу ниже.
Сам по себе курс длится два семестра, я читаю только первый. В нём предполагается рассказать в целом про оптимизирующие компиляторы и сами оптимизации. Курс был составлен на основе моих конспектов этого курса, прочитанного в МФТИ в 2013 году.
Теперь про содержимое самого курса. Сейчас он состоит из 11 лекций:

Введение в оптимизирующие компиляторы
Введение в теорию языков и автоматов. Лексический анализ.
Введение в теорию языков и автоматов. Синтаксический анализ.
Алгоритмы на графах, используемые в компиляторах
Структуры данных в оптимизирующих компиляторах
Оптимизации управления
Потоковые оптимизации
Цикловые оптимизации
Цикловые оптимизации (часть 2). Оптимизации памяти.
Анализ указателей
Планирование кода. Межпроцедурные оптимизации.

Я хочу дорабатывать данный курс. Пока мне видятся не лучшими решениями следующие вещи:

Наличие второй и третьей лекции. Теорию автоматов нужно изучать отдельно, а информацию по фронтенду можно слить в одну лекцию. Но не думаю что это подойдёт для кафедры, на которой читается курс - отдельно теории автоматов у них нет.
В девятой лекции идёт остаток восьмой про циклы и ещё треть лекции про оптимизации памяти. По идее про оптимизации памяти нужна отдельная лекция, но у меня по данной теме очень мало информации.
Одиннадцатая лекция тоже содержит две разные темы, их неплохо бы читать отдельно.

Есть ещё некоторые замечания по каждой лекции в отдельности, но об этом я расскажу когда (если) выложу слайды.
Ещё есть масса тем, про которые или не рассказано ничего, или сказано очень мало:

ничего нет про распараллелвание
почти ничего нет про режим -fwhole/-flto
мало про профилирование
ничего нет про векторизацию
почти ничего про межпроцедурные анализы
ничего про оптимизации C++
ничего про средства отладки/разработки/workflow

В общем сейчас у меня появились небольшие наработки по данному курсу, есть что и куда пилить. Но хотелось бы узнать у сообщества: что ещё следует читать в курсе оптимизирующих компиляторов, возможно кто-то знает удачные примеры таких курсов?

Антикафе GeekTime (почти реклама)

2015-03-29T22:31:00.000+02:00

Расскажу про один интересный проект, к которому имею некоторое отношение. Это антикафе GeekTime (не путать с сайтом, имеющим похожее название ;) ).

Для начала поясню что такое "антикафе". Это заведение, в которое люди приходят чтобы посидеть и провести время. От просто кафе отличается тем что здесь не подают еду, но можно принести что-нибудь своё или заказать. Но есть кофемашина, можно сделать чай, печеньки прилагаются. Оплата идёт только за проведённое время (максимум 500 рублей).

Как можно понять из названия это антикафе для гиков. Да, здесь есть игры, комиксы и т.п., но полагаю моих читателей больше интересуют вопросы, связанные с IT. Да, GeekTime именно антикафе для IT'шников самого разного плана. Здесь проводятся тематические мероприятия - лекции, семинары, мастер-классы. Самым крупным было проведение трёхдневного хакатона Global Game Jam. Частенько здесь тусуются разные программисты, в т.ч. и я, так что можно придти поболтать :)

Из интересного здесь есть 3d-принтер Felix-2.0, на котором можно заказать печать какой-нибудь модели. Также есть очки виртуальной реальности OculusRift и контроллеры Razer Hydra, в которых можно не только поиграть, но и отладить свою собственную игру (для целей разработки специальный дешёвый тариф). Присутствует также очень небольшая, но интересная техническая библиотека. Ну и конечно можно просто посидеть и поработать в своё удовольствие, если вы не любите работать в офисе.

Ещё интересный момент состоит в том, что антикафе задумывалось как место тусовки IT'шников, и здесь рады предоставить место для встреч различным user-группам и прочим тематическим тусовочкам. Также очень круто если вы хотите прочитать какую-нибудь лекцию - антикафе предоставит помещение, проектор, интернет, рекламу. Администраторы (половина из которых сами IT'щники) будут рады просто поболтать.

В общем всех приглашаю в антикафе GeekTime, здесь круто, уютно и печеньки.

Наведённые эффекты от оптимизаций

2014-12-03T14:50:00.000+02:00

При работе с оптимизациями могут возникать весьма забавные наведённые эффекты. Они не очевидным образом влияют на скорость исполнения программ. Возьмём, например, мой недавний strict-aliasing. Когда я его исследовал столкнулся со следующим явлением:

"-O3"                               :442.34:real:438.46:user:0.51:sys
"-O3 -fno-strict-aliasing"          :376.43:real:374.28:user:0.39:sys

В таблице приведены опции компиляции теста и замеры при его исполнении. Видно, что применение strict-aliasing просаживает тест на 15%. Во-первых это очень много, а во-вторых совершенно непонятно почему. Ведь strict-aliasing это даже не оптимизация, а анализ, который разрывает зависимости между LOAD/STORE. Как можно замедлить программу разорвав несколько лишних зависимостей? Оказывается легко.

В Эльбрусах есть аппаратная поддержка технологии dam (memory access disambiguation). В двух словах она делает следующее. Если на этапе компиляции невозможно определить ни независимость, ни пересечение операций, а LOAD очень хочется закинуть за STORE, то это можно сделать, и ниже поставить проверку адресов, по которым работают эти операции. Если они не совпадают, то всё хорошо, если совпадают, то уходим на компенсирующий код и делаем всё по-старому.

Так вот, теперь как это связано со strict-aliasing. Внезапно на одном тесте strict-aliasing определил независимость операций, с которыми ранее работал dam. Из-за этого dam'у пришлось применяться к другим операциям, которые по факту оказались зависимыми. Из-за этого много времени ушло на компенсирующий код, и исполнение деградировало. Теперь смотрим без dam:

"-O3 -fno-dam"                      :471.28:real:468.70:user:0.39:sys
"-O3 -fno-dam -fno-strict-aliasing" :473.76:real:470.96:user:0.36:sys

Видно, что тест более не деградирует, однако исполняется заметно медленнее.

А мораль отсюда такова: даже если в целом оптимизация ведёт себя хорошо - обязательно найдётся тест, который будет работать медленнее.

Слайды с доклада про strict-aliasing

2014-11-29T13:28:00.001+02:00

Выступил на 57-ой научной конференции МФТИ с докладом про мой любимый strict-aliasing. Слайды можно посмотреть здесь:

Правила перекрытия объектов в памяти from Alex Markin

Наверное стоит добавить пару комментариев по теме и вообще.

Такая тема взята потому как я являюсь автором strict-aliasing в компиляторе Эльбруса. Я когда-то уже переводил статью по данной теме, но в реальности ещё не видел ни одной нормальной публикации. Хочу сделать её сам, но пока не получается.

Сам strict-aliasing разрывает зависимости между load'ами и store'ами несовместимых типов. Что такое несовместимые типы долго объяснять, скажу только что совместимы только одни и те же типы с квалификаторами и типы, вложенные в агрегатные типы.

В компиляторах реализация strict-aliasing обычно делится на две (минимум) части - оптимизационный анализ и анализ нарушений. Последний в gcc реализован на редкость плохо, мне удалось сделать анализ дающий очень мало false-positive. Я пока не замерял как gcc'шный анализ влияет на производительность, но на компилятоое Эльбруса удалось добиться прироста до 8%. При том, что в реализации есть серьёзные загрубления.

Эльбрус-8С

2014-11-21T13:24:00.002+02:00

В МЦСТ постоянно идёт разработка новых процессоров, о которых предпочитается не заявлять публично. Но после получения хоть как-нибудь результатов разрешается что-нибудь рассказать. Относительно недавно появились инженерные образцы нового процессора Эльбрус-8С, о котором пойдёт речь.

Вот так выглядит наш новый красавчик:

А вот он же на плате:

Можно дополнить сравнительную таблицу характеристик из моего предыдущего поста:

	Эльбрус-2С+	Эльбрус-4С	Эльбрус-8С
Тех. процесс, нм	90	65	28
Тактовая частота, МГц	500	800	1300
Число ядер CPU	2 + 4 DSP	4	8
Пиковая производительность, 64 разряда, Gflops	8	25	125
Пиковая производительность, 32 разряда, Gflops	16	50	250
Кэш 1 уровня (на ядро, данных + команд), КБ	64 + 64	64 + 128	64 + 128
Кэш 2 уровня, КБ	2 * 1024	4 * 2048	8 * 512
Кэш 3 уровня, МБ	-	-	16
Количество процессоров в системе, шт.	до 4	до 4	до 4
Пропускная способность канала межпроцессорного обмена, ГБ/с	3 * 4	3 * 16	3 * 16
Скорость обмена с памятью, ГБ/с	12.8	38.4	51,2
Средняя рассеиваемая мощность, Вт	25	45	пока неизвестно
Количество транзисторов, шт.	368 млн.	986 млн.	2.7 млрд.

Видно, что произошёл значительный прирост производительности. Также помимо самого процессора к нему прилагается плата КПИ-2 (Контроллер переферийных устройств)

Из фишечек нового процессора и платы стоит отметить:

переход на тех. процесс 28 нм. (кто там ныл что мы безнадёжно отстали?)
появился кэш L3
увеличено количество вычислительных устройств с плавающей запятой с 4 до 6
новая схема фильтрации снупирования
канальность памяти увеличилась до 4

В общем ждём промышленного производства и новых моделей.

Новый блог о компиляторах: compileit.ru

2014-11-14T11:35:00.001+02:00

Решил попробовать запустить один проект - блог о компиляторах и языках программирования http://compileit.ru. В данном блоге я публикую ссылки на различные статьи, публикации или просто интересные новости по данной тематике. Основной целью блога (помимо сбора интересующей меня информации, конечно) является организация вокруг него русскоязычного сообщества разработчиков компиляторов и людей, интересующихся языками программирования. Мне эта задача кажется важной в первую очередь потому что сейчас отсутствует нормальный обмен информацией между различными группами исследователей/разработчиков, и ни у кого нет общей картины направления движения индустрии. Более того может получаться ситуация, что исследование, проводимое в одной группе уже было проведено в другой, опубликовано где-то, где гугл не ищет, и получается, что часть работы была проделана зря. Я надеюсь, что если исследователи и разработчики будут обсуждать свои идеи в единой площадке, то это даст мощный толчок к развитию компиляторостроения и информатики в России.

Сложности линковки

2014-10-20T20:03:00.000+03:00

В очередной раз столкнулся с довольно забавным случаем из исходников. Что характерно это SPEC, и в нём обнаружилась ошибка (уже вторая с которой я столкнулся!). Причём для проявления ошибки должны были очень удачно сложиться звёзды.
/**
* Это вторая редакция поста с несколько расширенным разбором случая
*/
Я не буду показывать весь SPEC, а рассмотрю только маленький примерчик.

//------ t1.cpp

#include <stdlib.h>
#include <stdio.h>

//namespace
//{
class A
{
public:
    A(){printf("1\n");a=1;}
    int a;
};
//}

void foo(void * a)
{
    a = new A;
}

//------ t1.h

void foo(void * a);

//------ t2.cpp

#include <stdlib.h>
#include <stdio.h>

//namespace
//{
class A
{
public:
    A(){printf("2\n");b=1;}
    int b;
};
//}

void bar(void * a)
{
    a = new A;
}

//------ t2.h

void bar(void * a);

//------ main.cpp

#include "t1.h"
#include "t2.h"

int main()
{
    void * a;
    foo(a);
    bar(a);
}

Из исходника видно, что при работе `foo' вызывается конструктор объекта `A' из файла `t1.cpp', который выводит `1', а при работе `bar' вызывается конструктор объекта `A' из файла `t2.cpp', который выводит `2'. Смотрим что у нас получается по факту:

$ g++ *cpp

$ ./a.out

1

1

Если посмотреть дизассемблер, то чётко видно, что вызываются одинаковые
функции:

080485dc <_Z3fooPv>:

...

 80485f5:    e8 1e 00 00 00           call   8048618 <_ZN1AC1Ev>

...



08048638 <_Z3barPv>:

...

 8048651:    e8 c2 ff ff ff           call   8048618 <_ZN1AC1Ev>

Теперь о том почему так получается. В стандарте есть понятие `linkage':

3.5 Program and linkage

2. A name is said to have linkage when it might denote the same object,
reference, function, type, template, namespace or value as a name introduced by
a declaration in another scope:

— When a name has external linkage, the entity it denotes can be referred to by
names from scopes of other translation units or from other scopes of the same
translation unit.

Здесь говорится, что имя имеет "linkage" когда оно указывает на тот же объект по имени в другом scope'е. При этом если "linkage" идёт как external, то связывание производится из разных translation units, коими являются наши cpp файлы.

Здесь стоит заметить, что хотя в разных модулях у нас разные объекты, имя у них идёт одинаковое, а связывание производится именно по имени.

Далее смотрим

1.4 Implementation compliance

6. The templates, classes, functions, and objects in the library have external
linkage (3.5)

Т.е. здесь чётко говорится, что наши классы имеют external linkage.

Для обхода этой ошибки рекомендуется поместить оба класса в безымянные пространства имён (они закомментированы в примере). Тогда оба имени `A' будут находится в разных scope'ах, и не будут пересекаться:

080485f9 <_Z3fooPv>:

...

 8048612:    e8 c5 ff ff ff           call   80485dc <_ZN12_GLOBAL__N_11AC1Ev>

...

08048655 <_Z3barPv>:

...

 804866e:    e8 c5 ff ff ff           call   8048638 <_ZN12_GLOBAL__N_11AC1Ev>

...

Теперь то, что не вошло в первую редакцию поста.

Попробуем скомпилировать с оптимизацией:

$ g++ *cpp -O1

$ ./a.out

1

2

На самом деле это чистое совпадение, связанное с тем, что с -O1 включается inline, и конструкторы тупо подставляются в тела вызывающих функций.

Более того такое поведение компилятора совершенно законно. В стандарте есть "3.2 One definition rule", который для таких случаев гласит следующее:

5. There can be more than one definition of a class type (Clause 9),
enumeration type (7.2), inline function with external linkage (7.1.2), class
template (Clause 14), non-static function template (14.5.6), static data member
of a class template (14.5.1.3), member function of a class template (14.5.1.1),
or template specialization for which some template parameters are not specified
(14.7, 14.5.5) in a program provided that each definition appears in a
different translation unit, and provided the definitions satisfy the following
requirements. Given such an entity named D defined in more than one translation
unit, then

— each definition of D shall consist of the same sequence of tokens; and

...
Тут ещё несколько сложных правил
...

... If the definitions of D satisfy all these requirements, then the program
shall behave as if there were a single definition of D. If the definitions of D
do not satisfy these requirements, then the behavior is undefined.

Т.е. здесь говорится, что в разных translation unit может быть несколько определений одного и того же класса при определённых условиях. Меня эта формулировка очень удивила, но в принципе она довольно логична. В приведённом примере нарушаются условия, т.о. пример имеет UB и компилятор может делать с ним вообще всё что угодно. Т.е. разное поведение на -O0 и -O1 в данном случае совершенно допустимо.

Кстати, с 5-ой версии gcc научится такие ошибки отлавливать в режиме -flto:

g++ *cpp -Wall -flto && ./a.out
t1.cpp:4:7: warning: type ‘struct A’ violates one definition rule [-Wodr]
class A
       ^
t2.cpp:6:7: note: a different type is defined in another translation unit
class A
       ^
t1.cpp:8:9: note: the first difference of corresponding definitions is field ‘a’
     int a;
         ^
t2.cpp:10:9: note: a field with different name is defined in another translation unit
     int b;
         ^

Почему я так подробно написал об этой ошибке? Потому что столкнулся с ней я на примере, строка компиляции которого занимает 2 экрана, время компиляции пол часа, проявилось оно только в режиме компиляции всей программы, а свалилось оно на моей оптимизационной фазе из-за того что некорректно отработала предыдущая фаза, из-за того что к ней пришло некорректное представление. Далее пару вечеров обсуждали что именно произошло, кто виноват и что делать. В общем вроде бы мелочь, а столько веселья!

Реализация таблиц виртуальных функций в C++

2014-08-04T09:00:00.000+03:00

Нашёл в архивах Сети хорошую статью про реализацию таблиц виртуальных функций в C++, поэтому решил перевести. Узнал несколько крайне интересных деталей. Например, что бывает до двух реализаций одного (!) конструктора и до трёх реализаций одного (!) деструктора. Ну и ещё про то что такое VTT (virtual table table), с чего я собственно на эту статью и вышел.

llvm vs. gcc - 2014

2014-08-03T18:04:00.000+03:00

Я уже писал про сравнение gcc и llvm в 2013 году, и вот недавно вышло сравнение свежих версий. Сравнение претерпело некоторые изменения, и разумеется, хотелось бы об этом написать.
Итак, в этом году сравниваем gcc-4.9 и llvm-3.4. При этом добавлены результаты для gcc-4.8 и llvm-3.3. Бенчмарк стандартный - SPEC2000. Интересно, что автор делал замеры только на x86_64 и ARM, т.е. x86 разрядности 32 считает не интересной (т.к. производительность программ для 64 битов выше). Для ARM замеры производились впервые. Не производились замеры fortran, и как следствие не тестировались плавающие вычисления т.к. у llvm нет фронтенда для фортрана, а использовать dragonegg слишком сложно.

А теперь, собственно замеры.

Скорость компиляции:

Размер сгенерённого кода пропущу, т.к. лично мне не особо интересно. Но он есть в оригинальном исследовании.

Самое интересное. Производительность:

Исследования про ARM тоже публиковать не буду, их можно найти в оригинальном исследовании.

Теперь к выводам, сделанным автором исследования:

GCC из поколения в поколение показывает устойчивое улучшение производительности на x86-64. Производительность LLVM почти не поменялась.
LLVM-3.4 улучшает скорость компиляции в то время как GCC-3.9 требуется больше времени для лучшей кодогенерации при выключенном LTO. С другой стороны скорость компиляции в режиме LTO была значительно увеличена в GCC-4.9. И это важное достижение.
Разница между одними поколениями LLVM и GCC в целочисленных SPEC'ах на x86-64 на данный момент составляет 6% и 2% соответственно без LTO и с ним (для точных цифр можно посмотреть в таблицы). Этот разрыв меньше чем в моём сравнении 2013 года, когда он составлял 8% и 3.5%. Я думаю, главной причиной является прогресс процессоров Intel. В 2013 году я использовал процессор, который был старше на 2 поколения (Sandy Bridge). Процессоры Intel стали лучше исполнять неоптимизированный код, другими словами они стали менее чувствительны к некоторым оптимизациям.
Для ARM GCC генерирует целочисленный код примерно на 10% лучше. Я верю, что GCC покажет себя лучше и на большинстве других, отличных от x86/x86-64 платформах. По крайней мере я видел схожие результаты на PPC.
Я думаю, что сообществу GCC следует уделять больше внимания улучшению качества кода для x86-64, т.к. производительность LLVM уже действительно близка к GCC.
Для улучшения производительности GCC нам нужны анализы, в которых другие компиляторы (LLVM или Intel ocmpiler) генерируют лучший код. К сожалению это работа на полную ставку для более чем одного человека, знакомого с основами компиляторостроения. Но если кому-нибудь интересно, я бы предложил проанализировать 186.crafty или 255.vortex в режиме LTO, где LLVM работает гораздо лучше чем GCC.
У меня хватило немного времени для анализа сгенрированного кода и поиска разницы в генерации. У меня сложилось впечатление, что у LLVM получше с разрывом зависимостей, с другой стороны GCC лучше справляется с удалением мёртвых записей. Другое отличае в том, что LLVM систематически использует регистры SSE для перемещения структур в памяти. GCC использует общие регистры для этого. Я затрудняюсь сказать какой способ лучше для современного процессора без дополнительных исследований, но код LLVM обычно получается меньше т.к. регистры SEE шире. Я проверил компиляторы Intel, он также использует регистры общего назначения для этих целей.

Не все перемещения на регистр одинаково полезны

2014-07-04T00:50:00.000+03:00

Словил забавную багу (а может и не багу) оптимизатора на казалось бы простеньком примере:

$ cat t.c

#include <stdio.h>



typedef double t;



t a = 0.5;

t b = 0.23;

t c = 6.0;



int main (void)

{

  t e, f;



  e = a - b;

  f = e * c;



  printf ("%.30f\n", f);

  return 0;

}



$ gcc t.c -O2 && ./a.out && gcc t.c && ./a.out 

1.619999999999999884536805438984

1.620000000000000106581410364015

Такой эффект наблюдается с совершенно бородатых времён (ещё по-моему gcc-2.x такое выдавал). И наблюдается он только на 32-битном x86.

Сначала я думал, что это вина gcc, особенно с учётом того что llvm отрабатывает нормально. Но я эту багу нашёл в багзилле, суть вот в чём. Без оптимизации компилятор хранит double переменные на стеке, там они занимают положенные 64 бита и всё хорошо. А при включённой оптимизации он перемещает значение на плавающий регистр, который имеет размер 80 бит.

На вики есть объяснение почему именно 80 бит. Это связано с тем, что для удвоения точности экспоненту нужно увеличить на 1 бит и получить 12 бит, а мантиссу до 77 вместо старых 55 бит. Решение довольно спорное, т.к. оно не портируемое. Т.е. программе для того чтобы результат в разных режимах на разных машинах выдавал одинаковый результат нужно весьма извращаться. Иногда помогает ключ -ffloat-store, который запрещает хранить плавающие значения на регистрах.

Векторизация в компиляторе Эльбруса

2014-05-23T23:19:00.000+03:00

Наткнулся на старый пост про автовекторизацию. Если в кратце, то автор жаловался на то, что компиляторы не могут ничего сделать даже на простейших примерах. Я просто не мог не проверить как те простейшие примеры отработают на Эльбрусе :)
Итак, у нас есть Эльбрус-2С+:


$ cat /proc/cpuinfo
processor       : 0
vendor_id       : E2K MACHINE
cpu family      : 4
model           : 20255552
model name      : Elbrus-e2k-e2c+
revision        : 1
cpu MHz         : 496.580

L1 cache size   : 64 KB
L1 cache line length    : 32 bytes
L2 cache size   : 1024 KB
L2 cache line length    : 64 bytes

...

Есть компилятор Эльбруса:

$ gcc -v
lcc:1.18.07:Oct-19-2013:e2k-2c+-linux

Да, на Эльбрусах команда gcc вызывает нативный компилятор :) Сделано для упрощения портирования софта. Нет, у нас не используется gcc.

Берём первый пример:

#include <stdio.h>
int main(int argc, char* argv[])
{
    short a[256] __attribute__ ((aligned(16)));
    short b[256] __attribute__ ((aligned(16)));
    for(int i=0;i<256;i++) {
        a[i] = i & 1;
        b[i] = i & 3;
    }
    int mn = 100500;
    for(int n=0;n<10000000;n++) {
        int sum = 0, j=0;
        for(int y=0;y<16;y++)
            for(int x=0;x<16;x++) {
                short v = a[j] - b[j];
                sum += v*v;
                j++;
            }
        mn = mn < sum ? mn : sum;
    }
    printf("%d\n", mn);
    return 0;
}

И сразу результаты:

$ gcc madd.cpp -o madd.out

$ time ./madd.out
512

real    1m22.307s
user    1m21.990s
sys     0m0.040s





$ gcc madd.cpp -O3 -fno-vect -o madd_no_vect.out

$ time ./madd_no_vect.out
512

real    0m6.315s
user    0m6.280s
sys     0m0.010s



$ gcc madd.cpp -O3 -o madd_vect.out

$ time ./madd_vect.out
512


real    0m1.731s

user    0m1.700s
sys     0m0.020s

Разница между режимами компиляции впечатляющая. В моём g++-4.8.2 на машине Core i5 неоптимизированная версия исполняется 11.475 сек., оптимизированные 1.663 сек. и 1.662 сек. соответственно.

Во-первых разница во времени показывает на сколько важен для Эльбрусов хороший компилятор. А как Вы уже догадались он чертовски хорош ;) Собственно, результаты говорят сами за себя. Векторизация отлично отработала и дала ускорение более чем в три раза (по сравнению с -O3 без векторизации).

Второй пример:

#include <stdio.h>
int main(int argc, char* argv[])
{
    short a[256] __attribute__ ((aligned(16))); 
    short b[256] __attribute__ ((aligned(16)));
    for(int i=0;i<256;i++) {
        a[i] = i & 1;
        b[i] = i & 3;
    }
    int mn = 100500;
    for(int n=0;n<10000000;n++) {
        int sum = 0;//, j=0;
        for(int j=0;j<256;j++) {
                short v = a[j] - b[j];
                sum += v*v;
            }
        mn = mn < sum ? mn : sum;
    }
    printf("%d\n", mn);
    return 0;
}

Выдал такие результаты:

$ gcc madd_oneloop.cpp -o madd_oneloop.out
-bash-4.2$ time ./madd_oneloop.out
512

real    1m18.312s
user    1m18.080s
sys     0m0.020s



$ gcc madd_oneloop.cpp -O3 -fno-vect -o madd_oneloop_no_vect.out

$ time ./madd_oneloop_no_vect.out

512

real    0m1.001s
user    0m0.970s
sys     0m0.020s



$ gcc madd_oneloop.cpp -O3 -o madd_oneloop_vect.out

$ time ./madd_oneloop_vect.out
512

real    0m1.000s
user    0m0.980s
sys     0m0.010s

Что интересно, векторизация в нём реально применилась, но код и без неё неплохо соптимизировался.

Даже не знаю какие выводы из всего этого можно сдлать. Просто для сведения - компилятор Эльбруса имеет крутую векторизацию.

PS. На самом деле по таким синтетическим примерам судить о компиляторе нельзя, т.к. в реальной жизни всё гораздо сложнее. Чтобы проверить компилятор нужны как минимум специальные бенчмарки, и то это тоже не всегда показатель.

Про оптимизации, безопасность и "нормальные языки".

2014-05-01T13:35:00.000+03:00

В конце 2013 года вышла довольно интересная статья "Towards Optimization-Safe Systems: Analyzing the Impact of Undefined Behavior" про то как компиляторы, применяя различные агрессивные оптимизации убирают проверки безопасности. Хочу поделиться своими мыслями на этот счёт.
Во-первых часть той статьи я перевёл на русский (остаток переводить лень, но если кому-то нужно готов продолжить). Команда, написавшая эту статью весьма интересная - у них есть и более ранние работы, посвящённые неопределённому поведению и ошибкам, к которым оно приводит. Очень советую почитать, вот пара названий их статей: "Linux kernel vulnerabilities:
State-of-the-art defenses and open problems", "Undefined Behavior: What Happened to My Code?", по ссылкам там можно и массу других любопытных статей найти.

Если кому-то лень читать статью целиком, то в двух словах суть сводится к следующему: если Вы пишете код, который приводит в UB (undefined behaviour), то готовьтесь к неприятным последствиям. Например:


char *buf = ...;
char *buf_end = ...;
unsigned int len = ...;
if (buf + len >= buf_end)
    return;
 /* len too large */
if (buf + len < buf)
    return;

Здесь вторая проверка будет удалена, т.к. компилятор уверен, что buf + len не может быть меньше buf, ведь в противном случае было переполнение, приводящее к UB, а программист умный и ну никак не мог привести свою программу в такое состояние.

Понятно, что таким образом написана гигантская часть кода и что большинство людей даже не подозревает о таком поведении компилятора. Очень забавно было читать истерику одного программиста, который столкнулся с таким поведением.

Как компиляторщик, который сам разрабатывает подобные оптимизации могу сказать, что ~~программисты сами виноваты, надо было стандарт читать~~ здесь довольно глубокая концептуальная проблема. Стандарт Си, например, содержит массу мест, где в двух строках довольно расплывчатым языком описывается какое-либо недопустимое действие. Об этой паре строчек знает полтора человека, которые потерев руки коммитят в компилятор оптимизацию, использующую данную возможность. А потом кто-то случайно обнаруживает разное поведение на первый взгляд корректного кода в режимах -O0 и -O3. Отлаживать такие штуки - адский ад. Поэтому возникает вопрос - а стоит ли делать оптимизации, которые ломают вообще весь софт ради пары процентов (это если повезёт) прироста производительности?

Формально, конечно, правы компиляторщики. И более того, разработчики компилятора обычно делают warning'и, которые предупреждают об опасности. Более того в gcc-4.9 появился специальный санитайзер: -fsanitize=undefined, отлавливающий потенциально опасные конструкции. Да, понятно, что все опасные случаи, которыми воспользуется компилятор отловить невозможно, но к сожалению, не все компилят даже с ключом -Wall, про -Werror даже говорить не приходится, поэтому программисты в любом случае попадают в истории.

Мне как-то высказывали мнение, что в "нормальных языках" такая ситуация невозможна в принципе. Я посмотрел в стандарт Haskell - в соответствии с ним компилятор имеет полное право убрать вторую проверку из нашего примера, хотя на практике мне этого добиться не удалось. Думаю, компилятор до этого ещё не дорос ;) Я также посмотрел в стандарт Erlang, но там вообще ничего про переполнение не сказано и хотел посмотреть в стандарт OCaml, но как бы это сказать... Нет у OCaml стандарта! Да, они в качестве стандарта используют книгу по OCaml, но понятно, что нельзя сделать что-либо серьёзное по документу который обновляют раз в несколько месяцев.

Лично мне кажется, что такие оптимизации делать нужно в любом случае, ведь никогда не знаешь когда 2% ускорения превратятся в 20% из-за наложения эффекта нескольких оптимизаций. Вопрос безопасности... Ну для начала пусть программисты перестанут игнорировать предупреждения компилятора, а там уже о чём-то рассуждать можно будет. Если нужна сверх надёжность, либо -O0, либо качественный код и качественное тестирование. К сожалению, в российских гос. шарагах хорошие программисты - редкость и там проблемы возникают не из-за коварного компилятора, а из-за банального говнокода.

Эльбрусы. Новые и не очень.

2014-03-28T21:06:00.000+03:00

Недавно сгонял на выставку "Новая электроника - 2014", где меня целенаправленно интересовал стенд МЦСТ. Особенностью этого стенда было то, что на нём представлен новый процессор "Эльбрус-4С". Он нём и ещё о паре забавных железок расскажу под катом.

Стенд МЦСТ

На стенде были уже вышедшие в 2013 году моноблок «КМ4-Эльбрус», настольный компьютер «Монокуб-РС» и защищённый ноутбук НТ-ЭльбрусS, и новинка - процессор Эльбрус-4С.

Эльбрус-4С

На фото - сама новинка. Забавно, что её внутреннее название "Эльбрус-2S". Такая разница в названиях временами выносит мозг. Публично этот процессор представлен впервые, но пока что он находится только на стадии испытаний. Я подготовил небольшое сравнение с Эльбрус-2С+, который стоит в «Монокуб-РС»:

	Эльбрус-2С+	Эльбрус-4С
Тех. процесс, нм	90	65
Тактовая частота, МГц	500	800
Число ядер CPU	2 + 4 DSP	4
Пиковая производительность, 64 разряда, Gflops	8	25
Пиковая производительность, 32 разряда, Gflops	16	50
Кэш 1 уровня (на ядро, данных + команд), КБ	64 + 64	64 + 128
Кэш 2 уровня, КБ	2 * 1024	4 * 2048
Количество процессоров в системе, шт.	до 4	до 4
Пропускная способность канала межпроцессорного обмена, ГБ/с	3 * 4	3 * 16
Скорость обмена с памятью, ГБ/с	12.8	38.4
Средняя рассеиваемая мощность, Вт	25	45
Количество транзисторов, шт.	368 млн.	986 млн.

Тут стоит отметить, что Эльбрус-4С имеет ту же самую архитектуру, что и Эльбрус-2С+, относящуюся к классу VLIW архитектур. На базе нового процессора МЦСТ планирует выпустить плату с форм-фактором microATX (с одним процессором) и серверную материнскую плату с 4 процессорами.


Разные процессоры, выпускаемые МЦСТ

А теперь посмотрим на хит прошлого сезона - Монокубы и моноблоки. Это моноблоки на базе процессоров Эльбрус-2С+.

Моноблок «КМ4-Эльбрус»

Он же, поближе

На фото - моноблок. Это обычный компьютер с линуксом на борту. Подходит для офисной деятельности, говорят на нём даже OpenArena идёт. Сам не видел, но обещали показать.

Под капотом моноблока

А вот так выглядит монокуб (коробочка, на которой стоит описание):

Монокуб с... Windows о_О

Да, это действительно Windows. Страшно, не правда ли ;) Фишка в том, что в МЦСТ разрабатывается технология бинарной трансляции, при которой команды для x86 машин транслируются на команды Эльбруса. Причём это не совсем виртуальная машина, т.к. запуск производится на голом железе.

Если говорить в целом про Монокуб/Моноблок, то можно отметить, что это линукс собственной сборки МЦСТ (очевидно, т.к. собственная архитектура). Имеет debian-based пакетный менеджер и собственный компилятор если в репозитории чего-то нет. А т.к. там нет почти ничего, компилятор вам понадобится, и вам останется молиться чтобы в пакете не было ассемблерных вставок :)

Довольно часто звучит вопрос "Где это счастье можно приобрести?". Со слов официального представителя - почти ни где. Цена одной модели довольно высока (больше 100000 руб.), продаётся организациям под конкретные проекты. При партии от 100 машин можно получить скидку. Для простых смертных будет доступно когда "удастся снизить отпускную цену", чтобы это ни значило.

Ещё одна шикарная железка - "Носимый терминал НТ-ЭльбрусS"

Носимый терминал НТ-ЭльбрусS

ЭТО представляет из себя металлический ящик весом до 10кг. с резиновыми насадками по углам. Его работа гарантируется даже если в 50 градусную жару подплыть к противнику под водой и обезвредить его ударом этого ноутбука по голове.

Клавиатура НТ-ЭльбрусS

Забавная клавиатура - по сути просто резиновая настилка, чтобы вода не могла проникнуть внутрь.

НТ-ЭльбрусS - вид сбоку

Интересно как они решают проблему попадания воды в разъёмы. Если посмотреть на правый верхний угол ноутбука, то резиновая накладка отсоединилась. У меня есть версия, что ноутбук работает в двух режимах - летальный и не летальный. Для второго обязательно наличие резиновых накладок тогда можно разгонять демонстрантов. При летальном режиме резиновые накладки снимаются и можно вести боевые действия.

НТ-ЭльбрусS рядом с HTC-Wildfire

Как-то так было на стенде. Это выставка не последняя, о следующих я постараюсь предупредить заранее, там тоже будет весело.

PS. Чтобы избежать недопонимания - этот пост основан на базе поста для хабра, который модераторы не пропустили. Причина неизвестна.
PPS. Хотя я и являюсь сотрудником МЦСТ, на выставке я был как частное лицо, и данный пост (как и все в этом блоге) является отражением моей личной позиции.