Как на самом деле работает gcc

Автор проследил процесс превращения простой программы на C из исходного кода в исполняемый файл

[Mike Gerdts (gerdts@cae.wisc.edu). Перевод Sergei Karasiov.]

Как на самом деле работает gcc

Оригинал: http://www.cae.wisc.edu/~gerdts/how_gcc_works.html

Предисловие

Данный материал не является дословным переводом оригинальной статьи. Дело в том, что у переводчика не оказалось под рукой ОС HP-UX для проверки утверждений автора исходного материала. Так что для завершения работы была использована ОС FreeBSD и весь машинный вывод соответсвует именно ей. Первое лицо было изменено на безликое третье.Текст претерпел. В остальном изменений не последовало.

Основной текст

В этом документе будет использована следующая простая программа. Она назывется "myprogram.c". Отладочный вывод gcc и других программ бывает довольно длинным. Для повышения удобочитаемости были вставлены переводы строк предваренные символом '\'.

#include <math.h>
#include <stdio.h>

#define PI   3.1415926543

int main() {
       printf("sin(pi) = %f\n", sin(PI));
       printf("sin(pi/2) = %f\n", sin(PI/2));
       exit(0);
}
Для того чтобы скомпилировать программу необходимо слинковать ее с библиотекой математических функций libm. Это делается с помощью флага -l.
%gcc -o myprogram myprogram.c -lm
Сам по себе gcc не делает много работы, за исключением вызова различных утилит. Этот процесс можно наблюдать если дать gcc ключ -v.
%gcc -save-temps -v -o myprogram myprogram.c -lm
Отладочный вывод можно увидеть ниже.
Using builtin specs.
gcc version 2.95.3 20010315 (release) [FreeBSD]
Предыдущие две строки не интересуют нас в данный момент.

Первая программа которую вызывает gcc -- это cpp, препроцессор языка С. Он обрабатывает строки содержащие #define, #ifdef, #include и тд. и приводит их к необходимому компилятору виду.

 /usr/libexec/cpp0 -lang-c -v -D__GNUC__=2 -D__GNUC_MINOR__=95 -Di386 -D__FreeBSD__=4 \
   -D__FreeBSD_cc_version=440000 -Dunix -D__i386__ -D__FreeBSD__=4 -D__FreeBSD_cc_version=440000 \
   -D__unix__ -D__i386 -D__unix -Acpu(i386) -Amachine(i386) -Asystem(unix) -Asystem(FreeBSD) \
   -Acpu(i386) -Amachine(i386) -Di386 -D__i386 -D__i386__ -D__ELF__ myprogram.c myprogram.i
Эти строки -- отладочный вывод проепроцессора С, который получил ключ -v, который в свою очередь ранее был передан программе gcc. Первая строка содержащяя #include говорит о том, что производится поиск файлов соответсвующих строкам вида #include "something.h", такой поиск производится только в текущей директории. Строка следующая за ней, говорит что производится поиск файлов соответвующих строкам вида #include <something.h>, и производится он в директориях указанных ниже.
GNU CPP version 2.95.3 20010315 (release) [FreeBSD] (i386 FreeBSD/ELF)
#include "..." search starts here:
#include <...> search starts here:
 /usr/include
 /usr/include
End of search list.
The following default directories have been omitted from the search path:
 /usr/include/g++
End of omitted list.

Примечание переводчика

Три заключительных строки предыдущего фрагмента отсутсвуют в отладочном выводе оригинальной статьи. Предполагается различие версий.

На этом месте все строки начинающиеся с #ifdef, #if, #include, #define и тд. уходят. Добавляется содержимое всех #include-файлов. Все макросы (#define) расширяются. Строки стоящие между директивами #if (или #ifdef, или #ifndef) и #endif (или #else) будут удалены если утверждения в них оказались ложными. Для того чтобы увидеть вывод препроцессора просмоьрите файл myprogram.i, который сохранился благодаря ранее переданному ключу -save-temps.

Теперь за дело принимается собственно компилятор, который и превращает препроцессированый код в программу на ассемблере (как видим gcc это оболочка).

 /usr/libexec/cc1 myprogram.i -quiet -dumpbase myprogram.c -version -o myprogram.s
GNU C version 2.95.3 20010315 (release) [FreeBSD] (i386-unknown-freebsd) compiled
 by GNU C version 2.95.3 20010315 (release) [FreeBSD].
В данном месте будет создан файл myprogramm.s. Вы можете просмотреть его если любите читать ассемблерные листинги.
 /usr/libexec/elf/as -v -o myprogram.o myprogram.s
GNU assembler version 2.11.2 20010719 [FreeBSD] (i386-unknown-freebsd4) using 
 BFD version 2.11.2 20010719 [FreeBSD]
Далее для создания файла с машинными кодами вызывается ассемблер. Машинный код помещается в обьектный файл (.o).

Теперь все готово к линковке. На этой стадии берутся различные обьектные (.о) и архивные (.а) (они так же называются статические библиотеки) файлы, разделяемые библиотеки (.sl или .so, в зависимости от системы) и их содержимое вставляется в исполняемый файл.

/usr/libexec/elf/ld -m elf_i386 -dynamic-linker 
/usr/libexec/ld-elf.so.1 -o myprogram 
/usr/lib/crt1.o /usr/lib/crti.o /usr/lib/crtbegin.o 
-L/usr/libexec/elf 
-L/usr/libexec 
-L/usr/lib myprogram.o 
-lm -lgcc -lc -lgcc /usr/lib/crtend.o /usr/lib/crtn.o
Каждый флаг -L указывает на директорию, в которой следует искать необходимые библиотеки. Сами библиотеки указываются с помощью ключа -l. Следует обратить внимание что последняя команда содержит в себе ключи "-lm, -lgcc, -lc". Этот шаг заверштся успешно только если все символы во всех обьектных (.о) файлах будут найдены или в обьектных файлах или в библиотеках libm.a, libgcc.a и libc.a.

Для того чтобы увидеть какие символы нужны файлу myprogram.o вы можете запустить утилиту nm.

%nm myprogram.o

         U exit
00000000 t gcc2_compiled.
00000000 T main
         U printf
         U sin
Символы содержащие перед собой символ 'U' (undef) следует искать в других файлах. Если есть неоходимость самостоятельно найти какой либо символ, то можно вновь использовать программу nm.

Послесловие переводчика

Вывод программы nm на компьютере переводящего не имел ничего общего с тем что приведено в статье переводимого.

Конец

Оригинал статьи можно найти по адресу: http://www.opennet.ru/base/dev/gcc_work.txt.html.

[ опубликовано 28/11/2003 ]

Mike Gerdts (gerdts@cae.wisc.edu). Перевод Sergei Karasiov. - Как на самом деле работает gcc   Версия для печати