Тестовый пакет iXBT Application Benchmark 2018: методика измерения производительности на основе реальных приложений образца 2018 года

Нoвoму тeстoвoму пaкeту iXBT Application Benchmark 2018 мы пoсвятили oтдeльный цикл стaтeй, в кoтoрыx были пoдрoбнo рaссмoтрeны всe вxoдящиe в нeгo тeсты. Нaм oстaлoсь лишь сoбрaть всe вoeдинo и рaссмoтрeть aлгoритм рaсчeтa интeгрaльнoгo пoкaзaтeля прoизвoдитeльнoсти нa oснoвe рeфeрeнсныx рeзультaтoв.

В срaвнeнии с тeстoвым пaкeтoм прeдыдущeй вeрсии (iXBT Application Benchmark 2017) чтo-тo дoбaвили, чтo-тo убрaли. Нo глaвным oбрaзoм измeнились версии используемых приложений и сами тестовые задачи.

Приложения, используемые для тестирования

Как и ранее, главная идея, положенная в основу нашего тестового пакета, заключается в измерении времени выполнения тестовых задач, которые реализуются с применением реальных пользовательских приложений. Скорость выполнения тестовых задач является показателем производительности тестируемой системы (чем меньше времени требуется для выполнения тестового задания, тем выше производительность). Измерив время выполнения определенного набора тестовых задач, можно сопоставить его со временем выполнения тех же задач на некоторой референсной системе и таким образом сравнить производительность тестируемой системы с производительностью референсной. Именно на этом принципе основан алгоритм расчета интегральной оценки производительности в нашем тестовом пакете iXBT Application Benchmark 2018.

iXBT Application Benchmark 2018 совместим с операционной системой Windows 10 (64-битной). Версия операционной системы может быть русской или английской.

Отдельно подчеркнем, что в случае ноутбука тестирование с использованием пакета iXBT Application Benchmark 2018 производится только при подключении ноутбука к электросети и при заряженном аккумуляторе.

Бенчмарк позволяет задать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение. При тестировании мы используем пять прогонов каждого теста, чего достаточно для получения достоверных результатов.

Приложения, используемые в тестировании, подобраны таким образом, чтобы они позволяли оценить производительность в следующих типовых задачах (логических группах тестов):

  • видеоконвертирование;
  • рендеринг;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • распознавание текста;
  • архивирование;
  • научные расчеты;
  • файловые операции.

Всего в наш тестовый пакет iXBT Application Benchmark 2018 входит 24 теста:

Обо всех тестах мы уже подробно писали. Исключение составляют лишь тесты, которые относятся к группе «файловые операции» и тест на основе приложения Abbyy FineReader 14.

Результаты тестов, которые относятся к группе «файловые операции», зависят от производительности подсистемы хранения данных и практически не зависят от производительности процессора.

Ранее в группе «файловые операции» у нас было три теста: на основе приложений UltraISO Premium Edition 9.6.5.3237 и WinRAR 5.40, а также тест по определению скорости копирования данных. В новой версии тестового пакета мы исключили тест распаковки данных с использованием приложения UltraISO просто в силу того, что данное приложение уже потеряло свою актуальность. Таким образом, мы оставили лишь тест с архиватором WinRAR и тест на скорость копирования. Менять в них, собственно, нечего, а потому лишь напомним, как реализованы данные тесты.

Приложение WinRAR, как и любой другой архиватор, можно использовать и для тестирования процессора, и для тестирования накопителя. Чтобы создать высокую нагрузку на накопитель, нужно использовать приложение WinRAR не для сжатия данных, а для упаковки множества отдельных файлов в один большой архив без сжатия. Этот метод компрессии называется Store. В этом случае мы получим практически полное отсутствие загрузки процессора, но очень высокую нагрузку на накопитель. Если разархивировать такой архив без сжатия на накопитель, то опять же получим очень высокий уровень загрузки накопителя. В тесте с использованием приложения WinRAR 5.50 (название теста — WinRAR Storage) на накопителе сначала без сжатия создается архив папки размером 9,24 ГБ, которая содержит разные типы файлов, а потом этот архив распаковывается на накопитель. Результатом теста является суммарное время создания архива и время распаковывания.

В тесте на определение скорости копирования данных измеряется время копирования тестовой директории размером 9,24 ГБ, содержащей различные типы данных, из одного места на системном накопителе в другое место на этом же накопителе. Копирование производится средствами операционной системы Windows 10.

Что касается теста на основе приложения Abbyy FineReader 14, то тут ситуация такая. На момент подготовки теста у нас не было новой версии приложения Abbyy FineReader, поэтому первоначально мы не стали менять тест и сделали его на базе приложения Abbyy FineReader 12 (как это было в тестовом пакете iXBT Application Benchmark 2017). Но в самый последний момент мы получили от компании Abbyy новую версию приложения, поэтому было принято решение использовать именно ее и мы переделали тест с приложением Abbyy FineReader 14. Новая версия приложения Abbyy FineReader сильно отличается от предыдущей и, если можно так выразиться, заточена на работу с PDF. Это уже целый программный пакет, в который входит в том числе и приложение Abbyy FineReader 14 OCR, которое мы и использовали в нашем тесте. Саму тестовую задачу мы не меняли — напомним, что в нашем тесте измеряется время распознавания PDF-документа, в качестве которого используется «Большой толковый словарь правильной русской речи» Л.И. Скворцова, состоящий из 1103 страниц.

В сравнении с Abbyy FineReader 12 время распознавания в новой версии приложения изменилось, и, по всей видимости, связано это с изменением алгоритма распознавания: в приложении Abbyy FineReader 14 процесс распознавания длится дольше. Можно предположить, что улучшилось качество распознавания, однако чтобы утверждать это достоверно, нужно, конечно, провести полноценное сравнение двух версий приложения, а мы себе такой задачи не ставили. Можем лишь констатировать, что один и тот же PDF-документ в приложении Abbyy FineReader 14 распознается на 24% дольше, чем в приложении Abbyy FineReader 12 (при тестировании на процессоре Intel Core i7–8700K). Очевидно, что если качество распознавания стало лучше, то в итоге эффективность работы с FineReader возрастет даже несмотря на удлинение процесса собственно распознавания.

Сравнение с предыдущей версией

Сравнение версий приложений, используемых в предыдущей и новой версиях тестового пакета, приводится в таблице.

iXBT Application Benchmark 2017
iXBT Application Benchmark 2018
MediaCoder x64 0.8.45.5852
MediaCoder x64 0.8.52
HandBrake 0.10.5
HandBrake 1.0.7

VidCoder 2.63
POV-Ray 3.7
POV-Ray 3.7
LuxRender 1.6×64 OpenCL
LuxRender 1.6×64 OpenCL
Вlender 2.77a
Вlender 2.79
Adobe Premiere Pro СС 2015.4
Adobe Premiere Pro CC 2018
Magix Vegas Pro 13
Magix Vegas Pro 15
Magix Movie Edit Pro 2016 Premium v. 15.0.0.102
Magix Movie Edit Pro 2017 Premium v. 16.01.25
Adobe After Effects CC 2015.3
Adobe After Effects CC 2018
Photodex ProShow Producer 8.0.3648
Photodex ProShow Producer 9.0.3782
Adobe Photoshop CС 2015.5
Adobe Photoshop CС 2018
Adobe Photoshop Lightroom Classic СС 2015.6.1
Adobe Photoshop Lightroom Classic СС 2018
Phase One Capture One Pro v. 9.2.0.118
Phase One Capture One Pro v. 10.2.0.74
Abbyy FineReader 12 Professional
Abbyy FineReader 14 Enterprise
WinRAR 5.40 (64-bit)
WinRAR 5.50 (64-bit)

7-Zip 18
LAMMPS 64-bit (от 16.05.2016)
LAMMPS 64-bit (от 23.10.2017)
NAMD 2.11
NAMD 2.11
Mathworks Matlab 2016a
Mathworks Matlab R2017b
Dassault SolidWorks 2016 SP0
Dassault SolidWorks Premium Edition 2017 SP4.2

Из нового тестового пакета мы убрали тесты на основе приложений FFTW 3.3.5 и UltraISO Premium Edition 9.6.5.3237, а добавились тесты на основе приложений VidCoder 2.63, Adobe Photoshop CС 2018 (3D-рендеринг) и 7-Zip 18. Кроме того, для большинства приложений мы поменяли тестовую задачу.

Приложение
тестовая задача
MediaCoder x64 0.8.52
изменена
HandBrake 1.0.7
изменена
VidCoder 2.63
новая
POV-Ray 3.7
не изменилась
LuxRender 1.6×64 OpenCL
не изменилась
Вlender 2.78
не изменилась
Adobe Photoshop CС 2018 (3D-рендеринг)
новая
Adobe Premiere Pro СС 2018
изменена
Magix Vegas Pro 15
изменена
Magix Movie Edit Pro 2017 Premium v. 16.01.25
изменена
Adobe After Effects CC 2018
не изменилась
Photodex ProShow Producer 9.0.3782
изменена
Adobe Photoshop CС 2018
изменена
Adobe Photoshop Lightroom Classic СС 2018
изменена
PhaseOne Capture One Pro v. 10.2.0.74
изменена
Abbyy FineReader 14 Professional
не изменилась
WinRAR 5.50 (64-bit)
изменена
7-Zip 18
новая
LAMMPS 64-bit (от 16.05.2016)
не изменилась
NAMD 2.11
не изменилась
Mathworks Matlab R2017b
не изменилась
Dassault SolidWorks Premium Edition 2017 SP4.2 с пакетом Flow Simulation 2017
не изменилась

Расчет интегральной оценки производительности и погрешности

Принцип расчета интегральной оценки производительности остался прежним. Напомним, что необходимость использования интегральной оценки производительности вызвана тем, что сами по себе результаты тестирования (время выполнения тестовых задач) еще не дают представления о производительности тестируемой системы, они обретают смысл лишь при возможности их сопоставления с результатами некой референсной системы. Именно поэтому при тестировании по описанной нами методике используются понятия «интегральная оценка производительности» и «референсная система».

Для расчета интегральной оценки производительности первоначально результаты всех тестов нормируются относительно результатов тестирования для референсной системы. Нормированный результат получается путем деления времени выполнения задачи референсной системой на время выполнения задачи тестируемой системой.

Полученный таким образом безразмерный результат R по сути представляет собой нормированное время выполнения задачи тестируемой системой и показывает, во сколько раз время выполнения задачи тестируемой системой больше или меньше, чем время выполнения той же задачи референсной системой.

Далее нормированные результаты всех тестов разбиваются на восемь логических групп:

  • видеоконвертирование;
  • рендеринг;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • распознавание текста;
  • архивирование;
  • научные расчеты;
  • файловые операции.

Для каждой группы тестов рассчитывается свой интегральный результат как среднее геометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножается на 100.

Поскольку во всех логических группах тестов за исключением последней (скорость файловых операций) результат определяется производительностью платформы (процессора, графической подсистемы и памяти), а результат в группе «Скорость файловых операций» определяется производительностью накопителя, отдельно рассчитывается интегральный результат для всех платформенных групп тестов как среднее геометрическое от промежуточных интегральных результатов по семи группам тестов:

Итоговый интегральный результат определяется как среднее геометрическое взвешенное от интегрального результата платформенных тестов и интегрального результата тестов накопителя. Весовой коэффициент интегрального результата тестов накопителя составляет 0,3, а интегрального результата платформенных тестов — 0,7:

Это и есть интегральная оценка производительности тестируемой системы.

Для референсной системы интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 100 баллов, а для тестируемой системы эти результаты могут быть как больше, так и меньше 100 баллов.

В любом тесте есть свой разброс результатов, который определяет погрешность измерения получаемого результата. Это неизбежное явление, причем различные тесты имеют различную погрешность измерения: какие-то тестовые задачи демонстрируют хорошую стабильность результатов, а в каких-то наблюдается большой разброс результатов. Как показывает практика, погрешность измерения результата зависит не только от приложения и выполняемой тестовой задачи, но и от конфигурации тестируемого компьютера.

В нашей методике тестирования рассчитывается среднеарифметический результат и погрешность измерения для доверительного интервала 0,95 (для расчета используются коэффициенты Стьюдента).

Говоря о вычислении погрешности результата измерений, необходимо кроме случайной погрешности (погрешность, возникающая за счет получения различных результатов измерения) учитывать также и систематическую ошибку измерения (то, что называют инструментальной погрешностью). Дело в том, что в некоторых тестах результат определяется только с точностью до целого значения секунд. При этом вполне возможна ситуация, когда в пяти повторах теста будет получен один и тот же результат, но это не означает, что в данном тесте нулевая погрешность измерения результата. Просто нужно учитывать систематическую ошибку, которая в данном случае определяется точностью измерения времени выполнения теста. Понятно, что в случае округления времени выполнения теста систематическая ошибка составит 0,5 с.

Если тест подразумевает наличие систематической ошибки, то абсолютная погрешность результата рассчитывается по формуле:

Сам по себе расчет погрешности измерения результата теста не представляет сложности. Однако в нашей методике тестирования конечный (интегральный) результат не измеряется непосредственно, а является производной величиной от нормированных результатов всех тестов (косвенный результат). Естественно, нужно рассчитать погрешность получаемого интегрального результата, а также рассчитать погрешность интегральных результатов по каждой группе тестов.

Как известно, погрешность вычисляемой, а не измеряемой непосредственно величины F, зависящей от переменных {x1, x2… xn}, рассчитывается по формуле:

Если в логическую группу входит m тестов, то погрешность результата по группе тестов определяется по формуле:

Погрешность процессорного интегрального результата по семи группам тестов рассчитывается по формуле:

Результирующий интегральный результат определяется по формуле:

Референсные результаты

Естественно, интегральный результат тестируемого ПК определяется не только его конфигурацией, но и конфигурацией референсной системы, используемой для сравнения.

В нашем новом тестовом пакете iXBT Application Benchmark 2018 в качестве референсной системы используется компьютер с четырехъядерным процессором Intel Core i7–8700K следующей конфигурации:

Процессор
Intel Core i7–8700K
Материнская плата
Asus Maximus X Hero
Чипсет
Intel Z370 Express
Память
16 ГБ DDR3–2400 (двухканальный режим)
Графическая подсистема
Intel UHD Graphics 630
Накопитель
SSD Seagate ST480FN0021 (480 ГБ, SATA)
Операционная система
Windows 10 Pro (64-битная)

Далее мы приводим результаты тестирования нашей референсной системы, рассчитанные по 10 прогонам каждого теста.

Тест
Референсный результат
Видеоконвертирование, баллы
100
MediaCoder x64 0.8.52, c
96,0±0,5
HandBrake 1.0.7, c
119,31±0,13
VidCoder 2.63, c
137,22±0,17
Рендеринг, баллы
100
POV-Ray 3.7, c
79,09±0,09
LuxRender 1.6×64 OpenCL, c
143,90±0,20
Вlender 2.79, c
105,13±0,25
Adobe Photoshop CС 2018 (3D-рендеринг), c
104,3±1,4
Cоздание видеоконтента, баллы
100
Adobe Premiere Pro CC 2018, c
301,1±0,4
Magix Vegas Pro 15, c
171,5±0,5
Magix Movie Edit Pro 2017 Premium v. 16.01.25, c
337,0±1,0
Adobe After Effects CC 2018, c
343,5±0,7
Photodex ProShow Producer 9.0.3782, c
175,4±0,7
Обработка цифровых фотографий, баллы
100
Adobe Photoshop CС 2018, c
832,0±0,8
Adobe Photoshop Lightroom Classic СС 2018, c
149,1±0,7
Phase One Capture One Pro v. 10.2.0.74, c
437,4±0,5
Распознавание текста, баллы
100
Abbyy FineReader 14 Enterprise, c
305,7±0,5
Архивирование, баллы
100
WinRAR 5.50 (64-bit), c
323,4±0,6
7-Zip 18, c
287,50±0,20
Научные расчеты, баллы
100
LAMMPS 64-bit, c
255,0±1,4
NAMD 2.11, c
136,4±0,7
Mathworks Matlab R2017b, c
76,0±1,1
Dassault SolidWorks Premium Edition 2017 SP4.2 с пакетом Flow Simulation 2017, c
129,1±1,4
Файловые операции, баллы
100
WinRAR 5.50 (Store), c
86,2±0,8
Скорость копирования данных, c
42,8±0,5
Интегральный результат без учета накопителя, баллы
100
Интегральный результат Storage, баллы
100
Интегральный результат производительности, баллы
100

Заключение

Эту статью можно считать анонсом нашего нового тестового пакета iXBT Application Benchmark 2018. В дальнейшем мы будем использовать этот пакет для тестирования ноутбуков, ПК и процессоров, и уже в ближайшее время выйдет статья, посвященная тестированию нескольких процессоров по новой методике.

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.