22 декабря 2025 года исследовательское подразделение Tether Data в сфере искусственного интеллекта QVAC.
Представило QVAC Genesis II. Это масштабное расширение крупнейшего в мире общедоступного набора синтетических образовательных данных для предварительного обучения ИИ‑систем.
После добавления $107$ миллиардов новых токенов общий объём набора данных QVAC Genesis достиг $148$ миллиардов токенов, охватывающих $19$ образовательных областей. Такое расширение существенно повышает масштаб, глубину и качество анализа открытых обучающих данных для искусственного интеллекта.
QVAC Genesis II
Развивает достижения предыдущей версии — QVAC Genesis I. Тот уже предлагал тщательно проверенный синтетический набор данных с фокусом на образование, в первую очередь на дисциплины STEM. Вторая версия расширяет охват ещё на $10$ новых областей, среди которых:
- химия;
- информатика;
- статистика;
- машинное обучение;
- астрономия;
- география;
- эконометрика;
- электротехника.
Кроме того, существенно обновлена часть по физике для уровня колледжа — за счёт применения усовершенствованной методологии. В совокупности выпуски Genesis I и Genesis II формируют самый полный из когда‑либо опубликованных синтетических образовательных наборов данных.
Ключевая инновация релиза — новый метод генерации данных Option‑Level Reasoning. Он позволяет извлекать структурированные рассуждения как из правильных, так и из ошибочных ответов. В отличие от традиционных подходов, где верный ответ воспринимается как конечный результат, этот метод детально анализирует каждый вариант в вопросах с множественным выбором. Так он закрепляет корректные рассуждения и выявляет распространённые заблуждения. В итоге обучающие данные акцентируют внимание не на формальной правильности, а на:
- ясности изложения;
- причинно‑следственных связях;
- навыках принятия решений.
Этот подход дополняет метод анализа ошибок из Genesis I, создавая двухэтапный конвейер. Благодаря ему каждый сгенерированный вопрос становится максимально полезным с образовательной точки зрения. По результатам независимых оценок модели, обученные на данных Genesis II, показывают:
- заметно более высокую точность рассуждений;
- чаще дают чёткие и однозначные ответы — по сравнению с моделями, обученными на предыдущих синтетических наборах данных.
Релиз знаменует собой не просто количественный рост, а принципиальный сдвиг в подходах к созданию образовательных ИИ‑данных. В то время как многие игроки отрасли концентрируются на сборе всё больших объёмов текстовой информации, QVAC ставит иную цель: научить модели мыслить, аргументировать и объяснять. Фокус смещается с имитации на глубокое понимание.
Паоло Ардоино, генеральный директор Tether, прокомментировал это так:
«Большинство современных методов обучения ИИ нацелены на повышение беглости, а не понимания. С помощью этого релиза мы стремимся выйти за рамки объёма и перейти к структуре, аргументации и ясности. Интеллект должен основываться на понимании того, почему что‑то является правдой, а не просто на прогнозировании того, что кажется правильным. Открывая этот набор данных, мы предоставляем исследователям и разработчикам инструменты для создания более надёжного, объяснимого и в конечном счёте более полезного для общества ИИ».
Как и Genesis I, обновлённый набор данных опубликован в открытом доступе. Он предназначен для поддержки:
- исследователей;
- научных учреждений;
- независимых разработчиков, работающих вне закрытых проприетарных систем.
Лицензия Creative Commons Attribution — NonCommercial (CC‑BY‑NC 4.0) подчёркивает приверженность QVAC открытому, ориентированному на сообщество исследованию ИИ.
Выпуск QVAC Genesis II вписывается в общую миссию QVAC — развитие локальных децентрализованных систем искусственного интеллекта. В таких системах модели можно обучать, совершенствовать и внедрять без привязки к централизованным облачным платформам. Укрепляя открытые основы данных для обучения ИИ, Tether Data стремится:
- устранить структурные барьеры на пути инноваций;
- обеспечить доступность высококачественных данных для мирового исследовательского сообщества.
Где найти данные и подробности:
- полный технический разбор «QVAC Genesis II: расширение крупнейшего и наиболее качественного многодоменного образовательного синтетического набора данных для предварительного обучения» — в исследовательском блоге QVAC и на платформе Hugging Face;
- дополнительная информация и раздел с часто задаваемыми вопросами — на веб‑сайте QVAC.
О Tether Data
Tether Data, S.A. de C.V. (Tether Data) входит в экосистему Tether, чья цель — продвигать свободу, прозрачность и инновации через технологии. Компания стремится дать людям и организациям возможность напрямую обмениваться информацией без лишних посредников. Создавая безопасные одноранговые системы, Tether Data:
- увеличивает контроль пользователей над их данными, коммуникациями и цифровым взаимодействием;
- заменяет централизованные модели децентрализованной инфраструктурой — с акцентом на конфиденциальность, эффективность и отказоустойчивость;
- работает над тем, чтобы сделать глобальную связь быстрее, безопаснее и конфиденциальнее для частных лиц и организаций.
О QVAC

QVAC — исследовательская инициатива Tether Data в области искусственного интеллекта.
Её миссия — создание открытых, децентрализованных и адаптивных интеллектуальных систем с фокусом на локальный ИИ.
Девиз проекта — «Без компромиссов»: это видение мира, где ИИ может жить и обучаться на любом устройстве, расширяя возможности людей и сообществ, а не концентрируя власть в корпоративных центрах обработки данных.