Најнапредниот јазичен модел на OpenAI, GPT-4o доби функција за генерирање фотографии која би требало да биде најнапредна досега
OpenAI дополнително го унапреди својот најнапреден јазичен модел GPT-4o со воведување на функција за генерирање слики. Оваа можност им овозможува на корисниците да создаваат висококвалитетни и детални слики и да ги модифицираат по желба сè додека не го добијат посакуваниот резултат.
„Создавањето и прилагодувањето на сликите е едноставно како разговор со чет-бот – само опишете што ви треба, вклучувајќи детали како сооднос на страните, точни бои (на пр. hex кодови) или транспарентна позадина. Бидејќи овој модел создава подетални слики, нивното генерирање трае нешто подолго – често и до една минута“, велат од OpenAI.
За разлика од претходните AI модели кои имаа проблеми со прикажување на текст, OpenAI тврди дека GPT-4o нуди значително попрецизни и визуелно поквалитетни резултати. Поточно, веќе не би требало да има проблеми со прикажувањето на текст во генерираните слики, што претходно често беше неразбирливо и изобличено.
Дополнително, наместо постојано менување на текстуалниот барање за да се добие подобра слика, GPT-4o овозможува директна комуникација. На пример, корисникот бара слика, а потоа дава инструкции што да се промени без да го менува почетниот опис, повторувајќи го процесот додека не го постигне посакуваниот изглед. Значи, сè функционира чекор по чекор, додека основната идеја на сликата останува иста.
За полесно да го прикажат ова, OpenAI објави примери кои, заедно со текстуалните барања, можат да се погледнат на овој линк. Сепак, признаваат дека за овие примери ги користеле најдобрите резултати и дека понекогаш биле потребни до 8 обиди.
Новитет е и тоа што GPT-4o може да започне со модифицирање на веќе постоечка слика. Корисниците можат да прикачат фотографија и да побараат измени, како додавање одредени елементи или промена на стилот. OpenAI покажа како фотографија на обична мачка може постепено да се претвори во илустрација што изгледа како да е од RPG игра.
OpenAI исто така нагласува дека можно е да се започне барање со повеќе слики и да се комбинираат нивните елементи во една. Тие тврдат дека GPT-4o може прецизно да управува со 10 до 20 објекти во една слика, што претставува значителен напредок во однос на другите модели, кои можат без грешки да обработат само 5 до 8 објекти.
Сепак, и покрај напредокот, OpenAI истакнува дека GPT-4o сè уште не е совршен. Понекогаш неправилно го отсекува долниот дел на сликата, измислува детали, а работата со нелатинични писма му претставува предизвик. Генерирањето слики преку GPT-4o веќе е достапно за сите бесплатни и претплатени корисници на ChatGPT.