Моделът на големия език (LLM) може да пише убедителни статии, базирани на подканващи думи, да преминава професионални изпити и да пише лесна за разбиране и емпатична информация. В допълнение към добре познатите рискове от измислица, крехкост и неточни факти в LLM, други нерешени въпроси постепенно се превръщат във фокус, като например модели на изкуствен интелект, съдържащи потенциално дискриминационни „човешки ценности“ при създаването и употребата си, и дори ако LLM вече не изфабрикува съдържание и елиминира очевидно вредни резултати, „ценностите на LLM“ все още могат да се отклоняват от човешките ценности.
Безброй примери илюстрират как данните, използвани за обучение на модели с изкуствен интелект, кодират индивидуални и социални ценности, които могат да се затвърдят в рамките на модела. Тези примери включват редица приложения, включително автоматична интерпретация на рентгенови снимки на гръдния кош, класификация на кожни заболявания и алгоритмично вземане на решения относно разпределението на медицинските ресурси. Както е посочено в скорошна статия в нашето списание, предубедените данни за обучение могат да усилят и разкрият ценностите и предубежденията, присъстващи в обществото. Напротив, изследванията показват също, че изкуственият интелект може да се използва за намаляване на предубежденията. Например, изследователи са приложили модели на дълбоко обучение към рентгенови снимки на коляното и са открили фактори, които са били пропуснати от стандартните показатели за тежест (степенувани от рентгенолози) в колянната става, като по този начин са намалили необяснимите разлики в болката между чернокожи и бели пациенти.
Въпреки че все повече хора осъзнават пристрастията в моделите с изкуствен интелект, особено по отношение на данните за обучение, на много други входни точки на човешките ценности не се обръща достатъчно внимание в процеса на разработване и внедряване на модели с изкуствен интелект. Медицинският изкуствен интелект напоследък постигна впечатляващи резултати, но до голяма степен той не е взел предвид изрично човешките ценности и тяхното взаимодействие с оценката на риска и вероятностните разсъждения, нито е моделиран.
За да конкретизираме тези абстрактни понятия, представете си, че сте ендокринолог, който трябва да предпише рекомбинантен човешки растежен хормон на 8-годишно момче, което е под 3-тия персентил от възрастта си. Нивото на стимулиран човешки растежен хормон на момчето е под 2 ng/mL (референтна стойност >10 ng/mL, референтна стойност за много страни извън Съединените щати е >7 ng/mL), а в гена, кодиращ човешкия растежен хормон, са открити редки инактивиращи мутации. Смятаме, че приложението на терапията с човешки растежен хормон е очевидно и безспорно в тази клинична обстановка.
Прилагането на терапия с човешки растежен хормон в следните сценарии може да предизвика противоречия: ръстът на 14-годишно момче винаги е бил в 10-ия персентил на неговите връстници, а пикът на човешкия растежен хормон след стимулация е 8 ng/mL. Няма известни функционални мутации, които могат да повлияят на ръста, нито други известни причини за нисък ръст, а костната му възраст е 15 години (т.е. няма забавяне в развитието). Само част от противоречията се дължат на разликите в праговите стойности, определени от експерти въз основа на десетки проучвания относно нивата на човешки растежен хормон, използвани за диагностициране на изолиран дефицит на растежен хормон. Поне толкова противоречия произтичат от баланса риск-полза от използването на терапия с човешки растежен хормон от гледна точка на пациенти, родители на пациенти, здравни специалисти, фармацевтични компании и платци. Педиатричните ендокринолози могат да преценят редките нежелани ефекти от ежедневните инжекции с растежен хормон в продължение на 2 години с вероятността от никакъв или само минимален растеж на размера на тялото при възрастни в сравнение с настоящето. Момчетата може да вярват, че дори ако ръстът им се увеличи само с 2 см, си струва да се инжектира растежен хормон, но платецът и фармацевтичната компания може да имат различни мнения.
Вземаме за пример eGFR, базиран на креатинин, който е широко използван индикатор за бъбречна функция за диагностициране и стадиране на хронично бъбречно заболяване, определяне на условия за бъбречна трансплантация или даряване и определяне на критерии за намаляване и противопоказания за много лекарства, отпускани с рецепта. EGFR е просто регресионно уравнение, използвано за оценка на измерената скорост на гломерулна филтрация (mGFR), която е референтен стандарт, но методът за оценка е сравнително тромав. Това регресионно уравнение не може да се счита за модел на изкуствен интелект, но илюстрира много принципи за човешките ценности и вероятностното разсъждение.
Първата входна точка за човешки стойности, които да влязат в eGFR, е при избора на данни за фитинги на уравнения. Първоначалната опашка, използвана за проектиране на формулата за eGFR, е съставена предимно от чернокожи и бели участници и приложимостта ѝ към много други етнически групи не е ясна. Последващите входни точки за човешки стойности в тази формула включват: избиране на точността на mGFR като основна цел за оценка на бъбречната функция, какво е приемливо ниво на точност, как да се измери точността и използване на eGFR като праг за задействане на вземането на клинични решения (като например определяне на условия за бъбречна трансплантация или предписване на лекарства). Накрая, при избора на съдържанието на входния модел, човешките стойности също ще влязат в тази формула.
Например, преди 2021 г., насоките предлагат коригиране на нивата на креатинина във формулата за eGFR въз основа на възрастта, пола и расата на пациента (класифицирани само като чернокожи или нечернокожи лица). Корекцията въз основа на раса има за цел да подобри точността на формулата за mGFR, но през 2020 г. големите болници започнаха да поставят под въпрос използването на eGFR, базиран на раса, посочвайки причини като забавяне на допустимостта на пациента за трансплантация и конкретизиране на расата като биологично понятие. Изследванията показват, че проектирането на eGFR модели по отношение на расата може да има дълбоко и различно въздействие върху точността и клиничните резултати; следователно, селективното фокусиране върху точността или фокусирането върху част от резултатите отразява ценностни преценки и може да маскира прозрачното вземане на решения. Накрая, националната работна група предложи нова формула, която беше преработена, без да се вземе предвид расата, за да се балансират въпросите, свързани с производителността и справедливостта. Този пример илюстрира, че дори една проста клинична формула има много входни точки в човешките ценности.
В сравнение с клиничните формули само с малък брой предсказващи индикатори, LLM може да се състои от милиарди до стотици милиарди параметри (тегла на модела) или повече, което го прави труден за разбиране. Причината, поради която казваме „труден за разбиране“, е, че в повечето LLM точният начин за предизвикване на отговори чрез задаване на въпроси не може да бъде картографиран. Броят на параметрите за GPT-4 все още не е обявен; неговият предшественик GPT-3 имаше 175 милиарда параметъра. Повече параметри не означават непременно по-силни възможности, тъй като по-малките модели, които включват повече изчислителни цикли (като например серията модели LLaMA [Large Language Model Meta AI]) или моделите, които са фино настроени въз основа на човешка обратна връзка, ще се представят по-добре от по-големите модели. Например, според човешки оценители, моделът InstrumentGPT (модел с 1,3 милиарда параметъра) превъзхожда GPT-3 при оптимизиране на резултатите от модела.
Конкретните подробности за обучението на GPT-4 все още не са разкрити, но подробностите за модели от предишно поколение, включително GPT-3, InstrumentGPT и много други LLM с отворен код, са разкрити. В днешно време много AI модели се предлагат с моделни карти; данните за оценка и сигурност на GPT-4 са публикувани в подобна системна карта, предоставена от компанията за създаване на модели OpenAI. Създаването на LLM може да бъде грубо разделено на два етапа: начален етап на предварително обучение и етап на фина настройка, насочен към оптимизиране на изходните резултати на модела. В етапа на предварително обучение моделът се предоставя с голям корпус, включващ оригиналния интернет текст, за да се обучи да предсказва следващата дума. Този привидно прост процес на „автоматично завършване“ създава мощен фундаментален модел, но може да доведе и до вредно поведение. Човешките ценности ще навлязат в етапа на предварително обучение, включително избор на данни за предварително обучение за GPT-4 и вземане на решение за премахване на неподходящо съдържание, като например порнографско съдържание, от данните за предварително обучение. Въпреки тези усилия, основният модел може все още да не е нито полезен, нито способен да съдържа вредни изходни резултати. В следващия етап на фина настройка ще се появят много полезни и безобидни поведения.
В етапа на фина настройка, поведението на езиковите модели често се променя дълбоко чрез контролирана фина настройка и обучение с подсилване, базирани на човешка обратна връзка. В етапа на контролирана фина настройка, наетият персонал на изпълнителя ще напише примери за отговори за подканващи думи и директно ще обучи модела. В етапа на обучение с подсилване, базиран на човешка обратна връзка, човешките оценители ще сортират изходните резултати на модела като примери за входно съдържание. След това ще приложат горните резултати от сравнението, за да научат „модела на награждаване“ и да подобрят допълнително модела чрез обучение с подсилване. Удивително ниско ниво на човешка намеса може да фино настрои тези големи модели. Например, моделът InstrumentGPT използва екип от приблизително 40 служители на изпълнителя, наети от краудсорсинг уебсайтове, и е преминал скрининг тест, насочен към избор на група от анотатори, които са чувствителни към предпочитанията на различни групи от населението.
Както показват тези два крайни примера, а именно простата клинична формула [eGFR] и мощният LLM [GPT-4], човешкото вземане на решения и човешките ценности играят незаменима роля при оформянето на резултатите от модела. Могат ли тези модели с изкуствен интелект да уловят разнообразните ценности на пациентите и лекарите? Как публично да се насочва приложението на изкуствен интелект в медицината? Както е споменато по-долу, преразглеждането на анализа на медицинските решения може да осигури принципно решение на тези проблеми.
Анализът на медицинските решения не е познат на много клиницисти, но той може да прави разлика между вероятностни разсъждения (за несигурни резултати, свързани с вземането на решения, като например дали да се приложи човешки растежен хормон в противоречивия клиничен сценарий, показан на Фигура 1) и фактори на съобразяване (за субективни стойности, свързани с тези резултати, чиято стойност се определя количествено като „полезност“, като например стойността на увеличение на мъжкия ръст с 2 см), предоставяйки систематични решения за сложни медицински решения. При анализа на решенията клиницистите първо трябва да определят всички възможни решения и вероятности, свързани с всеки резултат, и след това да включат полезността на пациента (или другата страна), свързана с всеки резултат, за да изберат най-подходящия вариант. Следователно, валидността на анализа на решенията зависи от това дали настройката на резултата е изчерпателна, както и дали измерването на полезността и оценката на вероятността са точни. В идеалния случай този подход помага да се гарантира, че решенията са базирани на доказателства и са съобразени с предпочитанията на пациента, като по този начин се намалява разликата между обективните данни и личните ценности. Този метод е въведен в медицинската област преди няколко десетилетия и се прилага за вземане на решения от отделни пациенти и оценка на здравето на населението, като например предоставяне на препоръки за скрининг за колоректален рак на общото население.
В анализа на медицинските решения са разработени различни методи за определяне на полезността. Повечето традиционни методи директно извличат стойност от отделните пациенти. Най-простият метод е използването на скала за оценка, при която пациентите оценяват нивото си на предпочитание към определен резултат по цифрова скала (като линейна скала, варираща от 1 до 10), като най-екстремните здравни резултати (като пълно здраве и смърт) са разположени в двата края. Методът на обмен на време е друг често използван метод. При този метод пациентите трябва да вземат решение колко здравословно време са готови да прекарат в замяна на период на лошо здраве. Стандартният метод на хазарта е друг често използван метод за определяне на полезността. При този метод пациентите се питат коя от двете опции предпочитат: или да живеят определен брой години в нормално здраве със специфична вероятност (p)(t) и да поемат риска от смърт с вероятност 1-p; или да се уверят, че ще живеят t години при условия на кръстосано здраве. Пациентите се питат многократно при различни p-стойности, докато не покажат, че не предпочитат нито една опция, така че полезността да може да се изчисли въз основа на отговорите на пациентите.
В допълнение към методите, използвани за установяване на индивидуалните предпочитания на пациентите, са разработени и методи за постигане на полезност за пациентската популация. По-специално дискусиите във фокус групи (събиране на пациенти, за да обсъдят специфични преживявания) могат да помогнат за разбирането на техните гледни точки. За да се обобщи ефективно полезността на групата, са предложени различни техники за структурирани групови дискусии.
На практика директното въвеждане на полезността в процеса на клиничната диагностика и лечение е много времеемко. Като решение, въпросниците за проучване обикновено се разпространяват сред произволно избрани популации, за да се получат оценки за полезност на ниво популация. Някои примери включват 5-измерния въпросник EuroQol, кратката форма за 6-измерно тегло на полезността, индекса за полезност в здравеопазването и инструмента Core 30 за въпросник за качество на живот на Европейската организация за изследване и лечение на рака, специфичен за рака.
Време на публикуване: 01 юни 2024 г.




