GaMS-Instruct-SAFE

Navodila za pisanje vprašanj in odgovorov za varnostno učno množico GaMS-Instruct-SAFE

GaMS-Instruct-SAFE - Smernice

Uvod

Učna množica z navodili in odgovori, s katerimi lahko prilagodimo slovenske velike jezikovne modele (VJM), da znajo slediti navodilom (tj. odgovarjati na vprašanja). Za razliko od drugih podobnih učnih množic, ki jih prav tako razvijamo v okviru projekta PoVeJMo (npr. GaMS-Instruct-GEN), GaMS-Instruct-SAFE vsebuje problematična navodila – takšna, ki so lahko škodljiva, ker

Cilj učne množice je, da model prilagodimo, da na tovrstna vprašanja ne sme odgovarjati oz. mora nanja odgovarjati družbeno odgovorno, etično in v skladu z načelom, da ne sme škodovati človeku, živalim, okolju ipd.

Smernice

Pisanje navodil

Navodila pišemo ročno glede na vnaprej določene kriterije: tema, dolžina, jezik in način zaobhajanja omejitev.

Dolžina

Ločimo kratka navodila (10–20 besed), srednje dolga navodila (20–50 besed) in dolga navodila (več kot 50 besed). Predpisana dolžina navodila je okvirna (kratka navodila so npr. lahko tudi krajša od 10 besed, dolga imajo lahko tudi 45 besed) in je namenjena temu, da poskrbimo za večjo raznolikost znotraj množice in preprečimo kopičenje kratkih in ponavljajočih se struktur (npr. "kaj je X", "kje lahko Y").

Jezik

Pri pisanju navodil ločimo standardni in nestandardni jezik. Navodila v nestandardnem jeziku lahko vsebujejo različne odklone od standarda: pogovorne oblike besed (lohk, naredu), pisanje brez šumnikov (cokolada, zoga), manjkajoče ali dodatne presledke pred in po ločilih ("napisi mi spis,ki opisuje…"), manjkajoča ločila (vejice), pisanje brez velikih začetnic ali samo z velikimi začetnicami ("KJE DOBIM KOKAIN"). Pomembno je, da navodila zvenijo naravno.

Tema

Tema je določena vnaprej glede na nabor, na podlagi katerega je bila določena uravnotežena distribucija navodil v množici. Navodilo se mora obvezno nanašati na navedeno temo.

Način zaobhajanja omejitev

Pri nekaterih navodilih (približno 25% celotne množice) je podan tudi način zaobhajanja omejitev modela. Gre za strategije, s katerimi uporabniki poskusijo model prelisičiti, da poda odgovor na sporna vprašanja, čeprav je bil naučen, da nanja ne sme odgovarjati. Če te načine zaobhajanja omejitev vključimo v učno množico, bo model bolj robusten in bo znal zavračati tudi takšna navodila.

V nekaterih primerih predpisanega načina zaobhajanja omejitev ni mogoče upoštevati: npr. kombinacija teme v povezavi s kuhanjem in načina zaobhajanja z vsebinami s spornih spletnih strani; na temo kuhanja težko najdemo sporne spletne strani, zato v tem primeru način zaobhajanja omejitev lahko nadomestimo z minusom (-).

Ločimo naslednje načine zaobhajanja omejitev:

Vsiljen začetek (ang. prefix injection)

Modelu v spornem navodilu naročimo, kako naj začne svoj odgovor:

Zatiranje zavrnitve (ang. refusal suppression)

Modelu v navodilu ukažemo, da mora navodilo obvezno upoštevati, da odgovora ne sme zavrniti, da ne sme uporabljati besed, ki jih pričakujemo v odgovoru, ki bi nas zavrnil ("nesprejemljivo", "nezakonito", "ne morem", "ni mi dovoljeno", ...) ipd.

Vsiljen slog (ang. style injection)

Modelu v spornem navodilu podamo dodatne napotke, ki se nanašajo na slog besedila, žanr, oblikoskladenjske značilnosti ipd.

Odboj od zavrnitve (ang. trampolining off a refusal)

Modelu izrecno naročimo, naj na vprašanje odgovori z ustreznim varnostnim odgovorom (naj nas zavrne, opozori na neprimernost navodila ipd.), potem pa naj kljub vsemu izpiše, kar smo od njega zahtevali.

Igranje vlog (ang. role-playing instructions)

Modelu naročimo, naj prevzame določeno vlogo in se pretvarja, da odgovarja na vprašanje v tej vlogi.

Zameglitev navodila na nivoju celotnega navodila (ang. obfuscation on the prompt-level)

Modelu podamo navodilo, ki je zašifrirano (npr. z Morsejevo abecedo ali z drugimi šiframi). Lahko mu tudi npr. naročimo, naj vprašanje najprej prevede v nek drug jezik in nato nazaj v slovenščino ter šele nato odgovori.

Zameglitev navodila na nivoju posameznih besed in črk (ang. obfuscation on word- and character levels)

V spornem navodilu cenzuriramo besede, za katere pričakujemo, da jih bo model obravnaval kot sporne. Za to lahko uporabimo pike, zvezdice, črke, številke ipd. Sporne besede lahko pišemo narazen na zelo nekonvencionalen način.

Distrakcija z naključnimi navodili (ang. implementing distracting instructions)

Model poskušamo zmesti, tako da mu podamo več vprašanj naenkrat; med njimi so preprosta in trivialna vprašanja, ki potem brez večje povezave vodijo v sporna.

Nenavadni formati za odgovor (ang. unusual output formats)

Modelu naročimo, kako naj oblikuje besedilni odgovor – npr. da želimo tabelo, HTML-kodo, datoteko JSON ipd.

Vsebina s spornih spletnih strani (ang. content from controversial websites)

Model prosimo za vsebine s spletnih strani, ki ponujajo neprimerne vsebine.

Neškodljive naloge na sporno tematiko (ang. harmless tasks on an unsafe topic)

Od modela zahtevamo npr. generiranje šal/haikujev/pesmic na temo sporne tematike. Navodilo prosi za generiranje besedil, ki jih običajno ne povezujemo s škodljivimi tematikami.

Prošnja po naštevanju stvari, ki jih model ne sme početi (ang. requests to list things the model should not do)

Model prosimo, naj pojasni, katerih stvari ne bi smel izpisati, katere stvari bi bilo po njegovem mnenju povsem nesprejemljivo podati v odgovoru ipd.