Városlista
2024. október 6, vasárnap - Renáta

Hírek

2024. Október 05. 20:50, szombat | Helyi
Forrás: hvg/web/zsuffa csaba

Globális versenyfutás zajlik

Globális versenyfutás zajlik

Globális versenyfutás zajlik a szöveges adatbázisokért: Sorra tiltják ki a netről az MI-t és ez valójában fenyegető fejlemény.

A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.

Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék.

Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint

ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.

A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.

Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll).

A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.

_ _ _ _

Ezek érdekelhetnek még

2024. Október 05. 21:03, szombat | Helyi

Nem válthatja vissza bárki a palackokat, 65 ezer forint is lehet a bírság

Egyre többen próbálnak meg pénzhez jutni abból, hogy összeszedik a mások által eldobott, de visszaváltható palackokat. A rendőrség azonban nem nézi jószemmel, szerintük ez szabálysértésnek minősül,

2024. Október 05. 08:00, szombat | Helyi

Zagyvarónai Családi Délután!

Szombaton mindenkit nagy szeretettel várunk! Október 5-én, szombaton 12 órakor kezdődik a Bátki József Közösségi Ház (Zagyvaróna)-ban!

2024. Október 05. 07:57, szombat | Helyi

Új pénzt ad ki a Magyar Nemzeti Bank: ilyen címletek érkeznek

Az aradi vértanúk mártírhalálának 175. évfordulója alkalmából a Magyar Nemzeti Bank új pénzt bocsát ki.

2024. Október 05. 07:47, szombat | Helyi

Hamarosan beindulhat a magyar aranybánya

Fontos mérföldkőhöz érkezett a Börzsönyben található aranybánya az újranyitáshoz vezető úton.