Hírek
2024. Október 05. 20:50, szombat |
Helyi
Forrás: hvg/web/zsuffa csaba
Globális versenyfutás zajlik
Globális versenyfutás zajlik a szöveges adatbázisokért: Sorra tiltják ki a netről az MI-t és ez valójában fenyegető fejlemény.
A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.
Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék.
Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint
ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.
A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.
Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll).
A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.
_ _ _ _
Ezek érdekelhetnek még
2024. November 24. 08:49, vasárnap | Helyi
Nem felejtünk! Megemlékezés a karancslejtősi ellenállásról
Emlékezés a Gusztávakna bányájánál emelt emlékműnél. Az eseményen résztvevők, a Karancslejtősi ellenállás 80. évfordulóján a hős bányászokra és a kivégzett társaikra emlékeztek.
2024. November 23. 20:22, szombat | Helyi
Amikor súlyos síbalesetet szenvedett Michael Schumacher - hogyan is történt?
2013. december 29-én délelőtt letért a pályáról, hogy egy másik síelőnek segítsen... Ez az első HVG cikk, 2013. 12. 29-én jelent meg. Soroljuk a történteket...
2024. November 23. 19:38, szombat | Helyi
165 éve tudta meg a világ, hogy az ember a majomtól származik :-D
1859. 11. 24. - Charles Darwin angol természettudós megjelentette a Fajok eredete című munkáját. A könyv sokak meglepetésére, ismertette a tényeket az evolucióról és a természetes szelekcióról. A mai videóban,