Hírek
2024. Október 05. 20:50, szombat |
Helyi
Forrás: hvg/web/zsuffa csaba
Globális versenyfutás zajlik
Globális versenyfutás zajlik a szöveges adatbázisokért: Sorra tiltják ki a netről az MI-t és ez valójában fenyegető fejlemény.
A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.
Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék.
Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint
ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.
A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.
Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll).
A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.
_ _ _ _
Ezek érdekelhetnek még
2026. Január 06. 07:13, kedd | Helyi
Havazás - Az ország szinte teljes területén intenzíven havazik
Az ország szinte teljes területén intenzíven havazik hétfőn éjjel, az érintett területeken a látási viszonyok korlátozottak, amely a forgalom jelentős lassulásával jár - olvasható az Útinform honlapján.
2025. December 23. 12:26, kedd | Helyi
Közösségi tapasztalatból lett magyar termékfejlesztés a pajzsmirigybetegségek támogatására
A BLAN Synergy rendszerszintű megközelítéssel, természetes módon egészíti ki a gyógyszeres kezelést
2025. December 18. 08:46, csütörtök | Helyi
Videón - Nógrád megyébe kell jönnöd! Nézd meg a teljes beszélgetést!
Ahogy Becsó Zsolt is mondja: ha nyugalomra, gyönyörű túraútvonalakra és valódi értékekre vágysz, Nógrád megyébe kell jönnöd! Nézd meg a teljes beszélgetést!
2025. December 17. 09:41, szerda | Helyi
Salgótarján ébred - Adjuk az új város képeit, várjuk a véleményeket!
Salgótarján városközpont rehabilitációja építészeti tervpályázat 1. díj. A városközpont rehabilitáció hosszútávú célja, hogy élhető városközpont alakuljon ki Salgótarjánban. A cikk végén várjuk a véleményét.
