Városlista
2026. január 18, vasárnap - Piroska

Hírek

2024. Október 05. 20:50, szombat | Helyi
Forrás: hvg/web/zsuffa csaba

Globális versenyfutás zajlik

Globális versenyfutás zajlik

Globális versenyfutás zajlik a szöveges adatbázisokért: Sorra tiltják ki a netről az MI-t és ez valójában fenyegető fejlemény.

A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.

Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék.

Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint

ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.

A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.

Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll).

A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.

_ _ _ _

Ezek érdekelhetnek még

2026. Január 06. 07:13, kedd | Helyi

Havazás - Az ország szinte teljes területén intenzíven havazik

Az ország szinte teljes területén intenzíven havazik hétfőn éjjel, az érintett területeken a látási viszonyok korlátozottak, amely a forgalom jelentős lassulásával jár - olvasható az Útinform honlapján.

2025. December 23. 12:26, kedd | Helyi

Közösségi tapasztalatból lett magyar termékfejlesztés a pajzsmirigybetegségek támogatására

A BLAN Synergy rendszerszintű megközelítéssel, természetes módon egészíti ki a gyógyszeres kezelést

2025. December 18. 08:46, csütörtök | Helyi

Videón - Nógrád megyébe kell jönnöd! Nézd meg a teljes beszélgetést!

Ahogy Becsó Zsolt is mondja: ha nyugalomra, gyönyörű túraútvonalakra és valódi értékekre vágysz, Nógrád megyébe kell jönnöd! Nézd meg a teljes beszélgetést!

2025. December 17. 09:41, szerda | Helyi

Salgótarján ébred - Adjuk az új város képeit, várjuk a véleményeket!

Salgótarján városközpont rehabilitációja építészeti tervpályázat 1. díj. A városközpont rehabilitáció hosszútávú célja, hogy élhető városközpont alakuljon ki Salgótarjánban. A cikk végén várjuk a véleményét.