Városlista
2026. február 8, vasárnap - Aranka

Hírek

2024. Október 05. 20:50, szombat | Helyi
Forrás: hvg/web/zsuffa csaba

Globális versenyfutás zajlik

Globális versenyfutás zajlik

Globális versenyfutás zajlik a szöveges adatbázisokért: Sorra tiltják ki a netről az MI-t és ez valójában fenyegető fejlemény.

A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.

Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék.

Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint

ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.

A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.

Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll).

A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.

_ _ _ _

Ezek érdekelhetnek még

2026. Február 04. 18:09, szerda | Helyi

VIDEÓ - Ausztrália Csendes Összeomlása

Mi történik, ha egy ország meggazdagszik anélkül, hogy valódi gazdaságot építene? Ausztrália hamarosan meg fogja tudni.

2026. Január 27. 11:16, kedd | Helyi

VIDEÓ - Salgótarjánnak biztosra kell mennie!

Nehezen megszerzett előnyünket nem adhatjuk, nem ajándékozhatjuk a bizonytalan jövőre szavazókra. Gondolhat bárki bármit a város jövőjéről, de a tényekkel szemben haladni ésszerűtlen és felelőtlen dolog.

2026. Január 25. 13:32, vasárnap | Helyi

EGY RÈGI TÖRTÉNET!

Messziről jött emberek beszélnek zöldségeket, baloldali megmondóemberek pedig ferdítik a valóságot, ezért fontosnak tartom, hogy röviden bemutassam az én történetemet.

2026. Január 06. 07:13, kedd | Helyi

Havazás - Az ország szinte teljes területén intenzíven havazik

Az ország szinte teljes területén intenzíven havazik hétfőn éjjel, az érintett területeken a látási viszonyok korlátozottak, amely a forgalom jelentős lassulásával jár - olvasható az Útinform honlapján.