Blog - News

Cydnabod Endidau a Enwir ar gyfer Enwau Lleoedd Mewn Testunau Cymraeg

Casgliadau / Collections / Digido / Digitisation / News / Research / Ymchwil - Postiwyd 07-03-2023

Defnyddio Wikidata i strwythuro data enwau lleoedd Cymraeg

Mae’r testun rydyn ni’n ei ddarllen pan rydyn ni’n pori tudalen we, blog neu erthygl cylchgrawn yn llawn gwybodaeth gyfoethog a gwerthfawr. Mae ein hymennydd yn dda iawn am brosesu a gwneud synnwyr o eiriau yn y cyd-destun y cânt eu cyflwyno ynddo. Gallwn ddweud pan fydd gair yn enw lle oherwydd ein bod yn deall y frawddeg o’i gwmpas, ac yn disgwyl gweld enw lle. Hefyd, rydym yn aml eisoes yn gwybod enw’r lle a gallem ei ddisgrifio’n fanylach o’r cof.

Pe bai cyfrifiaduron yn gallu deall testun yn yr un ffordd yna gallent fod yn hynod ddefnyddiol i’n helpu ni i ddod o hyd i wybodaeth a’i ddeall yn well. Mae technoleg fel Cydnabod Endidau a Enwir neu Named Entity Recognition (NER), lle mae peiriannau’n cael eu hyfforddi i adnabod pethau fel pobl, lleoedd a sefydliadau trwy ddadansoddi testun cyfan, yn cael ei ddefnyddio’n fwy aml i droi testun plaen yn rhwydwaith strwythuredig o ‘bethau’, ac mae hyn yn galluogi peiriannau i wneud dadansoddiadau mwy cymhleth o destun, yn yr un modd a ni.

Fel rhan o’n prosiect parhaus Enwau Lleoedd Cymru, a ariennir gan Lywodraeth Cymru, roeddem yn awyddus i archwilio sut y gellid cymhwyso’r technolegau a’r methodolegau newydd hyn i destunau Cymraeg ac i’n casgliadau. Gyda miliynau o dudalennau o gylchgronnau, papurau newydd a llyfrau eisoes wedi’u digideiddio, sut gallai’r dechnoleg hon ein helpu i wella ein gwasanaethau ar gyfer gwell ymchwil, darganfod a dehongli?

 

Cydnabod Endidau a Enwir

Dewiswyd Y Bywgraffiadur Cymreig ar gyfer yr arbrawf hwn, fel corpws (gweddol) hylaw o tua 5000 o erthyglau, yn llawn gwybodaeth am bobl a lleoedd. Mae’r rhan fwyaf o enwau lleoedd eisoes wedi’u tagio yn y côd ar gyfer pob tudalen, sy’n rhoi meincnod da inni ar gyfer modelau NER aneli ato, a chorpws mawr o enwau lleoedd i’w dadansoddi ymhellach.

Nodi pa eiriau sy’n enwau lleoedd yw’r cam cyntaf yn y broses hon. Yna mae angen cysoni’r enwau hynny â chronfa ddata o enwau, a all roi mynediad inni i ddealltwriaeth ddyfnach, amlieithog o’r lle.

Mae offer NER Saesneg yn ei chael hi’n anodd adnabod enwau lleoedd mewn testun Cymraeg am nifer o resymau. Yn gyntaf nid ydynt wedi’u hyfforddi i ddeall treigladau gramadegol sy’n bresennol yn yr iaith Gymraeg. Er enghraifft, ‘Tregaron’ yw enw tref yn Gymraeg a Saesneg ond, os yw’r testun yn darllen ‘yn Nhregaron’, ni fydd yn adnabod yr enw oherwydd treiglad y llythyren gyntaf. Yn ail, mae llawer o enwau lleoedd yn wahanol yn y Gymraeg (e.e. Cardiff yw Caerdydd) ac felly ni fydd gan fodelau sydd wedi’u hyfforddi ar destun Saesneg y gair yn eu geirfa. Profwyd sawl model Saesneg ac nid oedd llawer yn adnabod enwau lleoedd, neu’n cymryd yn ganiataol mai enwau pobl oeddent.

Arbrofwyd felly gyda ‘Cymrie’, rhan o Becyn Cymorth Iaith Naturiol Cymru a ariennir gan Lywodraeth Cymru.

 

Tynnu endidau a enwir o destun digidol gan ddefnyddio ‘Cymrie’

Llwyddodd y broses i echdynnu nifer o enwau lleoedd Cymraeg, gan gynnwys llawer gyda threigladau. Dadansoddwyd testun 5 erthygl yn fanwl. Ar gyfartaledd, llwyddodd yr offeryn i echdynnu tua 67% o enwau lleoedd. O’r enwau lleoedd hynny, dim ond 2% oedd yn anghywir, hynny yw nid yn enwau lleoedd.

Cafodd rhai o’r enwau lleoedd methwyd eu hadnabod eu tagio fel pobl neu sefydliadau, er bod hyn ar gyfradd is na’r model Saesneg.

 

Cysoni’r data

Mae gwybod pa eiriau sydd yn enwau pobl neu leoedd yn ddefnyddiol ond i bwynt, oherwydd nid ydym yn gwybod dim mwy na ‘mae hyn yn le’. Er mwyn i’r data fod yn ddefnyddiol iawn mae angen mynediad at ragor o wybodaeth am bob lle, megis ei enw mewn ieithoedd eraill, ei leoliad ar fap, a’r sir, gwlad neu gyfandir y mae’n rhan ohono. Yna gallwn gymhwyso dynodwr unigryw i bob lle ac maent yn dod yn endidau data unigryw.

I wneud hyn mae angen i ni gymryd ein rhestr hir o enwau lleoedd a cheisio eu cysoni â chronfa ddata sy’n cynnwys mwy o wybodaeth amdanynt. Yn ein hachos ni rydym yn defnyddio Wikidata, sy’n gartref i un o’r corpws mwyaf o enwau lleoedd Cymraeg sydd ar gael. Mae Wikidata am ddim i unrhyw un ei ailddefnyddio ac mae wedi’i strwythuro fel data cysylltiedig.

Mae’r Bywgraffiadur Cymreig yn cynnwys tua 80,000 o enghreifftiau o enwau lleoedd. Oherwydd ymarferoldeb gweithio gyda set ddata mor fawr, dewisais weithio gyda’r 46,000 o leoedd cyntaf wedi’u tagio.

Roedd y tagiau yng nghôd y Bywgraffiadur Cymreig yn aml yn cynnwys mwy na dim ond yr enw lle. Roeddent hefyd yn cynnwys cyfeirnod Grid, y math o le (dinas, pentref ac ati) a’r berthynas â’r lle hwnnw sy’n cael ei drafod yn yr erthygl.

Yn amlwg mae cael yr holl wybodaeth hon wrth law yn gwneud y broses cysoni yn llawer mwy tebygol o lwyddo. Wrth i dechnoleg NER wella, dylai allu awgrymu llawer o’r wybodaeth hon, trwy ddeall y cyd-destun ehangach y mae’r enw lle yn ymddangos ynddo, ond am y tro, rhaid inni dderbyn, heb y wybodaeth ychwanegol yma, y byddai gan y broses hon gyfradd llwyddiant llawer is.

Gan ddefnyddio teclyn cysoni Open Refine, roeddem yn gallu cymharu ein rhestr o enwau lleoedd â Wikidata. Mae algorithm y meddalwedd yn edrych am debygrwydd mewn sillafu ond mae hefyd yn ystyried y tebygolrwydd o gyfatebiaeth yn seiliedig ar boblogrwydd ei gynnwys. Trwy drawsnewid y cyfeirnodau grid o’n data yn gyfesurynnau, roeddem hefyd yn gallu cyfarwyddo Open Refine i sgorio canlyniadau yn seiliedig ar eu hagosrwydd. Roedd lleoedd ag enwau cyfatebol ac agosrwydd o lai na chilometr yn cael eu paru’n awtomatig ar y cyfan. Defnyddiwyd ein data ar y math o le hefyd i helpu’r feddalwedd i wneud dyfarniad.

Er mwyn rhoi’r siawns orau o lwyddiant i’r broses gysoni gwnaed peth glanhau cychwynnol i ddileu treigladau o’r testun. Gellid gwneud llawer o hyn gan ddefnyddio cyfres o drawsnewidiadau megis;

  • Nghaer – Caer
  • Nhre – Tre

Mae eraill angen dealltwriaeth o’r iaith a mewnbwn dynol er mwyn osgoi llygru enwau eraill. Er enghraifft, ni ellir newid ‘Lan’ yn awtomatig i ‘Llan’ heb lygru enwau eraill fel ‘Lanishan’.

Roedd heriau eraill yn cynnwys y defnydd o enwau Saesneg yn y testun Cymraeg;

  • New England (Lloegr Newydd)
  • Bristol (Bryste)
  • Saint Brides  (Sant y Brid)

Roedd yna hefyd nifer o enwau lleoedd efo awgrymiadau paru, ond roedd siawns uchel o fod yn enw tŷ, neu endid eraill hefyd. Er enghraifft;

  • Trawscoed (Tŷ, ystad a chymuned )
  • Cilgwyn (pentref ym Mhowys, Gwynedd, Sir Caerfyrddin a Phlasty)
  • Ty-coch (ardal ger Abertawe ac enw cyfarwydd ar gyfer tai)

 

Heb ddarllen pob erthygl er mwyn gwneud penderfyniad, nid oes unrhyw ffordd, ar hyn o bryd, i adnabod lleoedd o’r fath gydag unrhyw sicrwydd. Fodd bynnag, gallai’r proses â llaw o’r fath gael ei throi’n gem fel tasg dorfol. Byddai ymgymryd â thasgau o’r fath hefyd yn creu data hyfforddi ar gyfer gwella NER yn y dyfodol.

 

Alinio’r data i Wikidata gan defnyddio OpenRefine

 

Y canlyniad cychwynnol oedd aliniad o 25,000 o enwau i Wikidata, ac ychwanegwyd 2000 arall at hynny yn gyflym yn dilyn adolygiad dynol o awgrymiadau sgoriodd yn uchel. Mae’r cyfatebai hyn yn cynnwys 2208 o enwau lleoedd unigryw. Y tu hwnt i hyn, byddai angen mwy o amser i baru cofnodion â llaw.

 

Mae alinio enwau lleoedd â dynodwyr unigryw yn ein galluogi i archwilio amlder lleoedd penodol yn y testun efo well cywirdeb

Defnyddio’r data cyfoethog

Nawr ein bod wedi alinio ein henwau lleoedd i gofnodion Wikidata ar gyfer y lleoedd hynny, mae gennym fynediad at gyfoeth o wybodaeth ychwanegol. Gellir crynhoi’r wybodaeth ychwanegol hon mewn sawl categori;

 

  • ID Parhaus – Mae gallu neilltuo Qid unigryw i bob enw lle yn golygu y gallwn drin pob un fel endid unigryw, hyd yn oed os oes mwy nag un lle efo’r un enw.
  • ID allanol – mae Wikidata yn cofnodi dynodwyr parhaus o sefydliadau eraill sy’n cadw gwybodaeth am y pwnc. Mae hyn yn helpu i alinio a chyfoethogi data ar draws setiau data lluosog.
  • Gwybodaeth gyd-destunol – Mae hyn yn cynnwys dolenni i erthyglau Wicipedia, delweddau ar drwydded agored a chyfeiriadau at weithiau awdurdodol eraill.
  • Data Strwythuredig – Mae Wikidata yn cynnwys ontoleg gysylltiedig, strwythuredig am ei eitemau. Felly mae lleoedd wedi’u cysylltu â’u hierarchaeth weinyddol a phob eitem arall yn y set ddata gyda datganiad am y lle hwnnw.

 

Mae hyn yn ein galluogi i ddeall yn well y cysylltiadau rhwng pobl a lle. Yn yr enghraifft isod mae cyfrifiadur yn gallu deall bod dau berson yn gysylltiedig â sawl man cyffredin trwy gyfeiriadau at y mannau hyn yn eu herthyglau Bywgraffiadur. Mae lliw a thrwch y llinynnau cysylltu hefyd yn nodi amlder y cyfeiriadau hyn ym mhob erthygl.

 

 

Pan fydd y dull hwn yn cael ei ehangu i’r corpws cyfan gallwn weld gwe hynod gymhleth o ryng-gysylltiadau rhwng pobl a lleoedd.

 

 

A chan fod gennym bellach fynediad at gyfesurynnau ar gyfer ein holl leoedd, gallwn ddelweddu’r cysylltiadau hyn ar fap. Isod, gwelwn ddelweddau ar gyfer unigolyn ac ar gyfer y casgliad cyfan gan ddefnyddio man geni pobl fel man cychwyn, yn cysylltu â’r holl fannau eraill a grybwyllir yn eu herthyglau.

 

 

Gan ddefnyddio’r wybodaeth gyd-destunol mewn tagiau enwau lleoedd gallwn wneud ymholiadau mwy gronynnog, megis cysylltiadau rhwng man geni a mannau addysg a grybwyllir yn eu herthyglau. Mae hyn yn amlygu cydberthnasau clir â phrif ganolfannau dysgu ac yn dangos ymhellach botensial ymchwil y data.

 

Casgliadau

 

I gloi, gall technoleg bresennol adnabod yn gywir tua 60-70% o enwau lleoedd Cymraeg mewn testun digidol. Mae’n bosib bydd hyfforddi algorithmau A.I. gwell sy’n defnyddio geirfaoedd enwau lleoedd mwy a chorff mwy o ddata hyfforddi yn helpu i gynyddu’r ganran hon hyd yn oed ymhellach. Byddai ymgymryd â’r broses hon ar raddfa fawr yn galluogi gwaith ymchwil a chysoni pellach ac fe fyddai hefyd yn helpu gwella systemau chwilio a darganfod, ond nid yw hyn yn nodi lleoedd unigryw, dim ond enghreifftiau o enw lle.

Er mwyn creu buddion nodedig, rhaid cysoni’r data â chronfa ddata sy’n cynnwys data am leoedd penodol. Gyda llawer o ddyblygiadau mewn enwau lleoedd yng Nghymru a ledled y byd mae’r cam hwn yn hanfodol er mwyn creu cysylltiadau â’r lleoedd cywir. Mae’n ymddangos nad oes gennym ni’r dechnoleg eto i awtomeiddio hyn, mewn unrhyw iaith, gyda lefel uchel o sicrwydd. Mae sawl enghraifft o biblinellau’n cael eu datblygu er mwyn nodi endidau mewn testun a chysoni’n uniongyrchol â Wikidata neu setiau data mawr eraill, gan gynnwys prosiect gan gydweithiwr yma yn y Llyfrgell Genedlaethol (dolen). Fodd bynnag, maent wedi wynebu’r union heriau.

Lle mae data ategol ychwanegol eisoes yn bodoli, fel ein hesiampl o’r Bywgraffiadur Cymreig, mae’n bosibl awtomeiddio hyn i ryw raddau ond mae lwfans ansicrwydd sylweddol o hyd heb fewnbwn dynol.

Er nad yw’n bosibl eto adnabod endidau o destun yn gywir ac yn gyflawn, mae’r prosesau hyn yn cynnig gwerth, fel gweithgaredd annibynnol neu fel rhan o ddull amlddisgyblaethol, fel ffordd o wella dealltwriaeth o destun a gwella gwasanaethau chwilio a darganfod i ddefnyddwyr. 

Mae’n bwysig nodi hefyd, nad yw’r gwaith yma’n bosib heb ddatblygiad, addasiad a gwelliant parhaus, trwy fagu technolegau newydd, a thrwy sicrhau argaeledd ffynonellau data Mynediad Agored megis Wikidata a Open Street Map a chyrff mawr o destun Gymraeg fel Wicipedia er mwyn dysgu algorithmau dysgu peiriant newydd.

 

Jason Evans, Rheolwr Data Agored

Tagiau: , , , , , , , , , , , ,

Categorïau

Chwilio

Archifau

Cefndir y blog

Blog i gyflwyno gwaith a chasgliadau Llyfrgell Genedlaethol Cymru.

Yn sgil natur bersonol blogiau, polisi'r Llyfrgell yw cyhoeddi postiadau yn yr iaith wreiddiol yn unig. Cyhoeddir yr un faint o bostiadau yn y ddwy iaith, ond nid yr un blogiau ydynt. Am gyfieithiad bras gellir darllen y blog drwy ddefnyddio system gyfieithu megis Google Translate.

Cefndir y blog