A l’empresa a vegades em fan preguntes capcioses. Tipus “i el català i el castellà, són molt diferents? Quan de diferents?”. I després “és més diferent el castellà o el francès?”, etc.Normalment contesto el poc que sé: el francès, si és escrit, el puc entendre força bé. El castellà, penso que si algú només sap català el podria entendre “força bé”, i si algú només sap castellà el català ha d’entendre coses. Si vol, clar!
Un dia la pregunta era “però quin percentatge de paraules creus que són diferents?” i clar, un davant aquestes preguntes no es pot aguantar.
Uns dies més tard vaig posar-me a fer la feina: agafar els diccionaris que venen a Debian de català, anglés i francés i vaig posar-me a fer les proves.
Dades: el diccionari català conté 684720 paraules(!!), l’anglès 98326, el francès 139704 i el castellà 86016. Veure que el català ha estat fet de diferent manera, i conté plurals i altres variacions de les paraules.
Vaig creuar totes les llengua amb català (així és fàcilment comparable). Els reulstats són:
–16% de les paraules castellanes estan incloses al diccionari català (13774 paraules)
–5.5% de les paraules franceses estan incloses al diccionari català (7684 paraules)
–5.3% de les paraules angleses estan incloses al diccionari català
Els resultats NO són massa acurats perquè:
- Hi ha paraules que estan igual escrites i volen dir diferent coses. Per exemple, “cama” en català (part del cos) i “cama” en castellà que és llit en català
- Paraules que s’escriuen “una mica diferent” però s’endevina el significat (“paper” i “papel”)
M’ha sorprès que la distància, mal comptat d’aquesta manera, català i francès i català i anglès sigui tant igual. M’esperava ser molt més proper al francés. De fet, crec que sense estudiar francés el podria entendre millor (llegit) que no pas l’anglès.
Com a comentari, però conec força paraules franceses que són molt semblants a les catalanes. Per exemple “Moulin Rouge” ja es veu que és “Molí Roig”, en canvi amb anglés seria “Red Mill” (que això, ja no es veu que sigui “Molí roig”). Una altra: “fromage” i “formatge” (cheese). Evidentment també n’hi ha que passaria el mateix amb l’anglés…
Com a comentari, també hi ha paraules que s’escriuen igual però es pronuncien diferent (“paper” en català i anglés).
Idees per millorar la comparativa:
- Es podria fer transcripció fonètica i comparar fonemes. Ja no seria tant fàcil. Hi ha maneres de tenir el so que es representen les paraules, algunes maneres com Soundex són molt simples i es fan servir a bases de dades. Però, almenys Soundex, està centrat amb la llengua anglesa. Es podria fer alguna cosa amb Festival (agafar la transcripció fonètica i comparar-ho)
- Es podria mirar la distància (com qui calcula la distància de Hamming, castellà i senzill, anglés i molt complet). Amb això es podria comparar la distancia promig d’una paraula amb la més propera de l’altre diccionari. Per exemple, “paper” i “paper” són iguals, però no “paper” i “papel”. La distància de Hamming en aquest cas seria 1 (només canvia un caràcter). Així es podria mirar amb quants canvis es pot passar d’una paraula a la més propera, en promig.
De moment no crec que faci aquestes idees, tot i que la segona especialment m’atrau l’atenció.
De totes maneres, suposo que ja hi ha molts estudis en aquest àmbit i estic re-descobrint la sopa d’all. També miraré què hi ha, o preguntaré als entesos 🙂
Pel que fa a la diferència entre el català i el francès, si un mot català termina en, per exemple, -ar, podries determinar si el mateix mot en francès terminés en -er, ja que verbs com “parlar” i “parler” òbviament són iguals.
for (keys %catalan_list) {
$cnt++ if $french_list{$_};
if (s/ar$/er/) {
$cnt++ if $french_list{$_};
}
}
En Jonathan, de la llista DACCO, seria una bona persona per a consultar, ja que té molt domini de francès.
PERL a Pintant!!! Quina ilu!
tests time mashine
[…] I remember checking, in 2006, how many words are exactly the same in Spanish and Catalan compared with Catalan and French or Catalan and English. I was trying to explain “how […]
It is really a great and useful piece of information. I am glad
that you shared this useful info with us. Please keep us informed like this.
Thank you for sharing.