Llengües (primera part)

Algun cop ho he comentat: de llengües, no en sé, però m’agraden (així que escric això des de l’ignorància). Tinc unes curiositat entrellaçades que voldria comentar.

Primer de tot: fa molts anys, un professor d’anglès tècnic va comentar que entenent el 75% del text és quan s’entén de què va. Menys del 75% no. Per això, quan sabíem el 75% ens posava un aprovat just (menys d’això no era suficient).

Altra dada: a la Vanguardia havia vist un anunci de “Aprenda Inglés en 1000 palabras”. Segons explicaven, amb 1000 paraules s’entén més o menys tot (vida cotidiana!). Insistien en dominar molt bé aquestes 1000 paraules de base. I que havien fet estudis rigorosos per buscar les 1000 paraules més importants. Jo per curiositat també ho vaig fer (amb textes llargs i un programet) i justament amb 1000 paraules i textes normals es tenen entre el 70% i el 75% de les paraules (just per entendre, segons el professor d’anglès). Evidentment la dada no és gens acurada perquè no té en compte que una paraula pot tenir plural, temps verbals, etc. però ja dona una idea.

I quantes paraules sé?

Fa anys em vaig preguntar: i quantes paraules jo faig servir? I quines són les que més? Vaig agafar textes anglesos que jo havia escrit espontàniament (xat, mails ràpids). Amb el programa d’abans vaig mirar com anava, i feia servir (crec) unes 2000 o 2500 paraules (plurals inclosos com a paraules diferents). A més vaig mirar amb la gent que jo parlava: tenien més vocabulari, unes 3000 o 4000. Evidentment, hi ha moltes paraules que jo no faig servir però sé què volen dir.Més coses: volia buscar una manera de saber quantes paraules sé. Sí, puc fer aproximacions o coses, però he fet un altre enfoc. He agafat els fitxers XML de Dacco (unes 12000 entrades a la versió que tinc al disc, en anglès). Ho he passat a fitxer de text que m’és més còmode 🙂 i llavors he fet un programa que agafa una paraula a l’atzar i et demana si la saps o no la saps. Ho va fent fins que un vol sortir. En qualsevol moment es pot premer “s” per veure l’estadística:
———
Paraules demanades: 83
Has sabut: 74
Percentatge: 89.16
Projectant a univers paraules: 10944.87
———

L’univers de paraules són les 12000 paraules totals, i aquí diu quantes en sé del total de paraules. Era una prova, hauria d’estar “jugant” més estona.

Pot ser poc acurat. De fet, però, el “Projectant a univers de paraules” hauria de ser una cota inferior prou bona: sé el 89% de paraules de Dacco agafades a l’atzar, doncs almenys sembla que sàpiga unes 10900 paraules.

Evidentment: hauria de jugar més que 83 paraules demanades.

De totes maneres m’ha sorprès molt positivament. A veure si jugo una estona llarga per saber què passa.

Ah! el tema va molt bé, perquè les paraules que no sé les miro i potser algunes les recordaré 🙂

El programa
Enllaç al programa amb el fitxer de dades. És un .tar.gz, descomprimir, anar al directori i executar “./demanar.py” . Us anirà demanant les paraules, podeu veure l’estadística (ho fa automàtic al sortir, també), etc.

PD: és fàcil canviar el fitxer de dades, per exemple, per /usr/share/dict/british-english, paquet a Debian wbritish. Sobrescriviu el diccionari.txt o bé editeu el fitxer demanar.py i on posa DADES= poseu la ruta al fitxer.

Continuació

4 comments to Llengües (primera part)

  • Xavi

    Hola Carles, coneixes Granule? El teu escrit m’hi ha fet pensar.

    Me l’he posat a la 770 per a aprendre mentre viatjo

    http://granule.sourceforge.net/

    Fins ben aviat

  • Xavi

    Per cert. lo de la “suma anti-comentaris-brossa” no va del tot bé. Em va avisar un amici ho he provat abans: el primer cop ha fallat el 2n ha funcionat. Caldrà fer-hi un cop d’ull.

  • Xavi: molt bo el granule*!

    La meva mare va comprar una cosa semblant per l’escola: es deien “Bits”. La meva cosina ho té.
    Els Bits aquests són unes làmines amb una sola imatge (p. ex. torre de pissa però sola, amb el fons blanc, objectes, pintures, animals, llocs, etc.). Darrera la imatge hi ha 4 o 5 ítems. La idea és que la senyoreta ensenya la torre de pissa i llegeix el primer item “Pissa” i passa a la següent de forma ràpida.

    El següent cop crec que diu “Pissa”, “Regió Toscana” (2 ítems).

    Sembla que els resultat són molt bons: els nens (que a més són d’escola pública i pobre) veuen a algun lloc la torre pissa i mira, com si hi anessin anat 🙂

    *: però d’on caram treus les fitxes? 😀 que no ho he trobat!

    Sobre la usma anti-comentaris-brossa: confiaré que el teu amic sap sumar 😀 ho revisaré aviat 🙂

  • xavi

    Carles, m’ha fallat el 8 i 6: 14. Ha funcionat el 0 i 3: 0. Crec que al meu amic tambe li va fallar un de 2 xifres… potser va per aquí. Caldà provar.

    Lo del granule, costa de trobar pero hi ha fitxers amc cartes, i et diu com crear-los a partir d’altres docs.

    Chao

Leave a Reply

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>