[HW4] Lettere accentate

1
1937764 (3520 points)
6 14 42
asked Nov 6, 2020 in HW4 obbligatorio by 1937764 (3,520 points)

Nella consegna è indicato:

togliendo gli accenti dalle lettere accentate

Visto che è vietato importare moduli, anche se inclusi in Python, creati appositi per "normalizzare" caratteri diversi da a-z, mi chiedevo se fossero previste solo lettere accentate presenti sulla tastiera.

Esempio: lettere come àèìòù sono da considerare, altre come ā, Đ, ĥ, ĩ o tutti i caratteri speciali che non hanno semplici accenti (grave e acuto) ma tilde, barre, etc possono essere ignorati. Ovvero, non serve considerare tutti i praticamente infiniti caratteri nella codifica UTF-8 (http://www.fileformat.info/info/charset/UTF-8/list.htm)

450 views

2 Answers

Best answer
AdSum (16290 points)
9 20 134
answered Nov 6, 2020 by AdSum (16,290 points)
selected Nov 6, 2020 by 1937764

Sono poesie, gli accenti presenti sulla tastiera servono per dare le inclinazioni fonetiche. A meno che non ci dia poesie scritte in demoniaco vedo dura la presenza di lettere come Đ o barre, quindi puoi anche ignorarle!
 

Mi rimangio tutto, per esempio è presente la "parola"

 pfxààÜØú

che viene tradotta in:

pfxaauou

Quindi si, devi prepararti anche al demoniaco.

Qualsiasi carattere speciale non "lettera" va ignorato, le lettere strane no, vanno tradotte

1
1937764 (3520 points)
6 14 42
commented Nov 6, 2020 by 1937764 (3,520 points)
Ok grazie. Quindi si possono ignorare anche le consonanti accentate come ź, ń, etc?
AdSum (16290 points)
9 20 134
commented Nov 6, 2020 by AdSum (16,290 points)
Tecnicamente si, vedendo i file sono inclusi solo italiano ed inglese, due lingue che non usano certi caratteri.
gusgus (1730 points)
5 8 31
commented Nov 6, 2020 by gusgus (1,730 points)
In realtà ci sono parole che non esistono né in italiano né in inglese, sembrano quasi provenienti da un finto latino (boh non ho mai studiato latino)
andrea.sterbini (172780 points)
513 935 1789
commented Nov 6, 2020 by andrea.sterbini (172,780 points)
Ci ho messo vocali accentate con ord(c) compreso tra 0 e 255
G
Giordano_Dionisi (3100 points)
12 38 58
commented Nov 6, 2020 by Giordano_Dionisi (3,100 points)
Io non sto capendo se ci sono o meno, perchè gusgus dice che non sono presenti mentre te dici che sono presenti... Io ho previsto solo le classiche lettere accentate italiane (vocali), ma realmente bisogna considerare anche tutte le altre straniere (tipo latine, norvegesi, svedesi e via dicendo !?!?)
gusgus (1730 points)
5 8 31
commented Nov 6, 2020 by gusgus (1,730 points)
ci sono ci sono, avevo completamente ignorato i file come "random-10-rnd" dove sono soltanto caratteri speciali
AdSum (16290 points)
9 20 134
commented Nov 6, 2020 by AdSum (16,290 points)
Basta aprire uno dei file .txt e ti renderai conto di tuo
G
Giordano_Dionisi (3100 points)
12 38 58
commented Nov 6, 2020 by Giordano_Dionisi (3,100 points)
Quindi per convertirle bisogna letteralmente fare a mano, magari tramite un dizionario, lo scorrimento di tutte queste lettere speciali e la corrispettiva traduzione in lingua "normale", giusto ?

Alla fine è giusto una rogna per trovare tutte le traduzioni e costruirsi a mano il dizionario correlato
gusgus (1730 points)
5 8 31
commented Nov 6, 2020 by gusgus (1,730 points)
la prima cosa che viene in mente è quella, poi si vedrà
1
1937764 (3520 points)
6 14 42
commented Nov 6, 2020 by 1937764 (3,520 points)
Contando che se vedi la tabella UTF-8 è immensa
G
Giordano_Dionisi (3100 points)
12 38 58
commented Nov 6, 2020 by Giordano_Dionisi (3,100 points)
sono 16 mila e passa caratteri... Al massimo lo chiederò al prof oggi a lezione proprio al volo
1
1937764 (3520 points)
6 14 42
commented Nov 6, 2020 by 1937764 (3,520 points)

Professore scusi, ha detto che nel testo ha messo solo caratteri con ord() tra 0 e 255, ma già in random-10-rnd.txt ho trovato Ÿ (LATIN CAPITAL LETTER Y WITH DIAERESIS) che ha ord() = 376

G
Giordano_Dionisi (3100 points)
12 38 58
commented Nov 6, 2020 by Giordano_Dionisi (3,100 points)
Perchè penso devi considerare tutte le lettere dell'Unicode che sono dell'ordine di 16 mila e passa.. Non basta la cosa codifica ASCII
G
Giordano_Dionisi (3100 points)
12 38 58
commented Nov 6, 2020 by Giordano_Dionisi (3,100 points)
gusgus (1730 points)
5 8 31
answered Nov 6, 2020 by gusgus (1,730 points)
edited Nov 6, 2020 by gusgus
Sono poesie quindi non dovrebbero uscire casi in cui caratteri speciali sono presenti. Tuttavia andando a controllare nel file zippato, i file .json con cui fare i test sono tutti rinominati "random" + il numero di caratteri scelti casualmente. A questo punto non ti saprei dire se effettivamente i caratteri speciali siano assenti. L'unica cosa che posso consigliarti è di andare a tentativi in modo da capire se ci sia questa eventualità.

EDIT:

Mi sono letto velocemente i file e sembra che siano le parole quelle scelte a caso, quindi no, non ci sono caratteri speciali di quel tipo
andrea.sterbini (172780 points)
513 935 1789
commented Nov 6, 2020 by andrea.sterbini (172,780 points)
Ho messo nel post dello HW 4 la lista delle vocali accentate