È meglio usare le app cloud o le app locali?

panbroggi@feddit.it · 1 year ago

È meglio usare le app cloud o le app locali?

Mechanize@feddit.it · 1 year ago

Allora, partiamo da alcuni presupposti che penso sian fondamentali:

Che tipo di documenti personali? Leggendo la lista che hai dato credo sian più che altro documentazioni di lavoro che, bene o male, anche se finissero nel vasto web non sarebbe una problematica seria. Fastidioso? Certo. Problematico? Eh.
È quasi impossibile far veramente un discorso sull’impatto ambientale senza saper seriamente che tipo d’uso e casistiche d’utilizzo hai. E anche sapendo quello sarebbe un discorso incredibilmente approssimativo. Puoi calcolare magari quanti W/h finiresti per usare, ma questo dice ben poco sul vero impatto ambientale.
In linea di massima, però, parti dal pensiero che se puoi metter tutto su un Raspberry Pi, o tenertelo direttamente sul tuo portatile/fisso perché ti serve solo quando sei con il PC acceso, di sicuro l’impatto è inferiore a qualsiasi altra soluzione. Al contempo la riduzione non è sinceramente significativa a livello globale.

Con questi presupposti ti direi: Usa il servizio che è più comodo per il tuo uso, senza perderci troppo sonno.

Mettendo ciò da parte mi piacerebbe parlare, più in generale, del cloud: credo sia importante per le persone capire cosa significa mettere qualcosa “nel cloud”.

Il cloud è solo una collezione di computer da qualche altra parte. Qualcuno gestisce i servizi per te, dandoti in cambio dei tuoi soldi (o direttamente dei tuoi dati) una comodità, o rendendo meno oneroso per la tua azienda l’uso di un servizio (stai praticamente esternalizzando il reparto IT).
Quando usi un servizio cloud devi però tenere a mente questo:

1- Per un attore malevolo avanzato più sei piccolo e meno sei interessante. Certo puoi aver litigato su qualche forum con xXxX420UberKringer69XxXx che in realtà è un esperto h4x0r, ma è abbastanza improbabile.
Questo significa che, generalmente, avere il tuo serverino in casa con le dovute minime accortezze (non lasciare tutte le porte aperte ed evitare di metterlo direttamente collegato alla rete esterna son già buoni passi, cosa che purtroppo in molti non fanno) è più sicuro di essere sul cloud di una qualche nuova startup che è recentemente esplosa in fama passando da 0 clienti a 10 milioni.
Perché, al contrario di quello che certi soggetti marketing vogliono farti credere, non si tratta di un “se” un servizio verrà bucato, ma di “quando”.
Più appetibili e numerosi sono i dati che un servizio contiene, più sofisticati diventano gli attacchi a cui deve far fronte. E non si tratta solo dell’hacker e degli 0-day ma anche, molto più spesso, di semplice ingegneria sociale (l’articolo di Wikipedia non è gran che, ma rende l’idea) che parte dal basso e pian piano scala i livelli di sicurezza, letteralmente truffando le persone e i sistemi informatici.

2- Se è sul cloud significa che finché sia tu che i loro server hanno l’accesso ad internet, potrai accedere ai tuoi dati ovunque tu (o chiunque altro con i dati d’accesso) sia, il che oggigiorno non è male. Al contempo se tu, o loro, hanno problemi (magari perché soggetti ad un attacco di negazione del servizio ) allora i tuoi dati non saranno accessibili per tutta la durata del disservizio. Puoi ovviare a questo problema mantenendo una copia aggiornata locale, ma a questo punto, vale lo sforzo d’avere un cloud? Usa direttamente qualcosa come rsync o syncthing. Al contrario del punto di prima qui più un servizio è grosso più è improbabile che ciò abbia un impatto significativo. È più semplice fare un DDoS di lemmy.world che buttare giù github.com . Ma succede anche quello.

3- Quando metti qualcosa su internet devi esser sempre pronto al fatto che l’informazione venga trapelata, in un modo o nell’altro. Questa è una regola di base che è sempre sano tener presente.

4- Le aziende mentono o travisano la realtà attraverso il marketing. Spesso parlano di “Military-grade cryptography” o altri bei paroloni che, spesso, si traducono in un meno ampolloso “usiamo un qualche standard”. E, ancor più spesso, anche se quello che dicono è tecnicamente vero, alla prova dei fatti è ininfluente. Per esempio anche se il servizio offre la criptografia dei tuoi dati mentre non sono utilizzati (un esempio del concetto: Collegamento ), ma offre la decriptazione lato server, significa che sono loro ad avere la chiave ai tuoi dati: non tu! Questo significa che se i loro server vengono bucati è plausibilissimo che anche la chiave ai tuoi dati venga ottenuta in un modo o nell’altro.
Senza considerare che è sempre possibile che condividano i tuoi dati con agenti terzi, come forze di polizia o “business partners”. Ovviamente esistono centinaia di modi per prevenirlo, ma devi comunque fidarti che l’azienda prenda questi passi supplementari. Il che spesso significa spese maggiori per loro. Eh.

5- Anche quando sono veramente crittografati e l’azienda non ha accesso alla chiave, può succedere che i loro server vengano bucati e i dati estrapolati: ci sono gruppi che mantengono i blob crittografati nella prospettiva che i computer di domani potranno bucarli, o perché abbastanza veloci, o perché si troverà una falla nello standard.

Questo non significa “non usare il cloud!” ma semplicemente che prima di usarlo bisogna tener presente quali sono i potenziali problemi. Un’azienda - o una persona - dovrebbe sempre fare una valutazione del rischio conscia prima d’inviare i propri dati, o quelli dei propri clienti, a qualche azienda terza.

panbroggi@feddit.it · 1 year ago

Grazie per questa panoramica dei rischi del cloud, anche per i riferimenti esterni! L’immagine che ne esce è quindi di evitare di mettere informazioni confidenziali sul cloud - il che è veramente una buona pratica. Non sapevo che alcuni gruppi tengono anche i blob crittografati e questo in generale mi sembra furbo da parte loro, e un rischio in più per chi si difende.

Secondo te c’è il rischio che, per esempio, i documenti sul cloud vengano usati per il training AI? Mi sembra una mole di dati potenzialmente nuova che le compagnie potrebbero iniziare a sfruttare.

Mechanize@feddit.it · 1 year ago

Secondo te c’è il rischio che, per esempio, i documenti sul cloud vengano usati per il training AI? Mi sembra una mole di dati potenzialmente nuova che le compagnie potrebbero iniziare a sfruttare.

Beh, senza andare troppo lontano possiamo guardare direttamente a Google e alle loro risposte: (Collegamento)

Google Docs, Sheets, & Slides uses data to improve your experience

To provide services like spam filtering, virus detection, malware protection and the ability to search for files within your individual account, we process your content.

To improve Google Docs, Sheets, & Slides’ performance and reliability, and to help with troubleshooting in case of issues while you use Google Docs, Sheets, & Slides, we collect performance data and crash analytics. We also save this info to help prevent abuse of our services and for analysis.

Questo cosa significa? Tutto e niente. Di sicuro non useranno i tuoi dati privati per addestrare Bard - per quello han già letteralmente l’intero internet di dati pubblici.

Però, per esempio, le tue Email son usate, dichiaratamente, per generare un modello per il tuo personale Smart Compose in Gmail:

For each user, a dedicated n-gram language model is trained on his or her “Sent” e-mails in the past a few months. The personal vocabulary is extracted from the same data set according to word frequency with a minimum number of word occurrence threshold, and the vocabulary size is constrained to be below a maximum threshold. Since there are always some out-of-vocabulary (OOV) words that are not included in either the global or personal vocabularies, we assign OOVs a tiny probability to ensure that the probability of all possible words sum up to one.

I dati aggregati vengon usati anche per altro? Molto probabile, ma non ho la pazienza di sfogliare tutto il ciarpame legale che i TOS di Google rappresenta. Comunque puoi trovare una discussione interessante, di qualche mese fa, su Hackernews. E sicuramente se hai tempo di cercare ce ne sono centinaia d’altre.

Non mi stupirebbe poi che startup di varia natura abbiano da qualche parte, in legalese e scritto in piccolo, che posson far quel che vogliono in qualsiasi momento con i dati che gli dai. Per questo, ripeto, una valutazione dei rischi dovrebbe esser obbligatoria per ogni azienda quando decide di utilizzare qualche servizio per la gestione dei suoi dati.

Ricapitolando, usare i tuoi dati privati per addestrare LLM? Rischioso e sinceramente non ne vale la pena. Usare i tuoi dati personali per creare modelli di varia natura per qualche tipo di analisi? Senza dubbio alcuno.