Ciao a tutti, oggi ho avuto uno spunto interessante in una discussione con una collega. Vorrei chiedere il vostro parere a riguardo e, magari, se avete qualche link a riguardo.

La questione è la seguente: è meglio usare per i propri documenti personali una soluzione locale come LibreOffice oppure una soluzione cloud come Google Documents / Drive? Nel caso, perché?

Tra gli ambiti rilevanti del confronto penso ci siano l’impatto ambientale, la sicurezza e la privacy (credo si intuisca la mia posizione naive a riguardo).

I documenti personali a cui mi riferisco includono ad esempio le presentazioni per i meeting o i documenti per gli appunti; trascurerei il caso d’uso in cui è necessario modificare in modo collaborativo.

  • Mechanize@feddit.it
    link
    fedilink
    Italiano
    arrow-up
    2
    ·
    1 year ago

    Secondo te c’è il rischio che, per esempio, i documenti sul cloud vengano usati per il training AI? Mi sembra una mole di dati potenzialmente nuova che le compagnie potrebbero iniziare a sfruttare.

    Beh, senza andare troppo lontano possiamo guardare direttamente a Google e alle loro risposte: (Collegamento)

    Google Docs, Sheets, & Slides uses data to improve your experience

    To provide services like spam filtering, virus detection, malware protection and the ability to search for files within your individual account, we process your content.

    To improve Google Docs, Sheets, & Slides’ performance and reliability, and to help with troubleshooting in case of issues while you use Google Docs, Sheets, & Slides, we collect performance data and crash analytics. We also save this info to help prevent abuse of our services and for analysis.

    Questo cosa significa? Tutto e niente. Di sicuro non useranno i tuoi dati privati per addestrare Bard - per quello han già letteralmente l’intero internet di dati pubblici.

    Però, per esempio, le tue Email son usate, dichiaratamente, per generare un modello per il tuo personale Smart Compose in Gmail:

    For each user, a dedicated n-gram language model is trained on his or her “Sent” e-mails in the past a few months. The personal vocabulary is extracted from the same data set according to word frequency with a minimum number of word occurrence threshold, and the vocabulary size is constrained to be below a maximum threshold. Since there are always some out-of-vocabulary (OOV) words that are not included in either the global or personal vocabularies, we assign OOVs a tiny probability to ensure that the probability of all possible words sum up to one.

    I dati aggregati vengon usati anche per altro? Molto probabile, ma non ho la pazienza di sfogliare tutto il ciarpame legale che i TOS di Google rappresenta. Comunque puoi trovare una discussione interessante, di qualche mese fa, su Hackernews. E sicuramente se hai tempo di cercare ce ne sono centinaia d’altre.

    Non mi stupirebbe poi che startup di varia natura abbiano da qualche parte, in legalese e scritto in piccolo, che posson far quel che vogliono in qualsiasi momento con i dati che gli dai. Per questo, ripeto, una valutazione dei rischi dovrebbe esser obbligatoria per ogni azienda quando decide di utilizzare qualche servizio per la gestione dei suoi dati.

    Ricapitolando, usare i tuoi dati privati per addestrare LLM? Rischioso e sinceramente non ne vale la pena. Usare i tuoi dati personali per creare modelli di varia natura per qualche tipo di analisi? Senza dubbio alcuno.