É hora de repensar a maneira como conectamos Zoom, Skype e Google Hangouts.

Agora que passamos tanto de nossos dias no Zoom, acho que todos podemos ser adultos o suficiente para admitir: todos nós conversamos paralelamente, dizendo uma coisa para a câmera e outra lateralmente. Talvez tenha sido uma piada sobre Gchat às custas de um colega de trabalho. Talvez fosse apenas multitarefa alguns e-mails. Talvez fosse inserir uma senha em outro site.
É um comportamento relativamente inócuo, mas pode voltar para nos morder. Pesquisadores da Universidade do Texas em San Antonio e da Universidade de Oklahoma demonstraram algo assustador: Eles podem ler o que as pessoas estão digitando durante chamadas de vídeo no Zoom, Skype e Google Hangouts com precisão de até 93%. O que eles estão analisando para fazer isso? Não suas mãos, mas seus ombros.
empregos de nível de entrada no facebook
De uma perspectiva de alto nível, esta é uma preocupação, que obviamente foi esquecida por um tempo, diz a professora assistente de ciência da computação da Universidade do Texas, Murtuza Jadliwala, que liderou a pesquisa, examinando o que poderia acontecer se sua videoconferência fosse hackeada. E, na verdade, para ser muito franco, não iniciamos este trabalho para COVID-19. Isso levou um ano. . . . Mas começamos a perceber no COVID-19, quando tudo [está no vídeo chat], a importância de tal ataque é ampliada.
Como Jadliwala explica, o problema central é que nossos streams de vídeo face a face são apresentados em alta fidelidade e seus pixels transmitem mais informações do que imaginamos. Sem usar qualquer aprendizado de máquina especial ou técnicas de inteligência artificial, a equipe de Jadliwala descobriu como ler as mudanças sutis de pixel ao redor dos ombros de alguém para decifrar seus movimentos cardeais básicos: norte, sul, leste e oeste.
[Imagem: Mohd Sabra, Anindya Maiti, Murtuza Jadliwala / arXiv ]
Aplicadas a um teclado, essas quatro direções realmente significam muito. Se você estiver digitando cat, comece com o C, mova-se para o oeste para o A, depois volte para o leste para o T. Depois que os pesquisadores descobriram como ler essas direções através dos movimentos do ombro, eles foram capazes de criar um software que poderia cruzá-los com o que eles chamam de perfis de palavras construídos com um dicionário de inglês, que transformou o labirinto de direções em palavras significativas.peyton manning dançando sábado à noite ao vivo
A maneira como um hack desse tipo funcionaria é bem simples. Qualquer pessoa com acesso ao seu feed de vídeo pode gravá-lo - seja um estranho nefasto que invadiu o seu feed ou alguém que você conhece que faz parte da sua reunião. Em seguida, eles enviariam o feed de vídeo gravado por meio de um software, que analisaria quando você estivesse digitando e o que essa digitação contém.
Em um ambiente de laboratório, com uma certa cadeira, teclado e webcam - ao testar um conjunto limitado de palavras - a precisão média do software foi de 75%. Quando a equipe testou assuntos trabalhando em casa em configurações não controladas (eles foram solicitados a visitar qualquer site, escrever e-mails e inserir suas senhas), a precisão caiu significativamente. A equipe conseguiu fazer a engenharia reversa de 66% dos sites visitados, mas apenas 21% das palavras aleatórias em inglês e cerca de 18% das senhas digitadas. A razão para essa precisão diminuída é que o modelo faz inferências com base no contexto das sentenças, por isso tem um tempo mais difícil com palavras aleatórias. As senhas, por sua vez, muitas vezes não estão no dicionário, por isso é mais difícil para o software descobri-las simplesmente por referência cruzada ao idioma inglês. A queda na precisão fora do ambiente de laboratório tem menos a ver com a iluminação ou a qualidade da câmera do que com algumas complexidades do próprio software.
Outras coisas também confundiram o modelo. Foi um pouco menos preciso analisar mangas compridas em comparação com as mangas curtas. O cabelo comprido escondia os ombros de um sujeito inteiramente, basicamente funcionando como uma capa para o que eles estavam digitando. E as pessoas que caçavam e bicavam as teclas eram muito mais difíceis de ler do que aquelas que digitavam em alta velocidade e com forma perfeita.
Mas Jadliwala aponta que esta ainda é uma vulnerabilidade significativa, especialmente porque se baseia não no código problemático de uma empresa, mas em toda uma indústria de software de chat de vídeo da qual muitos de nós confiamos para comunicação sensível todos os dias. Essa vulnerabilidade de segurança se deve ao design do próprio meio de comunicação.
Muitas vezes, da forma como funciona a pesquisa [de segurança] responsável, se eu encontrar algum problema com o Zoom ou com o software do Google, não vou nem publicar. Vou entrar em contato com eles primeiro, diz Jadliwala. Ele optou por não esperar desta vez. Mas nossa pesquisa não é específica do Zoom ou do Google. Eles não podem fazer nada a respeito no nível do software em algum sentido.
E daí posso essas plataformas de chat de vídeo fazem? Simples: desfoque automaticamente o vídeo em torno dos ombros de alguém ao detectar alguém digitando. Considerando que plataformas como o Zoom agora permitem suavização de pele e fundos virtuais, há precedentes para editar seu stream de vídeo antes de compartilhá-lo com o mundo.
a música tema das garotas de ouro
Quanto ao que você pode fazer até então para proteger suas próprias comunicações, saiba que embora Jadliwala tenha compartilhado muitos dos fundamentos de sua pesquisa em domínio público, ele não compartilhou o código real que seu laboratório usou com outros pesquisadores, e ele não está planejando fazer isso até fevereiro de 2021, quando apresentará este artigo em uma conferência de segurança. Para alguém realizar este ataque [hoje], eles precisariam de muita experiência e conhecimento, diz Jadliwala.
Dito isso, até que Zoom, Skype e Hangouts comecem a confundir seus ombros, você deve considerar tudo o que digitar silenciosamente no disco. Ou apenas deixe seu cabelo crescer.