Autorzy : (1) Yan Long, inżynieria elektryczna i informatyka, Uniwersytet Michigan, Ann Arbor, USA (yanlong@umich.edu); (2) Chen Yan, College of Electrical Engineering, Zhejiang University, Hangzhou, Chiny (yanchen@zju.edu.cn); (3) Shilin Xiao, Kolegium Inżynierii Elektrycznej, Uniwersytet Zhejiang, Hangzhou, Chiny (bixilin@zju.edu.cn); (4) Shivan Prasad, inżynieria elektryczna i informatyka, Uniwersytet Michigan, Ann Arbor, USA (shprasad@umich.edu); (5) Wenyuan Xu, Kolegium Inżynierii Elektrycznej, Uniwersytet Zhejiang, Hangzhou, Chiny (wyxu@zju.edu.cn); (6) Kevin Fu, inżynieria elektryczna i informatyka, University of Michigan, Ann Arbor, USA (kevinfu@umich.edu). Authors: (1) Yan Long, inżynieria elektryczna i informatyka, Uniwersytet Michigan, Ann Arbor, USA (yanlong@umich.edu); (2) Chen Yan, College of Electrical Engineering, Zhejiang University, Hangzhou, Chiny (yanchen@zju.edu.cn); (3) Shilin Xiao, Kolegium Inżynierii Elektrycznej, Uniwersytet Zhejiang, Hangzhou, Chiny (bixilin@zju.edu.cn); (4) Shivan Prasad, inżynieria elektryczna i informatyka, Uniwersytet Michigan, Ann Arbor, USA (shprasad@umich.edu); (5) Wenyuan Xu, Kolegium Inżynierii Elektrycznej, Uniwersytet Zhejiang, Hangzhou, Chiny (wyxu@zju.edu.cn); (6) Kevin Fu, inżynieria elektryczna i informatyka, University of Michigan, Ann Arbor, USA (kevinfu@umich.edu). Stół po lewej Abstrakcja i I. Wprowadzenie Model zagrożeń i tło Webcam Peeking przez okulary IV. Rozpoznawalność refleksji i czynniki V. Cyberprzestrzeni Textual Target Susceptibility VI. Rozpoznanie strony internetowej VII. Dyskusja VIII. Praca powiązana IX. Konkluzja, uznanie i odniesienia Załącznik A: Informacje o sprzęcie Załącznik B: Wizualizacja modelu kątowego Załącznik C: Zachowania platform konferencyjnych wideo Załącznik D: Analiza zniekształceń Załącznik E: Cele tekstowe stron internetowych —Personal video conferencing has become a new norm after COVID-19 caused a seismic shift from in-person meetings and phone calls to video conferencing for daily communications and sensitive business. Video leaks participants’ on-screen information because eyeglasses and other reflective objects unwittingly expose partial screen contents. Using mathematical modeling and human subjects experiments, this research explores the extent to which emerging webcams might leak recognizable textual and graphical information gleaming from eyeglass reflections captured by webcams. The primary goal of our work is to measure, compute, and predict the factors, limits, and thresholds of recognizability as webcam technology evolves in the future. Our work explores and characterizes the viable threat models based on optical attacks using multi-frame super resolution techniques on sequences of video frames. Our models and experimental results in a controlled lab setting show it is possible to reconstruct and recognize with over 75% accuracy on-screen texts that have heights as small as 10 mm with a 720p webcam. We further apply this threat model to web textual contents with varying attacker capabilities to find thresholds at which text becomes recognizable. Our user study with 20 participants suggests present-day 720p webcams are sufficient for adversaries to reconstruct textual content on big-font websites. Our models further show that the evolution towards 4K cameras will tip the threshold of text leakage to reconstruction of most header texts on popular websites. Besides textual targets, a case study on recognizing a closed-world dataset of Alexa top 100 websites with 720p webcams shows a maximum recognition accuracy of 94% with 10 participants even without using machine-learning models. Our research proposes near-term mitigations including a software prototype that users can use to blur the eyeglass areas of their video streams. For possible long-term defenses, we advocate an individual reflection testing procedure to assess threats under various settings, and justify the importance of following the principle of least privilege for privacy-sensitive scenarios. Abstract abstrakcyjna I. Wprowadzenie Internetowe połączenia wideo stały się powszechne jako metoda komunikacji na odległość, zwłaszcza od niedawnej pandemii COVID19, która spowodowała prawie uniwersalną politykę pracy z domu w głównych krajach [24], [27], [31] i uczyniła wideokonferencję normą dla firm i szkół, aby pomieścić komunikację międzyludzką nawet po pandemii [6], [15], [43], [51]. Podczas gdy wideokonferencje zapewniają ludziom wygodę i zanurzenie w interakcjach wizualnych, nieświadomie ujawniają wrażliwe informacje tekstowe, które mogłyby zostać wykorzystane przez złośliwą stronę działającą jako uczestnik. ekran uczestnika może zawierać prywatne informacje. Własna kamera internetowa uczestnika może przechwytywać te informacje, gdy są odzwierciedlone przez okulary uczestnika i nieświadomie dostarczać informacji do przeciwnika (rysunek 1). Odnosimy się do tego ataku jako ataku peekingu na kamerę. Ponadto możliwości przeciwnika będą rosnąć tylko dzięki poprawie rozdzielczości, szybkości ramy i więcej. Poprzednie prace pokazują, że podobne ataki wykorzystujące odbiór optyczny z pobliskich obiektów w kontrolowanych ustawieniach są wykonalne, takie jak obserwacja herbat na biurku z wysokiej jakości cyfrowymi kamerami jednoobiektywowymi (DSLR) i teleskopami na odległość [25], [26]. Wyzwanie i charakterystyka peekingu przy użyciu bardziej wszechobecnych kamer internetowych są jednak jakościowo różne ze względu na obrazy o niższej jakości dzisiejszych kamer internetowych. Obrazy z niskiej jakości kamer internetowych są spowodowane unikalnymi rodzajami zniekształceń, a mianowicie strzałem i hałasem ISO z powodu niewystarczającego odbioru światła i wezwaniem do nowych technik ulepszania obrazu. Ponadto potrzebne są Istnieje wiele rodzajów mediów, które mogą uciekać nad refleksjami optycznymi, w tym tekstem i grafiką. Koncentrujemy się na wycieku tekstowym w tej pracy, ponieważ jest to naturalny punkt wyjścia dla wymiernej rozpoznawalności i modelowania podstawowej linii wyjściowej wycieku informacji, ale także dostarcza wglądu do wycieku informacji nietekstowych, takich jak wyciąganie wyświetlanych stron internetowych poprzez rozpoznawanie zawartości graficznej na ekranie. Staramy się odpowiedzieć na trzy główne pytania: P1: Jakie są główne czynniki wpływające na zdolność przeciwnika do przeglądania stron internetowych? P2: Jakie są fizyczne granice zdolności przeciwnika w teraźniejszości i przewidywalnej przyszłości i jak przeci Aby odpowiedzieć na pytanie Q1, proponujemy uproszczony, ale stosunkowo dokładny model matematyczny dla rozmiaru pikseli odblaskowych. Model obejmuje czynniki takie jak rozdzielczość kamery i odległość ze szkłem do ekranu i umożliwia przewidywanie granic odblaskowych kamery internetowej w miarę ewolucji technologii kamery i wideo. Korzystając z wskaźnika podobieństwa strukturalnego złożonej fali jako obiektywnej metryki rozpoznawalności odblasków, zapewniamy również analizę półkwanytatywną dla innych czynników fizycznych, w tym intensywności światła otoczenia, które wpływają na stosunek sygnału do hałasu odblasków. Aby odpowiedzieć na pytanie Q2, analizujemy zniekształcenia w obrazach kamery i proponujemy wielokrotną rekonstrukcję super rozdzielczości w celu skutecznego wzmocnienia obrazu, aby rozszerzyć granice. Następnie gromadzimy dane o odbiciu okularów w zoptymalizowanych środowiskach laboratoryjnych i oceniamy granice rozpoznawalności refleksji za pośrednictwem zarówno pracowników crowdsourcingu na Amazon Mechanical Turk, jak i optycznych modelach rozpoznawania znaków. Aby odpowiedzieć na kwartał 3, koncentrujemy się na celach tekstowych sieci Web, aby zbudować benchmark, który umożliwia znaczące porównania między obecnymi i przyszłymi zagrożeniami w zakresie przeglądania stron internetowych. Najpierw mapujemy granice pochodzące z modelu i oceny do treści tekstowych sieci Web, badając wcześniejsze raporty o rozmiarze tekstu sieci Web i ręcznie sprawdzając czcionki na 117 stronach internetowych o dużych czcionkach. Następnie przeprowadzamy badanie użytkowników z 20 uczestnikami i gramy w grę z wyzwaniem, w której jeden z autorów działa jako przeciwnik, aby wywnioskować zawartość HTML stworzoną przez innych autorów. Wyniki badania użytkownika sugerują, że obecne kamery internetowe 720p mogą przeglądać teksty na 117 stronach internetowych Wreszcie omawiamy możliwe krótkoterminowe ograniczenia, w tym dostosowanie oświetlenia środowiskowego i rozmycie obszaru szkła w oprogramowaniu. Rozważamy również długoterminowe rozwiązania zgodnie z indywidualną procedurą oceny refleksji i zasadą najmniejszego przywileju. Podsumowując, celem tej pracy jest zapewnienie teoretycznej podstawy i punktu odniesienia do badania pojawiających się zagrożeń z punktu widzenia kamery z rozwijającą się technologią kamery i rozwojem infrastruktury konferencji wideo. Podsumowujemy nasze główne wkłady: ∙ Nasza praca mierzy granice i podstawowe czynniki, które przewidują stopień wycieku informacji z przeglądania stron internetowych za pomocą modelowania teoretycznego i eksperymentowania. Nasza metodologia referencyjna opiera się na konwencjach projektowania tekstów internetowych i 20-osobowym badaniu użytkowników dotyczącym dzisiejszych kamer, tak aby w nadchodzących latach można było zastosować tę metodę zarówno do hipotetycznych, jak i rozwijających się kamer. ∙ Analiza krótkoterminowych ograniczeń, w tym stosowanie opartych na oprogramowaniu filtrów rozmycia i zmiany ustawień fizycznych, a także ewentualnych długoterminowych zabezpieczeń poprzez proaktywne testowanie i stosowanie zasady najmniejszego przywileju. Niniejszy dokument jest dostępny w archiwum pod licencją ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL. Ten dokument jest Licencja ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL Dostępne w Archiwum Dostępne w Archiwum