著者: (1) Yan Long, Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, USA (yanlong@umich.edu) (2) Chen Yan, College of Electrical Engineering, Zhejiang University, Hangzhou, China (yanchen@zju.edu.cn) (3) Shilin Xiao, College of Electrical Engineering, Zhejiang University, Hangzhou, China (bixilin@zju.edu.cn) (4) Shivan Prasad, Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, USA (shprasad@umich.edu) (5) Wenyuan Xu, College of Electrical Engineering, Zhejiang University, Hangzhou, China (wyxu@zju.edu.cn) (6) ケヴィン・フー、電気工学とコンピュータサイエンス、ミシガン大学、アン・アーボール、米国(kevinfu@umich.edu) Authors: (1) Yan Long, Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, USA (yanlong@umich.edu) (2) Chen Yan, College of Electrical Engineering, Zhejiang University, Hangzhou, China (yanchen@zju.edu.cn) (3) Shilin Xiao, College of Electrical Engineering, Zhejiang University, Hangzhou, China (bixilin@zju.edu.cn) (4) Shivan Prasad, Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, USA (shprasad@umich.edu) (5) Wenyuan Xu, College of Electrical Engineering, Zhejiang University, Hangzhou, China (wyxu@zju.edu.cn) (6) ケヴィン・フー、電気工学とコンピュータサイエンス、ミシガン大学、アン・アーボール、米国(kevinfu@umich.edu) 左のテーブル Abstract and I. Introduction (抽象とI.紹介) 2.脅威モデルと背景 Webcam メガネを通して視察 IV.反射認識性 & 要因 V.サイバー空間のテキスト・ターゲットの感受性 VI.サイト認識 第7話 議論 VIII.関連事業 IX.結論、承認、参照 附属書A:機器情報 附属書B:角度モデルを見る 附属書C:ビデオ会議プラットフォームの行動 附属書D:歪み分析 附属書E:Webテキストターゲット —Personal video conferencing has become a new norm after COVID-19 caused a seismic shift from in-person meetings and phone calls to video conferencing for daily communications and sensitive business. Video leaks participants’ on-screen information because eyeglasses and other reflective objects unwittingly expose partial screen contents. Using mathematical modeling and human subjects experiments, this research explores the extent to which emerging webcams might leak recognizable textual and graphical information gleaming from eyeglass reflections captured by webcams. The primary goal of our work is to measure, compute, and predict the factors, limits, and thresholds of recognizability as webcam technology evolves in the future. Our work explores and characterizes the viable threat models based on optical attacks using multi-frame super resolution techniques on sequences of video frames. Our models and experimental results in a controlled lab setting show it is possible to reconstruct and recognize with over 75% accuracy on-screen texts that have heights as small as 10 mm with a 720p webcam. We further apply this threat model to web textual contents with varying attacker capabilities to find thresholds at which text becomes recognizable. Our user study with 20 participants suggests present-day 720p webcams are sufficient for adversaries to reconstruct textual content on big-font websites. Our models further show that the evolution towards 4K cameras will tip the threshold of text leakage to reconstruction of most header texts on popular websites. Besides textual targets, a case study on recognizing a closed-world dataset of Alexa top 100 websites with 720p webcams shows a maximum recognition accuracy of 94% with 10 participants even without using machine-learning models. Our research proposes near-term mitigations including a software prototype that users can use to blur the eyeglass areas of their video streams. For possible long-term defenses, we advocate an individual reflection testing procedure to assess threats under various settings, and justify the importance of following the principle of least privilege for privacy-sensitive scenarios. Abstract 抽象 I.導入 オンラインビデオ通話は、特に最近のCOVID19大流行以来、遠隔コミュニケーションの方法として普及し、主要国におけるほぼ普遍的な職場からの政策を引き起こし、ビデオ会議は、企業や学校が大流行後でさえ人とのコミュニケーションを収容するための規範となった。 ビデオ会議は、視覚的な相互作用の快適さと浸透を人々に提供する一方で、無意識に、参加者として行動する悪意のある当事者によって利用される可能性のある敏感なテキスト情報を明らかにします。 参加者のスクリーンにはプライベートな情報が含まれる可能性があります。参加者のウェブカメラは、参加者のメガネによって反映されるときにこの情報をキャプチャし、無意識に相手に情報を提供します(図1)。我々はこの攻撃をウェブカメラピッキング攻撃とみなします。さらに、相手の能力は、解像度、フレームレート、およびその他の改善によってのみ増加し続けます。それゆえ、現在および可能な将来の設定でウェブカメラピッキング攻撃の結果と限界を理解することが重要です。 以前の研究では、コントロールされたセットアップで近隣のオブジェクトから光学反射を活用する類似の攻撃が実現可能であることが示されているが、高性能のデジタルシングルレンズ反射カメラ(DSLR)カメラと望遠鏡を遠隔で使用したデスク上でテイポットを観察するなど、[25][26]。より普遍的なウェブカメラを使用してピッキングの挑戦と特徴化は、現在のウェブカメラの低品質の画像によって質的に異なります。低品質のウェブカメラ画像は、ショットとISOノイズによる唯一の種類の歪みによって引き起こされ、光の受信が不十分で、新しい画像強化技術を求めます。さらに、ウェブカメラピッキング攻撃の脅威モデルを理解 テキストやグラフィックスを含む光学的反射を漏らすことができるメディアには多くの種類があります。テキストの漏洩は、測定可能な認識および情報漏洩の基本的な基準をモデリングするための自然な出発点であるため、画面上のグラフィックコンテンツを認識することによって表示されたウェブサイトを推測するなど、非テキストの情報の漏洩についての洞察を提供します。 我々は次の3つの主要な質問に答えようとしています: Q1:カメラピークの敵の能力に影響を与える主な要因は何ですか? Q2:現在および予測可能な未来における敵の能力の物理的限界は何ですか、そして敵はどのように限界を拡張することができますか? Q3:サイバースペースターゲットに対するカメラピークの Q1に答えるために、私たちは反射ピクセルサイズのための簡素化されたしかし合理的に正確な数学モデルを提案します。このモデルには、カメラの解像度とガラススクリーン距離などの要因が含まれており、カメラとビデオ技術が進化するにつれて、カメラのピッキング限界の予測が可能になります。反射認識のための客観メトリックとして複雑な波の構造類似性指数を使用することで、反射の信号対騒音比に影響を与える環境光強度を含む他の物理的要因の半定量分析も提供します。 Q2に答えるために、我々はカメラ画像の歪みを分析し、効果的な画像強化のために複数のフレームのスーパー解像度の再構築を提案し、限界を拡張します。我々は、最適化されたラボ環境で眼鏡反射データを収集し、Amazon Mechanical Turkおよび光学文字認識モデルのクラウドソーシングスタッフの両方を通じて反射の認識限界を評価します。 Q3 に答えるために、Web テキストのターゲットに焦点を当てて、現在と将来のウェブカメラの脅威の間の有意義な比較を可能にするベンチマークを構築します。 最初に、モデルと評価から生じた限界をウェブテキストコンテンツにマッピングし、ウェブ テキストサイズに関する過去のレポートを調査し、手動で 117 つのビッグフォントウェブサイトでフォントを検査します。 次に、20 人の参加者とユーザ研究を行い、著者1人が他の著者によって作成されたHTMLコンテンツを推測する対立者として行動します。 ユーザー研究の結果は、現在の 720p ウェブカメラが 117 つのビッグフォントウェブサイトと将来の 最後に、環境照明を調整し、ソフトウェアのガラス領域を曖昧にするなど、近期的な緩和の可能性について議論します。我々はまた、個々の反射評価手順と最小の特権の原則に従って長期的なソリューションを予測します。概要として、この作業の目的は、カメラの技術の進化とより安全なビデオ会議インフラの開発とともに、カメラの視聴の脅威の新興の研究の理論的基礎と基準を提供することです。 ∙ 私たちの仕事は、理論的モデリングと実験を使用して、ウェブカメラの視聴から情報の漏洩の程度を予測する限界と主な要因を定量化します. This characterization helps predict future unknown vulnerabilities tied to the limits of evolving webcam technologies that do not yet exist. ∙ Web テキスト ターゲットに焦点を当てたベンチマークで、ウェブ テキスト デザインの規約と現在のカメラの 20 人の参加者によるユーザー 研究に基づくベンチマーク方法で、ベンチマークは今後数年間で仮想カメラと新興カメラの両方に適用できます。 ∙ ソフトウェアベースのバラバラフィルターの使用と物理的な設定の変更を含む短期的な緩和の分析、およびプロアクティブなテストと最小特権の原則に従って可能な長期的な防御の分析。 この論文は、ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この紙は ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0インターナショナルライセンス ARCHIV で利用可能 ARCHIV で利用可能