X86/X86_64: Switch to locked add from mfence I finally received the answers about the performance of locked add vs. mfence for Java memory semantics. Locked add has been faster than mfence for all processors since the Pentium 4. Accordingly, I have made the synchronization use locked add at all times, removing it from an instruction set feature. Also add support in the optimizing compiler for barrier type kNTStoreStore, which is used after non-temporal moves. Change-Id: Ib47c2fd64c2ff2128ad677f1f39c73444afb8e94 Signed-off-by: Mark Mendell <mark.p.mendell@intel.com>

commit: 7aa04a145e2e0d2949a1a1c7fd4c72d08d698587 [log] [tgz]
author: Mark Mendell <mark.p.mendell@intel.com> Wed Jan 27 22:39:07 2016 -0500
committer: Mark Mendell <mark.p.mendell@intel.com> Tue Apr 12 17:25:51 2016 -0400
tree: 631554549d4b4dbde438fa0e6e636832427fe6c5
parent: 4009bc645e3358d3150b7f94dd90a2c939f0fa51 [diff]
diff --git a/compiler/optimizing/code_generator_x86.cc b/compiler/optimizing/code_generator_x86.cc
index 304cf08..1fd0cbe 100644
--- a/compiler/optimizing/code_generator_x86.cc
+++ b/compiler/optimizing/code_generator_x86.cc

@@ -4263,8 +4263,10 @@
       // nop
       break;
     }
-    default:
-      LOG(FATAL) << "Unexpected memory barrier " << kind;
+    case MemBarrierKind::kNTStoreStore:
+      // Non-Temporal Store/Store needs an explicit fence.
+      MemoryFence(/* non-temporal */ true);
+      break;
   }
 }
 

diff --git a/compiler/optimizing/code_generator_x86.h b/compiler/optimizing/code_generator_x86.h
index 69a6253..b87bf45 100644
--- a/compiler/optimizing/code_generator_x86.h
+++ b/compiler/optimizing/code_generator_x86.h

@@ -538,7 +538,7 @@
   // touch (but not change) the top of the stack.
   // The 'non_temporal' parameter should be used to ensure ordering of non-temporal stores.
   void MemoryFence(bool non_temporal = false) {
-    if (!non_temporal && isa_features_.PrefersLockedAddSynchronization()) {
+    if (!non_temporal) {
       assembler_.lock()->addl(Address(ESP, 0), Immediate(0));
     } else {
       assembler_.mfence();

diff --git a/compiler/optimizing/code_generator_x86_64.cc b/compiler/optimizing/code_generator_x86_64.cc
index 056b69b..225f547 100644
--- a/compiler/optimizing/code_generator_x86_64.cc
+++ b/compiler/optimizing/code_generator_x86_64.cc

@@ -4058,8 +4058,10 @@
       // nop
       break;
     }
-    default:
-      LOG(FATAL) << "Unexpected memory barier " << kind;
+    case MemBarrierKind::kNTStoreStore:
+      // Non-Temporal Store/Store needs an explicit fence.
+      MemoryFence(/* non-temporal */ true);
+      break;
   }
 }
 

diff --git a/compiler/optimizing/code_generator_x86_64.h b/compiler/optimizing/code_generator_x86_64.h
index d7ce7c6..ce805cf 100644
--- a/compiler/optimizing/code_generator_x86_64.h
+++ b/compiler/optimizing/code_generator_x86_64.h

@@ -509,10 +509,10 @@
 
   // Ensure that prior stores complete to memory before subsequent loads.
   // The locked add implementation will avoid serializing device memory, but will
-  // touch (but not change) the top of the stack. The locked add should not be used for
-  // ordering non-temporal stores.
+  // touch (but not change) the top of the stack.
+  // The 'non_temporal' parameter should be used to ensure ordering of non-temporal stores.
   void MemoryFence(bool force_mfence = false) {
-    if (!force_mfence && isa_features_.PrefersLockedAddSynchronization()) {
+    if (!force_mfence) {
       assembler_.lock()->addl(Address(CpuRegister(RSP), 0), Immediate(0));
     } else {
       assembler_.mfence();
commit	7aa04a145e2e0d2949a1a1c7fd4c72d08d698587	[log] [tgz]
author	Mark Mendell <mark.p.mendell@intel.com>	Wed Jan 27 22:39:07 2016 -0500
committer	Mark Mendell <mark.p.mendell@intel.com>	Tue Apr 12 17:25:51 2016 -0400
tree	631554549d4b4dbde438fa0e6e636832427fe6c5
parent	4009bc645e3358d3150b7f94dd90a2c939f0fa51 [diff]